La red social X libera modelo y la arquitectura de Grok
El modelo de lenguaje grande Grok-1 cuenta con 314.000 millones de parámetros y ha sido entrenado con "una gran cantidad de datos", con una pila de inferencia y un entrenamiento personalizada basado en Kubernetes, Rust y JAX.
Xcorp ha hecho públicos el modelo y la arquitectura que impulsan el ‘chatbot’ de inteligencia artificial de la red social X (antigua Twitter), que pueden consultarse en un repositorio de GitHub.
Grok es el ‘chatbot’ que X introdujo en pruebas en la suscripción Premium+, con el que los usuarios pueden obtener respuestas en tiempo real con un humor que no es apto para todos, como comentó en noviembre el magnate Elon Musk.
El dueño de X se inspiró en ‘Guía del autoestopista galáctico’, una de sus novelas de cabecera, para el desarrollo de este ‘chatbot’, al que dotó de cierta personalidad para interaccionar con los usuarios, «con un poco de ingenio» y «una vena rebelde».
La división dedicada a la inteligencia artificial en Xcorp, xAI, ha compartido en GitHub los pesos del modelo base y la arquitectura de red, que asegura que ha entrenado desde cero, como explica en su blog oficial.
El modelo de lenguaje grande Grok-1 cuenta con 314.000 millones de parámetros y ha sido entrenado con «una gran cantidad de datos», con una pila de inferencia y un entrenamiento personalizada basado en Kubernetes, Rust y JAX.
En GitHub, la compañía ha publicado el punto de control de Grok-1 sin procesar, de la fase de preentrenamiento que concluyó en octubre del 2023. En concreto, ha facilitado código de ejemplo JAX para cargar y ejecutarlo, para lo que recomienda contar, dado su peso, con «suficiente memoria de GPU».
Y se ha liberado con una licencia Apache 2.0, lo que significa que los desarrolladores investigadores interesados pueden utilizarlo con fines comerciales pero sin acceso a los datos con los que se ha entrenado ni a las conexiones en tiempo real. (Europa Press)