Radiografia de GPT: principales componentes

Los modelos LLMs (large lenguage model) como GPT han revolucionado nuestra capacidad para generar y comprender texto, imagenes, videos etc. Como funcionan? de donde proviene semejante tecnología que ya está revolucionando todas las industrias sin excepción?

Evolución de las Redes Neuronales y el Surgimiento de los LLMs

En los últimos años, la inteligencia artificial ha avanzado a pasos agigantados, especialmente en el campo del deep learning. Inicialmente, las redes neuronales multilayer fueron utilizadas para resolver tareas básicas, marcando el inicio de una revolución tecnológica. Posteriormente, las redes neuronales convolucionales (CNNs) surgieron para entender imágenes, mientras que las redes neuronales recurrentes (RNNs) se especializaron en analizar textos, permitiendo tanto el análisis como la generación de patrones complejos.

Un hito clave llegó en 2017 con los Transformers, una nueva arquitectura que transformó nuestra concepción de la inteligencia artificial. Desde ese momento, los Transformers han sido la base de modelos avanzados de deep learning utilizados en diversas aplicaciones, incluyendo los LLMs como GPT-3.

Comprendiendo los Transformers y Su Funcionamiento

El avance de los Transformers cambió las reglas del juego. Antes de su aparición, las redes neuronales recurrentes dominaban el procesamiento del lenguaje natural (NLP). Sin embargo, estas tenían una limitación significativa: su capacidad de memoria. A medida que el procesamiento de una secuencia de palabras avanzaba, la influencia de las primeras palabras disminuía su influencia, haciendo que las RNNs "olvidaran" información con el tiempo y el texto perdía sentido.

El problemas de la falta de memoria de la Redes neuronales recurrentes sucede entre palabras que están muy distanciadas y no tenemos claridad cuales son sus relaciones y nuestro objetivo es lograr entender la relación de todas las palabras entre todas las palabras sin importar la distancia entre ellas.

Mecanismos de Atención

En este momento es donde llega uno de los componentes mas importantes, los Mecanismos de atención, introducidos por los Transformers, demostraron ser revolucionarios. Estos mecanismos permiten que cada palabra de una secuencia se relacione con todas las demás, independientemente de la distancia que las separe. Esto se logra mediante vectores de atención que determinan la relevancia de cada palabra en el contexto de la frase.

Cada palabra es representada por un vector multidimensional que contienen información semántica y sintética de la palabra que representa y a su vez nos permite realizar cálculos matemáticos. De este modo podemos buscar relación entre vectores cuya dirección en el espacio multidimensional tendrán un peso o una influencia según la relación con otras palabras.

Entonces cada palabra se transforma en un vector y estos se combinan y ponderan según su peso. En términos matemáticos la relación de intensidad cruzada entre todas las palabras permiten calcular la matriz de atención la cual nos indica cuánto peso le asigna a cada palabra en la secuencia de texto en función de su relación con las demás palabras de la secuencia.

Esta arquitectura es la base de los modelos LLMs como GPT, que han demostrado capacidades increíbles en la generación y comprensión de texto. Para calcular la matriz de atención se proyectan transformers que aprenden durante el entrenamiento, estos vectores se dividen en 3 (key, query, value) esta reproyección que aprende el modelo, permite modelar la secuencia de entrada como un diccionario key – value.

GAME CHANGER: RLHF

Sin embargo el modelo GPT (Generative Pre-trained Transformer) presentado en 2018 no fue el verdadero game changer, sino su componente principal RLHF, aprendizaje por refuerzo con retroalimentación humana, el cual le permite al modelo mejorar gradualmente sus respuestas con ayuda humana.

El aprendizaje por refuerzo con retroalimentación humana es un enfoque que ha permitido que los modelos mejoren continuamente sus respuestas mediante la interacción y el feedback humano. El proceso de RLHF implica entrenar al modelo para que tome decisiones óptimas en función de las recompensas o castigos que recibe.

El RLHF fue fundamental para refinar modelos como GPT. En este proceso, se recopilan grandes cantidades de datos de diálogos y se utilizan para ajustar finamente el modelo, adaptándolo a la tarea específica de generar respuestas coherentes. Los humanos juegan un papel clave para ordenar y evaluar las respuestas del modelo, permitiendo así que el sistema aprenda a producir contenido de alta calidad que se alinea con las expectativas y necesidades humanas.

Esta combinación de aprendizaje supervisado y refuerzo ha sido una de las innovaciones más disruptivas en la inteligencia artificial. Ha permitido que los modelos no solo comprendan y generen texto de manera eficiente, sino que también se adapten a las preferencias humanas, haciendo que las interacciones con estos sistemas sean más naturales.

Ahora tal vez sera mas simple entender algunos conceptos a la hora de pensar en GenAI, inteligencia artificial generativa la cual crea nuevos datos basados en mucho en todo lo que describe este post y como chatGPT utiliza estos componentes para lograr una experiencia increíble explotando la generación de datos basado en un dataset con +570 GB de información basado en info de internet, wikis, papers, páginas de noticias e incluso código de GitHub.