#14 #24 el comañero en #20 lo indica bien.
¿Qué es un modelo llm? Pues una serie de tensores (matrices++) a las que hemos asociado unos valores en cada uno de sus elementos, esos valores están relacionados con aquello con lo que lo hayamos entrado. En el caso de llm (large language models) es con texto. De este modo, toda secuencia textual puede ser representada como un vector en un espacio. Tal como cuando hacíamos en el cole (x, y, z), pero en este caso tiene muchas más dimensiones, como por ejemplo, espacios de 8192 dimensiones.
Para un problema de clasificación podemos transformar el texto en este espacio n-dimensional, esto es hacer "embedding"; ello nos señala un punto en dicho espacio. Como tenemos un espacio podemos hallar distancias mediante una métrica. Hay muchas métricas diferentes. Con esto podemos comparar dos vectores en el espacio (dos puntos en el espacio), y ver si están cerca o lejos. Podremos quedarnos con, por ejemplo, los 5 puntos más próximos. Esta es una forma de clasificar.
Cuando trabajamos con inferencia en llm, en vez de hacer clasificación (qué puntos en nuestro espacio están más cerca), lo que hacemos es predicción, es decir, cuál es el valor más probable en el contexto de la siguiente palabra. Es lo que hace la predicción de tu teclado del móvil cuando te da palabras propuestas. Y como tal, es eso, una probabilidad. Hay muchas maneras de afinar la mejor de las probabilidades; en esto se está avanzando un montón. Y es sobre esto sobre lo que se montan los chatgpts, los claudes y, en esencia, todos los modelos llm orientados a instrucciones.
Mi comentario viene a que, como cualquier tecnología punta, existe sobre ella mucho misticismo e hype. Esto hace que se sobrestimen las capacidades de inferencia de los modelos. No me malentendáis, son la hostia, sin duda. Pero es un solución probabilística a tu problema. Si lo que quieres es algo reproducible en un problema concreto como, insisto, en la clasificación: define una métrica y mide la distancia entre vectores. Eso es determinista.
Le he pasado mi mensaje a chatgpt y le he pedido que lo haga más accesible todavía:
spoiler¿Qué es un modelo LLM? Pues, en términos sencillos, es una serie de tensores (algo así como matrices más complejas) a los que hemos asociado valores numéricos que el modelo ha aprendido a partir de un conjunto de datos de texto. Estos valores reflejan patrones y relaciones que estaban presentes en los datos de entrenamiento. Así, un modelo LLM puede representar cualquier secuencia textual como un vector en un espacio matemático. Si recuerdas las coordenadas (x, y, z) que usábamos en el colegio, es algo similar, pero aquí trabajamos con espacios de muchísimas dimensiones, como 8192, por ejemplo.
Si queremos resolver un problema de clasificación, podemos transformar el texto en este espacio n-dimensional a través de un proceso llamado embedding, que nos da un punto en ese espacio. Con este punto y un conjunto de métricas (como la distancia Euclidiana o coseno), podemos medir qué tan cerca o lejos están diferentes vectores, lo que nos permite agrupar o clasificar textos similares. Por ejemplo, podríamos identificar los 5 textos más cercanos a un mensaje dado.
En cambio, cuando hablamos de inferencia en LLM, no buscamos clasificar, sino predecir. Aquí, el modelo intenta calcular cuál es la palabra más probable que debería venir a continuación en un contexto dado. Esto es exactamente lo que hace el teclado predictivo de tu móvil cuando sugiere palabras. Todo se basa en probabilidades: el modelo evalúa todas las opciones posibles y selecciona la más probable. Hay muchas técnicas para afinar estas predicciones, y aquí es donde radica el avance en modelos como ChatGPT, Claude y otros sistemas orientados a instrucciones.
Ahora bien, como ocurre con cualquier tecnología avanzada, los LLM están rodeados de cierto misticismo y sobreestimación de sus capacidades. Son herramientas poderosas, pero su esencia es resolver problemas probabilísticos. Si buscas una solución reproducible para algo específico, como clasificación, podrías usar métodos más deterministas: define una métrica clara y mide distancias entre vectores. Para problemas abiertos, donde la incertidumbre es mayor, los LLM son una opción excelente, aunque probabilística.
pd: Por último, siempre es bueno recordar que si tienes interés en estas cosas disponemos de un hilo genial del compañero @gonya707 : https://www.mediavida.com/foro/dev/comunidad-machine-learning-deep-learning-685637