
Desde principios de 2025, los laboratorios de IA nos han inundado con tantos modelos nuevos que me cuesta mantener el ritmo.
¡Pero las tendencias dicen que a nadie le importa! Solo existe ChatGPT:
¿Cómo es eso?
Los nuevos modelos son geniales, pero sus nombres son un desastre. Además, ya ni siquiera se pueden distinguir entre ellos por las pruebas de rendimiento. El simple "este es el mejor, úsalo todo el mundo" ya no funciona.
En resumen, hay muchos modelos de IA verdaderamente fantásticos en el mercado, pero pocas personas los utilizan realmente.
¡Y eso es una pena!
Intentaré dar sentido al caos de nombres, explicar la crisis de referencia y compartir consejos sobre cómo elegir el modelo adecuado para sus necesidades.
Dario Amodei lleva mucho tiempo bromeando con que podríamos crear IA antes de aprender a nombrar nuestros modelos con claridad. Google, tradicionalmente, lidera la confusión:
Para ser justos, tiene cierto sentido. Cada modelo "básico" ahora tiene muchas actualizaciones. No siempre son lo suficientemente innovadoras como para justificar cada actualización como una nueva versión. De ahí vienen todos estos prefijos.
Para simplificar las cosas, preparé una tabla de tipos de modelos de los principales laboratorios, eliminando todos los detalles innecesarios.
Entonces, ¿qué son estos tipos de modelos?
Existen modelos básicos enormes y potentes. Son impresionantes, pero lentos y costosos a gran escala.
Por eso inventamos la destilación : tomamos un modelo base, entrenamos un modelo más compacto con sus respuestas y obtenemos aproximadamente las mismas capacidades, sólo que más rápido y más barato.
Esto es especialmente crucial para los modelos de razonamiento . Los modelos con mejor rendimiento ahora siguen cadenas de razonamiento de varios pasos: planificar la solución, ejecutarla y verificar el resultado. Es eficaz, pero costoso.
También hay modelos especializados: para búsqueda, modelos muy económicos para tareas sencillas o modelos para campos específicos como medicina y derecho. Además, hay un grupo separado para imágenes, vídeo y audio. No los incluí todos para evitar confusiones. También ignoré deliberadamente otros modelos y laboratorios para simplificarlo al máximo.
A veces, más detalles sólo empeoran las cosas.
Se ha vuelto difícil elegir un claro ganador. Andrej Karpathy recientemente lo denominó una "crisis de evaluación".
No está claro qué métricas considerar ahora. MMLU está obsoleto y el SWE-Bench es demasiado limitado. Chatbot Arena es tan popular que los laboratorios han aprendido a "modificarlo".
Actualmente, existen varias formas de evaluar modelos:
Una diferencia de 35 puntos significa que un modelo es mejor solo el 55% del tiempo.
Al igual que en el ajedrez, el jugador con menor ELO aún tiene buenas posibilidades de ganar. Incluso con una diferencia de 100 puntos, un modelo "peor" aún supera en un tercio de los casos.
Y, de nuevo, algunas tareas se resuelven mejor con un modelo, otras con otro. Elige un modelo más arriba en la lista, y una de tus 10 solicitudes podría ser mejor. ¿Cuál y cuánto mejor?
Quien sabe.
A falta de mejores opciones, Karpathy sugiere confiar en la verificación de vibración.
Prueba los modelos tú mismo y descubre cuál te convence. Claro, es fácil engañarse.
Es subjetivo y propenso a sesgos, pero es práctico.
Aquí está mi consejo personal:
Mientras tanto, si has estado esperando una señal para probar algo distinto a ChatGPT, aquí está:
A continuación, cubriré los aspectos más destacados de cada modelo y resumiré las comprobaciones de vibraciones de otras personas.
Si te ha gustado y no quieres perderte el próximo artículo, ¡suscríbete!