paint-brush
Demasiadas IA con demasiados nombres terribles: Cómo elegir tu modelo de IApor@lee.aao
862 lecturas
862 lecturas

Demasiadas IA con demasiados nombres terribles: Cómo elegir tu modelo de IA

por Leo Khomenko4m2025/03/25
Read on Terminal Reader

Demasiado Largo; Para Leer

Los laboratorios de IA nos han inundado con tantos modelos nuevos que me cuesta mantenerme al día. Los nuevos modelos son geniales, pero sus nombres son un completo desastre. Ya ni siquiera se pueden distinguir entre ellos por las pruebas de rendimiento. El simple "este es el mejor, úsenlo todos" ya no funciona.
featured image - Demasiadas IA con demasiados nombres terribles: Cómo elegir tu modelo de IA
Leo Khomenko HackerNoon profile picture

Desde principios de 2025, los laboratorios de IA nos han inundado con tantos modelos nuevos que me cuesta mantener el ritmo.


¡Pero las tendencias dicen que a nadie le importa! Solo existe ChatGPT:


¿Cómo es eso?


Los nuevos modelos son geniales, pero sus nombres son un desastre. Además, ya ni siquiera se pueden distinguir entre ellos por las pruebas de rendimiento. El simple "este es el mejor, úsalo todo el mundo" ya no funciona.


En resumen, hay muchos modelos de IA verdaderamente fantásticos en el mercado, pero pocas personas los utilizan realmente.


¡Y eso es una pena!


Intentaré dar sentido al caos de nombres, explicar la crisis de referencia y compartir consejos sobre cómo elegir el modelo adecuado para sus necesidades.

Demasiados modelos, nombres terribles

Dario Amodei lleva mucho tiempo bromeando con que podríamos crear IA antes de aprender a nombrar nuestros modelos con claridad. Google, tradicionalmente, lidera la confusión:



Para ser justos, tiene cierto sentido. Cada modelo "básico" ahora tiene muchas actualizaciones. No siempre son lo suficientemente innovadoras como para justificar cada actualización como una nueva versión. De ahí vienen todos estos prefijos.


Para simplificar las cosas, preparé una tabla de tipos de modelos de los principales laboratorios, eliminando todos los detalles innecesarios.



Entonces, ¿qué son estos tipos de modelos?


  1. Existen modelos básicos enormes y potentes. Son impresionantes, pero lentos y costosos a gran escala.


  2. Por eso inventamos la destilación : tomamos un modelo base, entrenamos un modelo más compacto con sus respuestas y obtenemos aproximadamente las mismas capacidades, sólo que más rápido y más barato.


  3. Esto es especialmente crucial para los modelos de razonamiento . Los modelos con mejor rendimiento ahora siguen cadenas de razonamiento de varios pasos: planificar la solución, ejecutarla y verificar el resultado. Es eficaz, pero costoso.


También hay modelos especializados: para búsqueda, modelos muy económicos para tareas sencillas o modelos para campos específicos como medicina y derecho. Además, hay un grupo separado para imágenes, vídeo y audio. No los incluí todos para evitar confusiones. También ignoré deliberadamente otros modelos y laboratorios para simplificarlo al máximo.


A veces, más detalles sólo empeoran las cosas.

Todos los modelos son básicamente iguales ahora

Se ha vuelto difícil elegir un claro ganador. Andrej Karpathy recientemente lo denominó una "crisis de evaluación".


No está claro qué métricas considerar ahora. MMLU está obsoleto y el SWE-Bench es demasiado limitado. Chatbot Arena es tan popular que los laboratorios han aprendido a "modificarlo".



Actualmente, existen varias formas de evaluar modelos:


  1. Los puntos de referencia estrechos miden habilidades muy específicas, como la programación en Python o la tasa de alucinaciones. Pero los modelos se están volviendo más inteligentes y dominan más tareas, por lo que ya no se puede medir su nivel con una sola métrica.


  1. Los benchmarks exhaustivos intentan capturar múltiples dimensiones con numerosas métricas. Sin embargo, comparar todas estas puntuaciones se vuelve rápidamente caótico. Tenga en cuenta que se intenta factorizar múltiples de estos benchmarks complejos. ¡Cinco o diez a la vez! Un modelo gana aquí, otro allá; ¡mucha suerte intentando entenderlo!

LifeBench cuenta con tres métricas en cada categoría. Y ese es solo un punto de referencia entre docenas.


  1. Arena, donde los humanos comparan ciegamente las respuestas de los modelos según sus preferencias personales. Los modelos obtienen una puntuación ELO, como los jugadores de ajedrez. Ganar con más frecuencia da como resultado un ELO más alto. Pero esto era genial hasta que los modelos se acercaron demasiado.


Una diferencia de 35 puntos significa que un modelo es mejor solo el 55% del tiempo.


Al igual que en el ajedrez, el jugador con menor ELO aún tiene buenas posibilidades de ganar. Incluso con una diferencia de 100 puntos, un modelo "peor" aún supera en un tercio de los casos.


Y, de nuevo, algunas tareas se resuelven mejor con un modelo, otras con otro. Elige un modelo más arriba en la lista, y una de tus 10 solicitudes podría ser mejor. ¿Cuál y cuánto mejor?


Quien sabe.

Entonces, ¿cómo elegir?

A falta de mejores opciones, Karpathy sugiere confiar en la verificación de vibración.


Prueba los modelos tú mismo y descubre cuál te convence. Claro, es fácil engañarse.


Es subjetivo y propenso a sesgos, pero es práctico.


Aquí está mi consejo personal:


  1. Si la tarea es nueva, abre varias pestañas con diferentes modelos y compara los resultados. Confía en tu intuición para saber qué modelo requiere menos ajustes o modificaciones.
  2. Si la tarea te resulta más familiar, utiliza sólo tu mejor modelo.
  3. Olvídate de buscar cifras de referencia. Céntrate en la experiencia de usuario que te gusta y prioriza la suscripción que ya estás dispuesto a pagar.
  4. Si aún buscas cifras, prueba https://livebench.ai/#/ . Sus creadores afirman que soluciona problemas comunes de benchmarking, como la piratería, la obsolescencia, la estrechez de miras y la subjetividad.
  5. Para los creadores de productos, aquí hay una excelente guía de HuggingFace sobre cómo configurar su propio punto de referencia. https://github.com/huggingface/evaluation-guidebook/


Mientras tanto, si has estado esperando una señal para probar algo distinto a ChatGPT, aquí está:


https://claude.ai/

https://gemini.google.com/

https://grok.com/

https://chat.deepseek.com/

https://chat.openai.com


A continuación, cubriré los aspectos más destacados de cada modelo y resumiré las comprobaciones de vibraciones de otras personas.


Si te ha gustado y no quieres perderte el próximo artículo, ¡suscríbete!



¡¡¡Y aún hay más!!!