paint-brush
Слишком много ИИ со слишком большим количеством ужасных названий: как выбрать свою модель ИИк@lee.aao
862 чтения
862 чтения

Слишком много ИИ со слишком большим количеством ужасных названий: как выбрать свою модель ИИ

к Leo Khomenko4m2025/03/25
Read on Terminal Reader

Слишком долго; Читать

Лаборатории искусственного интеллекта завалили нас таким количеством новых моделей, что мне трудно за ними угнаться. Новые модели потрясающие, но их названия — полный бардак. Теперь вы даже не сможете отличить модели по бенчмаркам. Простое «этот — лучший, все его используют» теперь не работает.
featured image - Слишком много ИИ со слишком большим количеством ужасных названий: как выбрать свою модель ИИ
Leo Khomenko HackerNoon profile picture

С начала 2025 года лаборатории искусственного интеллекта завалили нас таким количеством новых моделей, что мне трудно за ними угнаться.


Но тенденции говорят, что всем все равно! Есть только ChatGPT:


Как же так?


Новые модели потрясающие, но их названия — полный бардак. Плюс, вы даже не можете отличить модели по бенчмаркам. Простое «этот лучший, все им пользуются» теперь не работает.


Короче говоря, на рынке существует множество по-настоящему фантастических моделей ИИ, но мало кто ими пользуется.


И это позор!


Я попытаюсь разобраться в хаосе наименований, объяснить кризис бенчмарков и поделиться советами о том, как выбрать правильную модель для ваших нужд.

Слишком много моделей, ужасные названия

Дарио Амодеи давно шутил, что мы можем создать AGI прежде, чем научимся четко называть наши модели. Google традиционно лидирует в путанице:



Честно говоря, это имеет смысл. Каждая "базовая" модель теперь имеет множество обновлений. Они не всегда достаточно новаторские, чтобы оправдать каждое обновление как новую версию. Вот откуда все эти префиксы.


Чтобы упростить задачу, я составил таблицу типов моделей из основных лабораторий, удалив все ненужные детали.



Итак, что же это за типы моделей?


  1. Есть огромные, мощные базовые модели. Они впечатляют, но медленные и дорогие в масштабе.


  2. Вот почему мы изобрели дистилляцию : берем базовую модель, обучаем на ее ответах более компактную модель, и получаем примерно те же возможности, только быстрее и дешевле.


  3. Это особенно важно для моделей рассуждений . Лучшие исполнители теперь следуют многошаговым цепочкам рассуждений — планируют решение, выполняют и проверяют результат. Эффективно, но дорого.


Также есть специализированные модели: для поиска, супердешевые для простых задач или модели для определенных областей, таких как медицина и юриспруденция. Плюс отдельная группа для изображений, видео и аудио. Я не включил все это, чтобы избежать путаницы. Я также намеренно проигнорировал некоторые другие модели и лаборатории, чтобы сделать все максимально простым.


Иногда излишние подробности только ухудшают ситуацию.

Все модели теперь в принципе равны

Стало трудно выбрать явного победителя. Андрей Карпати недавно назвал это «кризисом оценки».


Неясно, на какие метрики смотреть сейчас. MMLU устарел, а SWE-Bench слишком узок. Chatbot Arena настолько популярен, что лаборатории научились его «взламывать».



В настоящее время существует несколько способов оценки моделей:


  1. Узкие бенчмарки измеряют очень конкретные навыки, такие как кодирование на Python или уровень галлюцинаций. Но модели становятся умнее и осваивают больше задач, поэтому вы больше не можете измерить их уровень только одной метрикой.


  1. Комплексные бенчмарки пытаются охватить несколько измерений с помощью множества метрик. Однако сравнение всех этих оценок быстро становится хаотичным. Обратите внимание, что люди пытаются факторизовать множители этих сложных бенчмарков. Пять или десять за раз! Одна модель выигрывает здесь, другая там — удачи в ее понимании.

LifeBench имеет 3 метрики в каждой категории. И это только один бенчмарк из десятков.


  1. Арена, где люди слепо сравнивают ответы моделей на основе личных предпочтений. Модели получают рейтинг ELO, как шахматисты. Выигрывай чаще, получай более высокий ELO. Но это было здорово, пока модели не стали слишком близки друг к другу.


Разница в 35 баллов означает, что модель лучше всего в 55% случаев.


Как и в шахматах, игрок с более низким ELO все еще имеет хорошие шансы на победу. Даже при разрыве в 100 очков «худшая» модель все равно выигрывает в трети случаев.


И снова — некоторые задачи лучше решает одна модель, другие — другая. Выберите модель выше в списке, и один из ваших 10 запросов может быть лучше. Какой и насколько лучше?


Кто знает.

Итак, как сделать выбор?

За неимением лучших вариантов Карпати предлагает положиться на проверку вибрации.


Испытайте модели сами и посмотрите, какая из них кажется вам правильной. Конечно, легко обмануть себя.


Это субъективно и предвзято, но это практично.


Вот мой личный совет:


  1. Если задача новая — откройте несколько вкладок с разными моделями и сравните результаты. Доверьтесь своей интуиции, какая модель требует меньше доработок или правок.
  2. Если задача более знакома, используйте только лучшую модель.
  3. Забудьте о погоне за контрольными цифрами. Сосредоточьтесь на UX, который вам нравится, и отдайте приоритет подписке, за которую вы уже готовы платить.
  4. Если вам все еще нужны цифры, попробуйте https://livebench.ai/#/ . Создатели утверждают, что это исправляет распространенные проблемы бенчмаркинга, такие как взлом, устаревание, узость и субъективность.
  5. Для создателей продуктов вот отличное руководство от HuggingFace о том, как настроить собственный бенчмарк. https://github.com/huggingface/evaluation-guidebook/


Между тем, если вы ждали знака, чтобы попробовать что-то другое, нежели ChatGPT, вот он:


https://claude.ai/

https://gemini.google.com/

https://grok.com/

https://chat.deepseek.com/

httрs://сhаt.openai.сom


Далее я расскажу о наиболее важных моментах каждой модели и подведу итоги отзывов других людей.


Если вам понравилось и вы не хотите пропустить следующую статью, подпишитесь!



Это еще не все!!