
С начала 2025 года лаборатории искусственного интеллекта завалили нас таким количеством новых моделей, что мне трудно за ними угнаться.
Но тенденции говорят, что всем все равно! Есть только ChatGPT:
Как же так?
Новые модели потрясающие, но их названия — полный бардак. Плюс, вы даже не можете отличить модели по бенчмаркам. Простое «этот лучший, все им пользуются» теперь не работает.
Короче говоря, на рынке существует множество по-настоящему фантастических моделей ИИ, но мало кто ими пользуется.
И это позор!
Я попытаюсь разобраться в хаосе наименований, объяснить кризис бенчмарков и поделиться советами о том, как выбрать правильную модель для ваших нужд.
Дарио Амодеи давно шутил, что мы можем создать AGI прежде, чем научимся четко называть наши модели. Google традиционно лидирует в путанице:
Честно говоря, это имеет смысл. Каждая "базовая" модель теперь имеет множество обновлений. Они не всегда достаточно новаторские, чтобы оправдать каждое обновление как новую версию. Вот откуда все эти префиксы.
Чтобы упростить задачу, я составил таблицу типов моделей из основных лабораторий, удалив все ненужные детали.
Итак, что же это за типы моделей?
Есть огромные, мощные базовые модели. Они впечатляют, но медленные и дорогие в масштабе.
Вот почему мы изобрели дистилляцию : берем базовую модель, обучаем на ее ответах более компактную модель, и получаем примерно те же возможности, только быстрее и дешевле.
Это особенно важно для моделей рассуждений . Лучшие исполнители теперь следуют многошаговым цепочкам рассуждений — планируют решение, выполняют и проверяют результат. Эффективно, но дорого.
Также есть специализированные модели: для поиска, супердешевые для простых задач или модели для определенных областей, таких как медицина и юриспруденция. Плюс отдельная группа для изображений, видео и аудио. Я не включил все это, чтобы избежать путаницы. Я также намеренно проигнорировал некоторые другие модели и лаборатории, чтобы сделать все максимально простым.
Иногда излишние подробности только ухудшают ситуацию.
Стало трудно выбрать явного победителя. Андрей Карпати недавно назвал это «кризисом оценки».
Неясно, на какие метрики смотреть сейчас. MMLU устарел, а SWE-Bench слишком узок. Chatbot Arena настолько популярен, что лаборатории научились его «взламывать».
В настоящее время существует несколько способов оценки моделей:
Разница в 35 баллов означает, что модель лучше всего в 55% случаев.
Как и в шахматах, игрок с более низким ELO все еще имеет хорошие шансы на победу. Даже при разрыве в 100 очков «худшая» модель все равно выигрывает в трети случаев.
И снова — некоторые задачи лучше решает одна модель, другие — другая. Выберите модель выше в списке, и один из ваших 10 запросов может быть лучше. Какой и насколько лучше?
Кто знает.
За неимением лучших вариантов Карпати предлагает положиться на проверку вибрации.
Испытайте модели сами и посмотрите, какая из них кажется вам правильной. Конечно, легко обмануть себя.
Это субъективно и предвзято, но это практично.
Вот мой личный совет:
Между тем, если вы ждали знака, чтобы попробовать что-то другое, нежели ChatGPT, вот он:
Далее я расскажу о наиболее важных моментах каждой модели и подведу итоги отзывов других людей.
Если вам понравилось и вы не хотите пропустить следующую статью, подпишитесь!