paint-brush
人工智能太多,名字太难听:如何选择你的人工智能模型经过@lee.aao
862 讀數
862 讀數

人工智能太多,名字太难听:如何选择你的人工智能模型

经过 Leo Khomenko4m2025/03/25
Read on Terminal Reader

太長; 讀書

人工智能实验室给我们带来了太多新模型,我都快跟不上了。新模型很棒,但它们的命名却一团糟。你甚至无法通过基准来区分模型。简单的“这个是最好的,每个人都用它”现在不起作用了。
featured image - 人工智能太多,名字太难听:如何选择你的人工智能模型
Leo Khomenko HackerNoon profile picture

自 2025 年初以来,人工智能实验室向我们提供了大量新模型,我很难跟上它们的步伐。


但趋势表明没人关心!只有 ChatGPT:


为何如此?


新型号很棒,但它们的命名却一团糟。此外,你甚至无法通过基准测试来区分型号。简单的“这个是最好的,每个人都用它”现在不起作用了。


简而言之,市场上有很多真正出色的AI模型,但真正使用它们的人却很少。


太可惜了!


我将尝试理解命名混乱,解释基准危机,并分享如何根据您的需求选择正确模型的技巧。

模型太多,名字糟糕

Dario Amodei 一直开玩笑说,我们可能在学会明确命名模型之前就创造出了 AGI。谷歌传统上在混淆游戏方面处于领先地位:



公平地说,这确实有道理。现在每个“基础”模型都有很多更新。这些更新并不总是具有足够的突破性,不足以证明每次更新都是新版本。这就是所有这些前缀的由来。


为了简化事情,我整理了各大实验室的模型类型表,删除了所有不必要的细节。



那么,这些类型的模型是什么?


  1. 有庞大而强大的基础模型。它们令人印象深刻,但规模大时速度慢且成本高昂。


  2. 这就是我们发明蒸馏的原因:采用一个基础模型,在其答案上训练一个更紧凑的模型,您将获得大致相同的功能,但速度更快、更便宜。


  3. 这对于推理模型来说尤其重要。表现最好的模型现在遵循多步骤推理链——规划解决方案、执行并验证结果。有效但昂贵。


还有专门的模型:用于搜索的模型、用于简单任务的超廉价模型,或用于医学和法律等特定领域的模型。此外,还有一个单独的图像、视频和音频组。我没有包括所有这些以避免混淆。我还故意忽略了一些其他模型和实验室,以使其尽可能简单。


有时,更多的细节只会让事情变得更糟。

现在所有模型基本都相同

很难选出一个明确的赢家。Andrej Karpathy 最近将此称为“评估危机”。


目前还不清楚要看哪些指标。MMLU 已经过时,而 SWE-Bench 的范围太窄。Chatbot Arena 非常受欢迎,实验室已经学会了“破解”它。



目前,评估模型的方法有以下几种:


  1. 狭义的基准衡量的是特定技能,例如 Python 编码或幻觉率。但模型正变得越来越聪明,掌握的任务也越来越多,因此你不能再用一个指标来衡量它们的水平了。


  1. 综合基准测试试图捕捉多个维度,其中包含大量指标。然而,比较所有这些分数很快就会变得混乱。请注意,人们试图将这些复杂的基准测试的倍数分解。一次五个或十个!这里一个模型获胜,那里另一个模型获胜——祝你好运。

LifeBench 每个类别有 3 个指标。这只是数十个基准中的一个。


  1. 竞技场,人类会根据个人偏好盲目比较模型答案。模型会像棋手一样获得 ELO 评级。获胜次数越多,获得的 ELO 就越高。但这种感觉很棒,直到模型之间的差距变得太小。


35 点的差异意味着模型仅在 55% 的时间内表现更好。


就像国际象棋一样,ELO 较低的玩家仍然有很大的获胜机会。即使差距达到 100 分,“较差”的模型在三分之一的情况下仍然表现优异。


再次强调,有些任务用一个模型更适合解决,而其他任务用另一个模型更适合解决。选择列表中较高的模型,您的 10 个请求中可能有一个会更好。哪一个更好?好多少?


谁知道呢。

那么,您该如何选择?

由于缺乏更好的选择,Karpathy 建议依靠氛围检查。


亲自测试这些模型,看看哪一个感觉正确。当然,欺骗自己很容易。


它是主观的并且容易产生偏见——但它是实用的。


以下是我的个人建议:


  1. 如果任务是新的,请打开多个包含不同模型的选项卡并比较结果。相信你的直觉,哪个模型需要的调整或编辑较少。
  2. 如果任务更加熟悉,则只使用最好的模型。
  3. 别再追求基准数字了。专注于您喜欢的用户体验,并优先考虑您愿意支付的订阅。
  4. 如果你仍然想要数字,请尝试https://livebench.ai/#/ 。创建者声称它解决了常见的基准测试问题,如黑客攻击、过时、狭隘和主观性。
  5. 对于产品创造者来说,这里有一份来自 HuggingFace 的关于如何建立自己的基准的精彩指南。https ://github.com/huggingface/evaluation-guidebook/


与此同时,如果你一直在等待一个迹象来尝试 ChatGPT 以外的其他方式,那么这里就是:


https://claude.ai/

https://gemini.google.com/

https://grok.com/

https://chat.deepseek.com/

http://сhаt.openai.сom


接下来,我将介绍每个模型的重要亮点并总结其他人的氛围检查。


如果您喜欢这篇文章并且不想错过下一篇文章,请订阅!



接下来还有更多!!