
自 2025 年初以来,人工智能实验室向我们提供了大量新模型,我很难跟上它们的步伐。
但趋势表明没人关心!只有 ChatGPT:
为何如此?
新型号很棒,但它们的命名却一团糟。此外,你甚至无法通过基准测试来区分型号。简单的“这个是最好的,每个人都用它”现在不起作用了。
简而言之,市场上有很多真正出色的AI模型,但真正使用它们的人却很少。
太可惜了!
我将尝试理解命名混乱,解释基准危机,并分享如何根据您的需求选择正确模型的技巧。
Dario Amodei 一直开玩笑说,我们可能在学会明确命名模型之前就创造出了 AGI。谷歌传统上在混淆游戏方面处于领先地位:
公平地说,这确实有道理。现在每个“基础”模型都有很多更新。这些更新并不总是具有足够的突破性,不足以证明每次更新都是新版本。这就是所有这些前缀的由来。
为了简化事情,我整理了各大实验室的模型类型表,删除了所有不必要的细节。
那么,这些类型的模型是什么?
有庞大而强大的基础模型。它们令人印象深刻,但规模大时速度慢且成本高昂。
这就是我们发明蒸馏的原因:采用一个基础模型,在其答案上训练一个更紧凑的模型,您将获得大致相同的功能,但速度更快、更便宜。
这对于推理模型来说尤其重要。表现最好的模型现在遵循多步骤推理链——规划解决方案、执行并验证结果。有效但昂贵。
还有专门的模型:用于搜索的模型、用于简单任务的超廉价模型,或用于医学和法律等特定领域的模型。此外,还有一个单独的图像、视频和音频组。我没有包括所有这些以避免混淆。我还故意忽略了一些其他模型和实验室,以使其尽可能简单。
有时,更多的细节只会让事情变得更糟。
很难选出一个明确的赢家。Andrej Karpathy 最近将此称为“评估危机”。
目前还不清楚要看哪些指标。MMLU 已经过时,而 SWE-Bench 的范围太窄。Chatbot Arena 非常受欢迎,实验室已经学会了“破解”它。
目前,评估模型的方法有以下几种:
35 点的差异意味着模型仅在 55% 的时间内表现更好。
就像国际象棋一样,ELO 较低的玩家仍然有很大的获胜机会。即使差距达到 100 分,“较差”的模型在三分之一的情况下仍然表现优异。
再次强调,有些任务用一个模型更适合解决,而其他任务用另一个模型更适合解决。选择列表中较高的模型,您的 10 个请求中可能有一个会更好。哪一个更好?好多少?
谁知道呢。
由于缺乏更好的选择,Karpathy 建议依靠氛围检查。
亲自测试这些模型,看看哪一个感觉正确。当然,欺骗自己很容易。
它是主观的并且容易产生偏见——但它是实用的。
以下是我的个人建议:
与此同时,如果你一直在等待一个迹象来尝试 ChatGPT 以外的其他方式,那么这里就是:
接下来,我将介绍每个模型的重要亮点并总结其他人的氛围检查。