
2025'in başlarından bu yana yapay zeka laboratuvarları o kadar çok yeni modelle bizi doldurdu ki, artık yetişmekte zorlanıyorum.
Ama trendler kimsenin umursamadığını söylüyor! Sadece ChatGPT var:
Nasıl yani?
Yeni modeller harika, ancak isimleri tam bir karmaşa. Ayrıca, artık modelleri kıyaslamalara göre bile ayırt edemiyorsunuz. Basit "bu en iyisi, herkes kullansın" artık işe yaramıyor.
Kısacası, piyasada gerçekten harika yapay zeka modelleri var, ancak bunları kullanan kişi sayısı çok az.
Ve bu bir utanç!
İsimlendirme karmaşasını anlamaya çalışacağım, kıyaslama krizini açıklayacağım ve ihtiyaçlarınıza uygun doğru modeli nasıl seçeceğinize dair ipuçları paylaşacağım.
Dario Amodei, modellerimizi açıkça adlandırmayı öğrenmeden önce AGI yaratabileceğimiz konusunda uzun zamandır şaka yapıyor. Google geleneksel olarak karışıklık oyununu yönetiyor:
Dürüst olmak gerekirse, bu biraz mantıklı. Her "temel" model artık çok sayıda güncellemeye sahip. Her güncellemeyi yeni bir sürüm olarak haklı çıkaracak kadar çığır açıcı değiller. Tüm bu önekler buradan geliyor.
İşleri basitleştirmek için, gereksiz tüm ayrıntıları kaldırarak, büyük laboratuvarlardan model tiplerini içeren bir tablo hazırladım.
Peki bu model türleri nelerdir?
Çok büyük, güçlü temel modeller var. Etkileyiciler ancak ölçek olarak yavaş ve maliyetliler.
Damıtmayı bu yüzden icat ettik: Bir temel model alın, onun cevapları üzerinde daha kompakt bir model eğitin ve hemen hemen aynı yetenekleri, sadece daha hızlı ve daha ucuza elde edin.
Bu, özellikle akıl yürütme modelleri için kritiktir. En iyi performans gösterenler artık çok adımlı akıl yürütme zincirlerini takip ediyor: çözümü planlayın, uygulayın ve sonucu doğrulayın. Etkili ancak pahalı.
Ayrıca uzmanlaşmış modeller de var: arama için, basit görevler için süper ucuz olanlar veya tıp ve hukuk gibi belirli alanlar için modeller. Ayrıca resimler, video ve ses için ayrı bir grup. Karışıklığı önlemek için bunların hepsini dahil etmedim. Ayrıca mümkün olduğunca basit tutmak için diğer bazı modelleri ve laboratuvarları kasıtlı olarak görmezden geldim.
Bazen daha fazla ayrıntı, işleri daha da kötüleştirir.
Net bir kazanan seçmek zorlaştı. Andrej Karpathy yakın zamanda buna "değerlendirme krizi" adını verdi.
Şimdi hangi metriklere bakılacağı belirsiz. MMLU güncelliğini yitirdi ve SWE-Bench çok dar. Chatbot Arena o kadar popüler ki laboratuvarlar onu "hacklemeyi" öğrendi.
Şu anda modelleri değerlendirmenin birkaç yolu vardır:
35 puanlık bir fark, bir modelin yalnızca %55 oranında daha iyi olduğu anlamına gelir.
Satrançta olduğu gibi, daha düşük ELO'ya sahip oyuncunun kazanma şansı hala iyidir. 100 puanlık bir fark olsa bile, "daha kötü" bir model vakaların üçte birinde hala daha iyi performans gösterir.
Ve yine—bazı görevler bir modelle, diğerleri başka bir modelle daha iyi çözülür. Listede daha yukarıda bir model seçin ve 10 isteğinizden biri daha iyi olabilir. Hangisi ve ne kadar daha iyi?
Kim bilir.
Daha iyi seçenekler bulunmadığı için Karpathy, titreşim kontrolüne güvenmeyi öneriyor.
Modelleri kendiniz deneyin ve hangisinin doğru hissettirdiğini görün. Elbette, kendinizi kandırmak kolaydır.
Öznel ve önyargıya açık ama pratik.
Benim kişisel tavsiyem şu:
Bu arada, eğer ChatGPT dışında bir şey denemek için bir işaret bekliyorsanız, işte karşınızda:
Daha sonra her modelden önemli noktaları ele alacağım ve diğer kişilerin titreşim kontrollerini özetleyeceğim.
Eğer bundan hoşlandıysanız ve bir sonraki makaleyi kaçırmak istemiyorsanız abone olun!