Siber güvenlik sektöründe faaliyet gösteren bir şirketin deneyimlerine dayanan yakın tarihli bir makale, büyük dil modellerinin (LLM) gerçek dünya uygulamalarındaki ilerlemelerinin pek de iddia edildiği gibi olmadığını çarpıcı bir şekilde ortaya koyuyor. Makale yazarı, geçtiğimiz dokuz ay boyunca büyük kod tabanlarındaki güvenlik açıklarını otonom olarak tespit etmek için gelişmiş yapay zeka modellerini kullanarak bir startup kurmuş. Şirketin ilk üç ayında Claude 3.5 Sonnet piyasaya sürülmüş ve GPT-4o'dan bu modele geçiş yapılınca sistemlerinin benchmarkları hemen doygunluğa ulaşmış. Yazar, modelin sadece temel hataları azaltmakla kalmadığını, aynı zamanda güvenlik açıklarının tanımlanmasında ve etkilerini tahmin etmede "niteliksel olarak" iyileştiğini belirtiyor. Modeller, eksik bilgilerden bile, kullanıcının amaç ve değerlerini daha iyi anlayabilir hale gelmiş.
Ancak ilginç olan şu ki, 3.5 Sonnet'ten sonra piyasaya sürülen hiçbir model şirketin iç benchmarkları veya geliştiricilerin yeni hatalar bulma yetenekleri üzerinde önemli bir fark yaratmamış. Hatta yazarın belirttiği üzere, OpenAI'nin yeni test-time modelleri bile benzer bir etki gösterememiş.
Bu durum bize yapay zeka değerlendirme metriklerinin gerçek ekonomik değeri yansıtmadığını gösteriyor olabilir. Yazar, SWE-Bench benzeri benchmark puanları yükselirken gerçek iş uygulamalarındaki skorların neden benzer şekilde artmadığını sorguluyor. Hatta diğer YC kurucularıyla konuştuğunda, farklı sektörlerden gelip farklı problem alanlarında çalışmalarına rağmen benzer deneyimlere sahip olduklarını keşfetmiş: Model duyurusu yapılıyor, benchmark sonuçları iyi görünüyor, ama gerçek uygulamada performans vasat çıkıyor.
Makalede dikkat çeken bir diğer analiz ise yapay zeka modellerinin "akıllı görünme" eğilimi. Yazarın tecrübesine göre, talimatları açıkça belirtseniz bile modeller kullanıcılarla canlı bir konuşmada "akıllı görünmek" için eğitildikleri için, kodu onaylamak yerine potansiyel sorunları vurgulamayı tercih ediyorlar - tıpkı akıllı görünmek isteyen insanların yaptığı gibi. Bu durum, modelleri daha büyük sistemlere entegre etmeye çalışan ekipler için baş ağrısı yaratan kritik bir zorluk.
Bu tür içgörüler, yapay zeka yatırımlarımızı ve kullanım stratejilerimizi planlarken kritik önem taşıyor. Yazar için olumlu haber, modellerin performansının beklenenden daha yavaş ilerliyor olması - bu durum, AI tabanlı bir ekonomiye geçişin ahlaki tehlikelerini endişe edenler ve LLM yeteneklerinden para kazanmaya çalışan girişimciler için bir rahatlama olabilir.
Siz ne düşünüyorsunuz? Deneyimlerinizde yapay zeka modellerinin gerçek iş problemlerini çözme kabiliyetlerinde ciddi ilerlemeler görüyor musunuz? Yoksa daha çok hype ekonomisinin bir parçası mı bu gelişmeler?
Recent AI model progress feels mostly like bullshit — LessWrong
About nine months ago, I and three friends decided that AI had gotten good enough to monitor large codebases autonomously for security problems. We s…
