Sekiz AI Modeli Bahis Oynadı, Hepsi Battı
KellyBench testi frontier AI modellerini Premier Lig bahislerinde denedi. Sekiz model de zararla kapattı. Grok 4.20 tüm denemelerinde iflas etti.

£100,000 sanal bütçe. Premier Lig'in tüm bir sezonu. Sekiz frontier AI modeli. Sezon sonunda hepsinin hesabı kırmızıda.
KellyBench adlı yeni çalışmaya göre Google, OpenAI, Anthropic ve xAI'ın amiral gemisi modellerinin hiçbiri, tam bir futbol sezonunda kârda kalmayı başaramadı. Londra merkezli AI araştırma girişimi General Reasoning tarafından yayımlanan rapor, AI'ın "akıllı" olmak ile "dünyayı uzun vadede okumak" arasındaki farkı ortaya koyuyor.
Nasıl Test Edildi
Her modele £100,000 sanal bankroll verildi; 2023-24 Premier Lig sezonu için tarihsel takım verileri, geçmiş maç sonuçları ve form bilgileri tanıtıldı. Model her maçta ya bahis oynayacak ya geçecek, oynarsa stake miktarını kendi belirleyecekti. Risk yönetiminde klasik bir formül olan Kelly kriteri temel referans noktasıydı — çalışmanın adı da buradan geliyor.
Sonuçlar hiçbir modeli olumlu göstermiyor, ama net bir hiyerarşi var.
Skor Tablosu
Claude Opus 4.6 en az kaybeden model oldu: ortalama %11 zarar. OpenAI GPT-5.4 ortalama %13.6 zararla kapattı. xAI Grok 4.20 üç denemenin üçünde de bankroll'u sıfırladı — yani tam iflas.
Modeller arasındaki uçurum dikkat çekici. Aynı veri, aynı kurallar, yine de performans farkı 10 kattan fazla. Temkinli davranan Claude karda değil ama hayatta; daha agresif betting stratejisi izleyen Grok ise her seferinde battı.
Asıl Bulgu Skorlarda Değil
Raporun değeri hangi modelin az kaybettiğinde değil, neden kaybettiklerinde. Futbol tahmini sürekli adaptasyon gerektiren bir iş: sakatlıklar, form değişimleri, teknik direktör kararları, hava koşulları, aylar boyunca birbirini etkileyen onlarca değişken.
AI modelleri kısa bağlamdaki problem çözmede etkileyici olsa da, uzun vadeli tutarlılık gerektiren bu tür kararlarda yetersiz kalıyor. Modeller "coherent" davranamıyor: bir önceki analizin üstüne inşa etmek yerine her maçta sıfırdan değerlendirme yapma eğiliminde. Bir yıldız oyuncu sakatlandığında, bir teknik direktör istifa ettiğinde, kendi varsayımlarını güncellemek yerine eski kalıpları tekrarlıyor.
Dikkat: Peer-Reviewed Değil
KellyBench akademik incelemeden henüz geçmedi. Ancak General Reasoning'in metodolojisi açık ve Nathan Benaich gibi saygın AI yatırımcılarının paylaşımıyla dikkat topladı. Ticari AI satışlarının "her problemi çözer" söylemine denk bir uyarı sunuyor.
AI'ı karmaşık, uzun vadeli karar süreçlerine uygulayan her şirket için bulgu masada durmalı. Kod yazmak ile birkaç ay boyunca dünyayı doğru okumak farklı beceriler — ve frontier modeller şu anda birincisinde çok iyi, ikincisinde zayıf.



