Sekiz AI Modeli Bahis Oynadı, Hepsi Battı

£100,000 sanal bütçe. Premier Lig'in tüm bir sezonu. Sekiz frontier AI modeli. Sezon sonunda hepsinin hesabı kırmızıda.

KellyBench adlı yeni çalışmaya göre Google, OpenAI, Anthropic ve xAI'ın amiral gemisi modellerinin hiçbiri, tam bir futbol sezonunda kârda kalmayı başaramadı. Londra merkezli AI araştırma girişimi General Reasoning tarafından yayımlanan rapor, AI'ın "akıllı" olmak ile "dünyayı uzun vadede okumak" arasındaki farkı ortaya koyuyor.

Nasıl Test Edildi

Her modele £100,000 sanal bankroll verildi; 2023-24 Premier Lig sezonu için tarihsel takım verileri, geçmiş maç sonuçları ve form bilgileri tanıtıldı. Model her maçta ya bahis oynayacak ya geçecek, oynarsa stake miktarını kendi belirleyecekti. Risk yönetiminde klasik bir formül olan Kelly kriteri temel referans noktasıydı — çalışmanın adı da buradan geliyor.

Sonuçlar hiçbir modeli olumlu göstermiyor, ama net bir hiyerarşi var.

Skor Tablosu

Claude Opus 4.6 en az kaybeden model oldu: ortalama %11 zarar. OpenAI GPT-5.4 ortalama %13.6 zararla kapattı. xAI Grok 4.20 üç denemenin üçünde de bankroll'u sıfırladı — yani tam iflas.

Modeller arasındaki uçurum dikkat çekici. Aynı veri, aynı kurallar, yine de performans farkı 10 kattan fazla. Temkinli davranan Claude karda değil ama hayatta; daha agresif betting stratejisi izleyen Grok ise her seferinde battı.

Asıl Bulgu Skorlarda Değil

Raporun değeri hangi modelin az kaybettiğinde değil, neden kaybettiklerinde. Futbol tahmini sürekli adaptasyon gerektiren bir iş: sakatlıklar, form değişimleri, teknik direktör kararları, hava koşulları, aylar boyunca birbirini etkileyen onlarca değişken.

AI modelleri kısa bağlamdaki problem çözmede etkileyici olsa da, uzun vadeli tutarlılık gerektiren bu tür kararlarda yetersiz kalıyor. Modeller "coherent" davranamıyor: bir önceki analizin üstüne inşa etmek yerine her maçta sıfırdan değerlendirme yapma eğiliminde. Bir yıldız oyuncu sakatlandığında, bir teknik direktör istifa ettiğinde, kendi varsayımlarını güncellemek yerine eski kalıpları tekrarlıyor.

Dikkat: Peer-Reviewed Değil

KellyBench akademik incelemeden henüz geçmedi. Ancak General Reasoning'in metodolojisi açık ve Nathan Benaich gibi saygın AI yatırımcılarının paylaşımıyla dikkat topladı. Ticari AI satışlarının "her problemi çözer" söylemine denk bir uyarı sunuyor.

AI'ı karmaşık, uzun vadeli karar süreçlerine uygulayan her şirket için bulgu masada durmalı. Kod yazmak ile birkaç ay boyunca dünyayı doğru okumak farklı beceriler — ve frontier modeller şu anda birincisinde çok iyi, ikincisinde zayıf.

£100,000 sanal bütçe. Premier Lig'in tüm bir sezonu. Sekiz frontier AI modeli. Sezon sonunda hepsinin hesabı kırmızıda.

Sekiz AI Modeli Bahis Oynadı, Hepsi Battı

Nasıl Test Edildi

Skor Tablosu

Asıl Bulgu Skorlarda Değil

Dikkat: Peer-Reviewed Değil

İlgili Haberler

Fransa Windows'u Bırakıyor

Netflix Videodan Fiziği Bile Siliyor

Claude Nerf Yedi

İlgili Yazılar

Claude Cowork Nedir?

Bilgi Saklayan Yönetici Gerçekten Kazanıyor mu?

Sekiz AI Modeli Bahis Oynadı, Hepsi Battı

Nasıl Test Edildi

Skor Tablosu

Asıl Bulgu Skorlarda Değil

Dikkat: Peer-Reviewed Değil

İlgili Haberler

Fransa Windows'u Bırakıyor

Netflix Videodan Fiziği Bile Siliyor

Claude Nerf Yedi

İlgili Yazılar

Claude Cowork Nedir?

Bilgi Saklayan Yönetici Gerçekten Kazanıyor mu?