MIT'den Attention Matching: LLM Belleğini 50 Kat Sıkıştırıyor
MIT araştırmacıları, büyük dil modellerinin KV cache belleğini doğruluk kaybetmeden 50 kat sıkıştıran Attention Matching tekniğini geliştirdi.
Büyük dil modellerinin en büyük darboğazlarından biri uzun bağlamlarda hafızanın şişmesi. Model her tokeni işlediğinde anahtar-değer çiftlerini KV cache'de depoluyor ve bu bellek konuşma uzadıkça gigabaytlarca büyüyebiliyor. MIT araştırmacıları bu soruna yeni bir çözüm getirdi: Attention Matching.
Tekniğin vaadi büyük: KV cache'i 50 kat sıkıştırmak, doğruluktan önemli ölçüde ödün vermeden ve bunu saniyeler içinde yapmak.
Mevcut yöntemler ya yetersiz ya da çok yavaş. Token atma ve birleştirme gibi yöntemler hafif sıkıştırmada işe yarıyor ama yüksek oranlarda hızla bozuluyor. Metin özetleme ise bilgi kaybına yol açıyor; araştırmacıların testlerinde yoğun tıbbi kayıtlarda özetleme yöntemi ile modelin doğruluğu "bağlam yok" seviyesine düştü. Daha önce Cartridges yöntemi yüksek sıkıştırma başarabiliyordu ama gradyan tabanlı optimizasyonu tek bir bağlam için saatlerce GPU hesaplaması gerektiriyordu.
Attention Matching farklı bir yoldan gidiyor. Sıkıştırılan belleğin iki matematiksel özelliği koruması gerektiğini tespit ettiler: dikkat çıktısı yani modelin bellekten çektiği gerçek bilgi ve dikkat kütlesi yani her tokenin diğer tokenlere göre ağırlığı. Bu iki özellik korunursa sıkıştırılan bellek orijinaliyle aynı davranışı sergiliyor.
Referans sorguları oluşturularak sıkıştırılmış belleğin bu sorguları doğru yanıtlayabileceği doğrulanıyor. Ardından korunacak anahtarlar en yüksek dikkat değerlerine göre seçiliyor ve değerler sıradan en küçük kareler gibi cebirsel yöntemlerle hesaplanıyor. Gradyan optimizasyonu tamamen devre dışı.
Sonuçlar kayda değer. Llama 3.1 ve Qwen-3 modelleriyle yapılan testlerde QuALITY okuma anlama benchmark'ında 50x sıkıştırma ile doğruluk korundu. Yoğun tıbbi kayıtlar içeren LongHealth veri setinde yüksek sıkıştırma oranlarında özetlemeyi ciddi farkla geçti. AIME matematik testinde model belleği dolduğunda altı kez üst üste yüzde 50 sıkıştırıldı ve sınırsız bellekli modelle aynı performansı gösterdi.
200 kat sıkıştırma bile mümkün. Metin özeti üzerine Attention Matching uygulandığında standart özetlemenin doğruluğunu koruyan ama çok daha küçük bellek ayak izi olan bir sonuç elde ediliyor.
Sınırlamalar var. Teknik açık ağırlıklı modeller gerektiriyor, kapalı API'ler üzerinden uygulanamaz. Mevcut çıkarım motorlarına entegrasyon için mühendislik çalışması gerekiyor. Ama araştırmacılar kodun açık kaynak olarak GitHub'da yayınlandığını ve "büyük araç çağrıları veya uzun belgeler işlendiğinde hemen kullanılabileceğini" belirtiyor.
Kurumsal AI'ın uzun belge analizi, çok oturumlu müşteri diyalogları ve otonom kodlama ajanları gibi kullanımları hızla yayılıyor. Bu kullanım senaryolarının hepsi dev KV cache gerektiriyor. Attention Matching, bu darboğazı cebirsel bir zarafetle çözmeye aday.


