Popüler LLM’lerin Birbirinden Farkı
“Mister Turist’in iki sorusuna mantıklı cevap verebilmek, bütün uzay matematiğini çözmekten daha zor.” diyor ve Kaptan’a “Zıtt nedir?” sorusunu yöneltiyordu, “Turist Ömer Uzay Yolu’nda” filmindeki Mr. Spock. Sonra aynı soruyu, film boyunca birçok soruya tutarlı ve doğru yanıtlar veren “Kompüter”e soruyor ancak bu soru, kompüterin aklını oynatmasıyla sonuçlanıyordu.
Orijinal adı “Star Trek” olan, ülkemizde de “Uzay Yolu” adıyla yayımlanan diziden ilham alınarak çekilen ve 1973 yılında sinema salonlarında gösterime giren bu film, hem kaynak materyalinin hem de bu materyali oluşturan Gene Roddenberry’nin fikir dünyasını inşa eden Isaac Asimov, Arthur C. Clarke, Ray Bradbury gibi isimlerin, son derece başarılı bilim kurgu öngörülerinden esinlenmişti. Konuşan, sorulara yanıtlar verebilen, yorumlar yapabilen bir bilgisayar hayali, belki 1970’li yıllar için uçuk sayılabilecek bir fikirdi ama bugün geldiğimiz noktada yapay zekâ teknolojileri, bunu LLM ile mümkün kılıyor.
İngilizce “Large Language Models/Büyük Dil Modelleri” ifadesinin kısaltması olan LLM, esasen sofistike yapay zekâ sistemlerini temsil ediyor. Dillerin karmaşık yapılarını anlamak ve hem etkili hem de doğru şekilde kullanmak üzere tasarlanan LLM’ler, yapılandırıldıkları sistemlerin kullanıcıyla etkileşim kurması noktasında da büyük önem taşıyor. Ve evet, bu sistemler, “Turist Ömer Uzay Yolu’nda” filmindeki gibi yanıtlayamadığı sorular karşısında duman çıkarmıyor.
Peki, ücretli ve ücretsiz yapay zekâ platformlarının yaygınlaşması sayesinde bugün hemen herkesin bir şekilde deneyimleyebildiği LLM’lerin birbirlerinden farklarını öğrenmeye ne dersiniz? Dilerseniz önce LLM’lerin nasıl çalıştığından biraz söz edelim ve dil modellerine dair temel düzeyde bir altyapı oluşturalım. Ardından konunun detaylarına hep birlikte göz atalım.
LLM: Bir Kelime Çorbası mı Yoksa Dilbilgisi Şefi mi?
İnsanlık tarihinin en karmaşık ve şüphesiz en yararlı buluşlarından biri olan dili öğrenmekle kalmayıp yine dili, kelimelerden oluşan lezzetsiz bir çorbadan ziyade ustalıkla hazırlanmış bir yemek gibi sunma hedefi olan LLM’ler, özellikle şirketler tarafından sanal asistan gibi süreçlerde kullanılıyor. Hatta öyle ki bazı süpermarket zincirlerinin web sayfalarında, arkasında iptidai diyebileceğimiz LLM’lerin yer aldığı yemek tarif bölümleri bile bulunuyor. Ancak LLM’lerden yalnızca şirketler değil son kullanıcılar da yararlanıyorlar; öğrencilerden data analistlerine, araştırmacılardan dil öğrenenlere kadar pek çok kişi, bu araçları kullanarak işlerini kolaylaştırıyor ve hayatlarını daha verimli hâle getiriyor.
Peki, herkesin dilinde olan GPT, Gemini ve Llama 3 gibi LLM’ler nasıl çalışıyor?
İlk Adım: Veri Diyeti – LLM’ler Ne Yer, Ne İçer?
- “Büyük Veri” Aşçılığı: LLM’ler; kitaplar, makaleler, blog yazıları, forum tartışmaları, haberler ve hatta sosyal medya gönderileri gibi pek çok metin kaynağından “besleniyor”. Bu içerikler, modelin, dilin yapısını, kullanımını ve gramer kurallarını öğrenmesi için büyük önem arz ediyor. Bu sayede bir LLM, J.R.R. Tolkien’in eserlerinden George Orwell’’in distopik romanlarına kadar her türlü metni sindirerek dilin nasıl kullanıldığını özümsüyor.
- Beslenme Çeşitliliği: Tabii ki LLM’ler yalnızca edebî metinlerle sınırlı kalmıyor; bilimsel makaleler, teknik raporlar, popüler kültür içerikleri ve hatta dinî metinler gibi çeşitli kaynaklar, bu modellerin çok yönlü bir dil anlayışı geliştirmesine yardımcı oluyor. Her dil “lokması”, modelin, daha zengin bir tabak sunmasını sağlıyor.
İkinci Adım: Pişirme Süreci – Nasıl Eğitiliyor?
- Tarif Kitabını Yazmak: “Önceden Eğitim” adı verilen bir süreçle dilin genel yapısını öğrenen LLM’ler, bu süreçte milyonlarca kelime ve cümleyi analiz ediyor. Bu aşamada LLM, hangi kelimelerin sık sık birlikte kullanıldığını, cümle yapılarının nasıl oluşturulduğunu ve anlam bağlamlarını öğreniyor.
- Dil Yemeği Servisi: Az önce bahsettiğimiz eğitim sürecinden sonra LLM’ler genellikle fine-tuning/ince ayar adı verilen bir sürece tabi tutuluyor. Model, belirli bir göreve ya da daha dar bir dil setine göre özelleştiriliyor. Örneğin, bir müşteri hizmetleri chatbot’u, özellikle müşteri sorularına ve şikâyetlerine yanıt verecek şekilde ayarlanabiliyor.
Üçüncü Adım: Sofra Sunumu – Modeller Nasıl Yanıt Verir?
- Soru-Cevap Menüsü: Kullanıcı bir soru sorduğunda veya bir girdi sağladığında, LLM bu girdiyi alıyor, işliyor ve mümkün olan en uygun yanıtı üretmek için önceden öğrendiği bilgilerden yararlanıyor. Bu süreci, bir aşçının malzemeleri bir araya getirerek yemeğe dönüştürmesine benzetebiliriz.
- Geri Bildirimle Tatlandırma: LLM’ler, kullanıcılar ve geliştiricilerden aldıkları geri bildirimlerle daima kendini geliştiriyor. Modelin performansı, sürekli geri bildirim döngüsü sayesinde artıyor ve modelin doğruluğuyla kullanışlılığı, her yeni sürümde biraz daha gelişiyor, ortaya çıkan “yemeğin” lezzeti de artmış oluyor.
Şimdi gelelim, LLM’lerin birbirinden nasıl farkları olduğuna. Her biri için ayrı ayrı yazılar hazırlanabilecek kadar kapsamlı olan LLM’lerin temel özelliklerini ve özgün yönlerini bir tablo şeklinde paylaşalım.
LLM | Geliştirici | Parametreler | Erişim | Teknik Özellikler ve Kullanım Alanları | Özgün Yönleri |
GPT-4 | OpenAI | 1,76 trilyon | API, ChatGPT Plus | Metin ve görüntü işleyebilme yeteneği, doğruluk ve güvenlik açısından iyileştirilmiş, Microsoft Azure AI süper bilgisayarları üzerinde eğitilmiş | %40 daha doğru, %82 daha az izin verilmeyen içerik üretimi, çok modlu model desteği |
GPT-4o | OpenAI | Bilinmiyor | API, ChatGPT (ücretsiz ve ücretli) | Metin, ses ve görüntü işleyebilme yeteneği, hızlı ve doğru çeviri, gelişmiş ses tanıma, gerçek zamanlı çeviri | %50 daha ucuz, 2 kat daha hızlı, belirli ses tonları ile dolandırıcılık risklerini azaltma, Google Drive Microsoft OneDrive entegrasyonu |
Gemini | 1,8 milyar, 3,25 milyar (Nano), diğerleri bilinmiyor | API (ücretsiz ve ücretli) | Çok modlu yapay zekâ modelleri, metin, görüntü, ses, video ve kod işleyebilme, Google uygulamalarında yapay zekâ özellikleri | Google Docs ve Gmail’de yapay zekâ entegrasyonu, Google’ın chatbot’u Gemini desteği | |
Llama 3 | Meta | 8 milyar, 70 milyar, 400 milyar | Henüz çıkmadı | Araştırma ve ticari kullanımlar için ideal, çeşitli görevlerde yüksek performans | Meta’nın uygulamalarında yapay zekâ entegrasyonu, açık kaynaklı |
Vicuna | LMSYS Org | 7 milyar, 13 milyar, 33 milyar | Açık | Meta’nın Llama modeline dayalı, yapay zekâ araştırmalarında yaygın olarak kullanılır, Chatbot Arena benchmark’ında rol oynar | Chatbot geliştirme ve yapay zekâ araştırmaları |
Claude 3 | Anthropic | Bilinmiyor | API | Haiku, Sonnet ve Opus modelleri, güvenli ve yardımcı yapay zekâ, kurumsal kullanıcılar için optimize | Güvenli kullanım, veriler üzerinde ince ayar yapabilme |
Stable Beluga ve StableLM 2 | Stability AI | 1,6 milyar, 7 milyar, 12 milyar, 13 milyar, 70 milyar | Açık | Yapay zekâ tabanlı görüntü oluşturma yetenekleri, çeşitli parametre boyutları | Stable Diffusion ile tanınır, Llama modeline dayalı |
Coral | Cohere | Bilinmiyor | API | İşletme kullanıcıları için tasarlanmış, model versiyonlarını veriler üzerinde eğitme imkânı | Belirli sorgulara doğru yanıt verebilir |
Falcon | Technology Innovation Institute | 1,3 milyar, 7,5 milyar, 40 milyar, 180 milyar | Açık | Yüksek performanslı AI benchmark’ları, Apache 2.0 lisansı | Ticari ve araştırma kullanımı için uygun |
DBRX | Databricks ve Mosaic | 132 milyar | Açık | Mosaic’in MPT-7B ve MPT-30B modellerinin halefi, Meta’nın Llama modeline dayanmaz | Çoğu benchmark’ta önceki nesil kapalı LLM’leri aşar veya eşit performans gösterir |
Mixtral 8x7B ve 8x22B | Mistral | 45 milyar, 141 milyar | Açık | Alt sistemlerle daha büyük modelleri verimli bir şekilde geride bırakır, Apache 2.0 lisansı | Bulut bilişim platformlarında ve bazı yerel bilgisayar temelli yapay zekâ araçlarında kullanılabilir |
XGen-7B | Salesforce | 7 milyar | Açık | Güçlü veya popüler bir model değil ama büyük teknoloji şirketlerinin yapay zekâ araçları geliştirebildiğini gösterir | Salesforce’un yapay zekâ ve makine öğrenimi departmanının ürünü |
Grok | xAI | Bilinmiyor | Chatbot ve açık (ücretli) | X (eski adıyla Twitter) verileri üzerinde eğitilmiş, Elon Musk’ın kurduğu xAI tarafından geliştirilmiş | Medyada oldukça fazla gündem oldu ve büyük yatırımlar aldı, yapay zekâ modeli ve chatbot olarak bilinir |
Siz de teknolojiyi yakından takip ediyor, yapay zekâ uygulamalarından yerel bilgisayarınızda da yararlanmayı hedefliyorsanız, NVIDIA GeForce RTX serisi ekran kartı bulunan, “canavar” gibi bir bilgisayar kullanmanız yararlı olur. Mistral ve LLAMA dil modellerinden yararlanan Chat with RTX ve Stable Diffusion gibi görüntü oluşturma tabanlı yapay zekâ araçlarını, Monster imzalı; Abra, Tulpar ve Semruk serisi oyun bilgisayarlarıyla rahatlıkla kullanabilirsiniz.