Popüler LLM’lerin Birbirinden Farkı

Monster Notebook  29 Mayıs 2024

İncelemeler

“Mister Turist’in iki sorusuna mantıklı cevap verebilmek, bütün uzay matematiğini çözmekten daha zor.” diyor ve Kaptan’a “Zıtt nedir?” sorusunu yöneltiyordu, “Turist Ömer Uzay Yolu’nda” filmindeki Mr. Spock. Sonra aynı soruyu, film boyunca birçok soruya tutarlı ve doğru yanıtlar veren “Kompüter”e soruyor ancak bu soru, kompüterin aklını oynatmasıyla sonuçlanıyordu.

Orijinal adı “Star Trek” olan, ülkemizde de “Uzay Yolu” adıyla yayımlanan diziden ilham alınarak çekilen ve 1973 yılında sinema salonlarında gösterime giren bu film, hem kaynak materyalinin hem de bu materyali oluşturan Gene Roddenberry’nin fikir dünyasını inşa eden Isaac Asimov, Arthur C. Clarke, Ray Bradbury gibi isimlerin, son derece başarılı bilim kurgu öngörülerinden esinlenmişti. Konuşan, sorulara yanıtlar verebilen, yorumlar yapabilen bir bilgisayar hayali, belki 1970’li yıllar için uçuk sayılabilecek bir fikirdi ama bugün geldiğimiz noktada yapay zekâ teknolojileri, bunu LLM ile mümkün kılıyor.

İngilizce “Large Language Models/Büyük Dil Modelleri” ifadesinin kısaltması olan LLM, esasen sofistike yapay zekâ sistemlerini temsil ediyor. Dillerin karmaşık yapılarını anlamak ve hem etkili hem de doğru şekilde kullanmak üzere tasarlanan LLM’ler, yapılandırıldıkları sistemlerin kullanıcıyla etkileşim kurması noktasında da büyük önem taşıyor. Ve evet, bu sistemler, “Turist Ömer Uzay Yolu’nda” filmindeki gibi yanıtlayamadığı sorular karşısında duman çıkarmıyor.

LLM

Peki, ücretli ve ücretsiz yapay zekâ platformlarının yaygınlaşması sayesinde bugün hemen herkesin bir şekilde deneyimleyebildiği LLM’lerin birbirlerinden farklarını öğrenmeye ne dersiniz? Dilerseniz önce LLM’lerin nasıl çalıştığından biraz söz edelim ve dil modellerine dair temel düzeyde bir altyapı oluşturalım. Ardından konunun detaylarına hep birlikte göz atalım.

LLM: Bir Kelime Çorbası mı Yoksa Dilbilgisi Şefi mi?

İnsanlık tarihinin en karmaşık ve şüphesiz en yararlı buluşlarından biri olan dili öğrenmekle kalmayıp yine dili, kelimelerden oluşan lezzetsiz bir çorbadan ziyade ustalıkla hazırlanmış bir yemek gibi sunma hedefi olan LLM’ler, özellikle şirketler tarafından sanal asistan gibi süreçlerde kullanılıyor. Hatta öyle ki bazı süpermarket zincirlerinin web sayfalarında, arkasında iptidai diyebileceğimiz LLM’lerin yer aldığı yemek tarif bölümleri bile bulunuyor. Ancak LLM’lerden yalnızca şirketler değil son kullanıcılar da yararlanıyorlar; öğrencilerden data analistlerine, araştırmacılardan dil öğrenenlere kadar pek çok kişi, bu araçları kullanarak işlerini kolaylaştırıyor ve hayatlarını daha verimli hâle getiriyor.

OpenAI_LLM

Peki, herkesin dilinde olan GPT, Gemini ve Llama 3 gibi LLM’ler nasıl çalışıyor?

İlk Adım: Veri Diyeti – LLM’ler Ne Yer, Ne İçer?

  • “Büyük Veri” Aşçılığı: LLM’ler; kitaplar, makaleler, blog yazıları, forum tartışmaları, haberler ve hatta sosyal medya gönderileri gibi pek çok metin kaynağından “besleniyor”. Bu içerikler, modelin, dilin yapısını, kullanımını ve gramer kurallarını öğrenmesi için büyük önem arz ediyor. Bu sayede bir LLM, J.R.R. Tolkien’in eserlerinden George Orwell’’in distopik romanlarına kadar her türlü metni sindirerek dilin nasıl kullanıldığını özümsüyor.
  • Beslenme Çeşitliliği: Tabii ki LLM’ler yalnızca edebî metinlerle sınırlı kalmıyor; bilimsel makaleler, teknik raporlar, popüler kültür içerikleri ve hatta dinî metinler gibi çeşitli kaynaklar, bu modellerin çok yönlü bir dil anlayışı geliştirmesine yardımcı oluyor. Her dil “lokması”, modelin, daha zengin bir tabak sunmasını sağlıyor.

İkinci Adım: Pişirme Süreci – Nasıl Eğitiliyor?

  • Tarif Kitabını Yazmak: “Önceden Eğitim” adı verilen bir süreçle dilin genel yapısını öğrenen LLM’ler, bu süreçte milyonlarca kelime ve cümleyi analiz ediyor. Bu aşamada LLM, hangi kelimelerin sık sık birlikte kullanıldığını, cümle yapılarının nasıl oluşturulduğunu ve anlam bağlamlarını öğreniyor.
  • Dil Yemeği Servisi: Az önce bahsettiğimiz eğitim sürecinden sonra LLM’ler genellikle fine-tuning/ince ayar adı verilen bir sürece tabi tutuluyor. Model, belirli bir göreve ya da daha dar bir dil setine göre özelleştiriliyor. Örneğin, bir müşteri hizmetleri chatbot’u, özellikle müşteri sorularına ve şikâyetlerine yanıt verecek şekilde ayarlanabiliyor.

Üçüncü Adım: Sofra Sunumu – Modeller Nasıl Yanıt Verir?

  • Soru-Cevap Menüsü: Kullanıcı bir soru sorduğunda veya bir girdi sağladığında, LLM bu girdiyi alıyor, işliyor ve mümkün olan en uygun yanıtı üretmek için önceden öğrendiği bilgilerden yararlanıyor. Bu süreci, bir aşçının malzemeleri bir araya getirerek yemeğe dönüştürmesine benzetebiliriz.
  • Geri Bildirimle Tatlandırma: LLM’ler, kullanıcılar ve geliştiricilerden aldıkları geri bildirimlerle daima kendini geliştiriyor. Modelin performansı, sürekli geri bildirim döngüsü sayesinde artıyor ve modelin doğruluğuyla kullanışlılığı, her yeni sürümde biraz daha gelişiyor, ortaya çıkan “yemeğin” lezzeti de artmış oluyor.

Şimdi gelelim, LLM’lerin birbirinden nasıl farkları olduğuna. Her biri için ayrı ayrı yazılar hazırlanabilecek kadar kapsamlı olan LLM’lerin temel özelliklerini ve özgün yönlerini bir tablo şeklinde paylaşalım.

LLMGeliştiriciParametrelerErişimTeknik Özellikler ve Kullanım AlanlarıÖzgün Yönleri
GPT-4OpenAI1,76 trilyonAPI, ChatGPT PlusMetin ve görüntü işleyebilme yeteneği, doğruluk ve güvenlik açısından iyileştirilmiş, Microsoft Azure AI süper bilgisayarları üzerinde eğitilmiş%40 daha doğru, %82 daha az izin verilmeyen içerik üretimi, çok modlu model desteği
GPT-4oOpenAIBilinmiyorAPI, ChatGPT (ücretsiz ve ücretli)Metin, ses ve görüntü işleyebilme yeteneği, hızlı ve doğru çeviri, gelişmiş ses tanıma, gerçek zamanlı çeviri%50 daha ucuz, 2 kat daha hızlı, belirli ses tonları ile dolandırıcılık risklerini azaltma, Google Drive Microsoft OneDrive entegrasyonu
GeminiGoogle1,8 milyar, 3,25 milyar (Nano), diğerleri bilinmiyorAPI (ücretsiz ve ücretli)Çok modlu yapay zekâ modelleri, metin, görüntü, ses, video ve kod işleyebilme, Google uygulamalarında yapay zekâ özellikleriGoogle Docs ve Gmail’de yapay zekâ entegrasyonu, Google’ın chatbot’u Gemini desteği
Llama 3Meta8 milyar, 70 milyar, 400 milyarHenüz çıkmadıAraştırma ve ticari kullanımlar için ideal, çeşitli görevlerde yüksek performansMeta’nın uygulamalarında yapay zekâ entegrasyonu, açık kaynaklı​
VicunaLMSYS Org7 milyar, 13 milyar, 33 milyarAçıkMeta’nın Llama modeline dayalı, yapay zekâ araştırmalarında yaygın olarak kullanılır, Chatbot Arena benchmark’ında rol oynarChatbot geliştirme ve yapay zekâ araştırmaları
Claude 3AnthropicBilinmiyorAPIHaiku, Sonnet ve Opus modelleri, güvenli ve yardımcı yapay zekâ, kurumsal kullanıcılar için optimizeGüvenli kullanım, veriler üzerinde ince ayar yapabilme​
Stable Beluga ve StableLM 2Stability AI1,6 milyar, 7 milyar, 12 milyar, 13 milyar, 70 milyarAçıkYapay zekâ tabanlı görüntü oluşturma yetenekleri, çeşitli parametre boyutlarıStable Diffusion ile tanınır, Llama modeline dayalı
CoralCohereBilinmiyorAPIİşletme kullanıcıları için tasarlanmış, model versiyonlarını veriler üzerinde eğitme imkânıBelirli sorgulara doğru yanıt verebilir
FalconTechnology Innovation Institute1,3 milyar, 7,5 milyar, 40 milyar, 180 milyarAçıkYüksek performanslı AI benchmark’ları, Apache 2.0 lisansıTicari ve araştırma kullanımı için uygun
DBRXDatabricks ve Mosaic132 milyarAçıkMosaic’in MPT-7B ve MPT-30B modellerinin halefi, Meta’nın Llama modeline dayanmazÇoğu benchmark’ta önceki nesil kapalı LLM’leri aşar veya eşit performans gösterir
Mixtral 8x7B ve 8x22BMistral45 milyar, 141 milyarAçıkAlt sistemlerle daha büyük modelleri verimli bir şekilde geride bırakır, Apache 2.0 lisansıBulut bilişim platformlarında ve bazı yerel bilgisayar temelli yapay zekâ araçlarında kullanılabilir​
XGen-7BSalesforce7 milyarAçıkGüçlü veya popüler bir model değil ama büyük teknoloji şirketlerinin yapay zekâ araçları geliştirebildiğini gösterirSalesforce’un yapay zekâ ve makine öğrenimi departmanının ürünü
GrokxAIBilinmiyorChatbot ve açık (ücretli)X (eski adıyla Twitter) verileri üzerinde eğitilmiş, Elon Musk’ın kurduğu xAI tarafından geliştirilmişMedyada oldukça fazla gündem oldu ve büyük yatırımlar aldı, yapay zekâ modeli ve chatbot olarak bilinir

Siz de teknolojiyi yakından takip ediyor, yapay zekâ uygulamalarından yerel bilgisayarınızda da yararlanmayı hedefliyorsanız, NVIDIA GeForce RTX serisi ekran kartı bulunan, “canavar” gibi bir bilgisayar kullanmanız yararlı olur. Mistral ve LLAMA dil modellerinden yararlanan Chat with RTX ve Stable Diffusion gibi görüntü oluşturma tabanlı yapay zekâ araçlarını, Monster imzalı; Abra, Tulpar ve Semruk serisi oyun bilgisayarlarıyla rahatlıkla kullanabilirsiniz.

 

Paylaş: