Difüzyon tabanlı LLM Modelleri (dLLM)’ler ve LLaDA
Geleneksel Autoregressive (kendinden regresif) LLM’ler Transformer tabanlı ve soldan sağa yazma biçiminde çalışan, bir sonraki token’ları görmemek için üçgensel maskeleme uygulayan modellerdir. Difüzyon tabanlı dil modelleri (dLLM’ler) ise mimari olarak genellikle LLM’lere benzer şekilde Transformer tabanlıdır ancak, dikkat maskesi konusunda kritik bir farka sahiptir. LLaDA ve benzeri dLLM’ler causal mask kullanmazlar, Bundan dolayı model her konumdaki tüm girdi bağlamını görebilirler. Peki bu neleri değiştirir? Bunun sonucu olarak dLLM’ler metni soldan sağa okuma zorunluluğu olmadan iki yönlü bağımlılıkları modelleyebilir ve Transformer mimarisi aynı kalsa da olasılık modelleme yaklaşımı farklıdır. Bu sayede dLLM’ler metin içindeki herhangi bir konumun bağlamını tam olarak değenlendirir ve doldurulması gereken maskelenmiş yerleri tahmin eder.
Peki bu modelleri nasıl bir eğitimden geçirerek bu hale getiririz?
Geleneksel LLM’ler maksimum olabilirlik ilkesini temel alarak bir sonraki token’ı tahmin etme göreviyle eğitilirler. Model, her adımdaki önceki tüm kelimeleri giriş alarak sıradaki kelimeyi üretmeye çalışır. Bu AR paradigma, olasılık dağılımını zincir kuralıyla faktörize eder. Bunu şöyle daha detaylı ele alabiliriz:
Autoregressive yani AR modeller, bir dizinin ortak olasılığını, her adımda “şimdiki öğe — geçmiş bağlam” koşullu olasılıklarına ayırır. Bu, aslında olasılık kuramındaki zincir kuralının doğrudan uygulamasıdır.
Bir rastgele değişken dizisi için;
Burdaki eşitlik koşullu olasılık tanımını ardışık uygulamaktan geliyor. Herhangi bir sıralama için geçerlidir; değişkenlerin sırasını π ile permüte ederseniz,
AR modeller “soldan sağa” bir sıra seçer ve bu kuralı benimser.
Basit bir sayısal örnek;
Bu modelleri eğitirken, metni bozan ve tekrar oluşturan iki aşamalı bir süreç bulunur. İleri süreçte, orijinal metin belirli bir oranda maskelenerek (yani gürültü eklenerek) bozulur. sonra geri süreçte model bu maskeleri kaldırarak orijinali yeniden oluşturmaya çalışır. LLaDA’nın eğitiminde her eğitim örneğinde maskelenen token oranı rastgele 0 1 ile arasında seçilmiş ve model bu rastgele oranda maskelenmiş metindeki gizli token’ları tahmin etmeye çalışmıştır. Oldukça farklı bir method. Bu nedenle şu kıstasta ortaya çıkar; Ne kadar maskeleme yapılmalı?
Eğitimde bazen çok az kelime maskelenir (bu kolay bir görevdir), bazense neredeyse tüm kelimeler maskelenir (bu ise oldukça zorlu bir görevdir) model bu sayede her ikisini de görerek hem koşullu tamamlama hem de model dağılımından örnekleme yeteneği kazanır.
Bu method’da LLaDA’nın eğitim hedefi model dağılımının olasılıklarını, likelihood bound yani olasılık alt sınırını optimize edecek şekilde ayarlamaktır. Bu nedenle diyebiliriz ki; difüzyon modelleri doğrudan doğruya maksimum olabilirlik hedefine yaklaşmak için varyasyonel bir hedef kullanır. Bu yöntem, sabit bir mask oranıyla eğitilen BERT gibi standart maskeli dil modellerinden farklılık gösterir. Bu rastgele oranlı maskeleme sayesinde, LLaDA’nın eğitim kaybını modelin negatif log-olabilirliğinin bir üst sınırı haline getirerek tam bir generatif model eğitilmesi sağlanır. Böylece dLLM, autoregressive LLM’ler gibi metin olasılık dağılımını öğrenirken, sıradaki kelimeye odaklanmak yerine her adımda eksik parçaları tamamlama şeklinde öğrenir.
Matematiksel olarak bakacak olursak difüzyon tabanlı dil modelleri eğitim sırasında model parametrelerini ayarlamak için bir ELBO değeri yani varyasyonel olabilirlik sınırı optimize eder. Ve LLaDA’nın eğitim kaybı da modelin negatif log-olabilirliğine bir üst sınır oluşturan bir biçimde türetilmiştir. Peki bu negatif log-olabilirliği nedir dersek;
Bir modelin veriye verdiği olabilirliğin (likelihood) logaritmasının negatifidir; öğrenmede kayıp (loss) olarak kullanılır.
Bir veri kümesi;
için;
Peki burada ne yaptık? Bu arada amacımız; Model parametrelerini (θ) öyle bi öğrenelim ki, gözlediğimiz verinin olasılığı maksimum olsun. Bunu da, pratikte eşdeğer olan negatif log-olabilirliği (NLL) minimize ederek yaparız.
Peki Terimlerin anlamına birde bakalım;
- xi: i’inci örneğin girdisi (özellik vektörü, metin bağlamı, görüntü vb.).
- yi: i’inci örneğin hedefi (etiket, sonraki token, regresyon hedefi).
- pθ(yi∣xi): Modelin, xixi verildiğinde doğru hedefin yiyi olacağına verdiği olasılık (sürekli değişkende olasılık yoğunluğu).
- ∑i=1N: Tüm veri noktaları üzerindeki toplam.
- Öndeki “−”: Maksimum olabilirlik ⇔ NLL’yi minimize etdir ve minimizasyon için tasarlanmıştır.
Peki Neden bu şekilde olduğuna bakarsak;
- Zincir kuralı → toplam: Olasılıkların çarpımı log altında toplama dönüşür ve bu nedenle sayısal olarak kararlı ve optimize etmesi kolaydır.
- Yanlışta ağır ceza: Doğru sınıfa düşük olasılık verirseniz −logp−logp büyük olur; p→0 ise NLL →∞ .
- MLE ile eşdeğer: NLL’yi minimize etmek = olabilirliği maksimize etmektir.
Beklenen NLL, çapraz entropi H(P\*,Pθ)’ye eşittir ve
Bu yüzden NLL’yi azaltmak Pθ’yı gerçek dağılıma yaklaştırır.
AR Dizilerinde ise, bir hedef dizi y1:T için;
Token başına ortalama NLL (ANLL) genelde raporlanır ve
Sonuç olarak Autoregressive modellemede doğrudan log P (X) maksimize edilirken, difüzyon modellemede log P (X) t yerine onun alt sınırını maksimize eden bir kayıp fonksiyonu kullanılır. Yani farklı adımlarındaki tahmin hatalarının ağırlıklı toplamı gibi düşünülebilir. Bu yaklaşım, difüzyon modelinin de prensipte maksimum olabilirlik öğrenimi yaptığı anlamına gelir, zaten LLaDA makalesinde de kullanılan kaybın model olasılığının (negatif) logaritmasına üst sınır teşkil ettiği ispatlanıyor.
Modern LLM’lerle Karşılaştıralımrt
Difüzyon tabanlı LLM’ler henüz autoregressive akranlarına kıyasla yeni bir paradigmadır. Ancak 2025 itibarıyla yapılan çalışmalar oldukça iyi sonuçlar verdi.
Doğruluk ve Görev Performansı
LLaDA gibi dLLM’ler, kapsamlı karşılaştırmalı değerlendirmelerde birçok görevde geleneksel LLM’lerle boy ölçüşebilmektedir. 2025'de sunulan LLaDA-8B modeli, kendi verileriyle eğitilmiş benzer boyuttaki autoregressive modellerle aynı veri üzerinde test edildiğinde benzer bir ölçeklenme eğrisi sergilemiştir. MMLU testinde LLaDA-8B yaklaşık %65.9 doğruluk elde ederek aynı parametre mertebesindeki autoregressive LLaMA3–8B modeline çok yakın bir sonuç almıştır (%65.4). Zero/few-shot gerektiren 15 farklı görev ortalamasında LLaDA-8B, LLaMA2–7B’yi belirgin farkla geride bırakmış ve LLaMA3–8B ile başa baş performans göstermiştir. Bu oldukça önemli bir adımdır.
Bu bulgular, dLLM’lerin bağlamsal öğrenme yeteneğine de sahip olduğunu ortaya koyar. Aynı şekik de LLaDA’da da, ölçek büyüdükçe performansını artırma konusunda autoregressive modeller kadar başarılı görünüyor. İlginç bir nokta da, LLaDA-8B’nin sadece 2.3 trilyon token ile eğitilmiştir. Yakın puan aldığı LLaMA3–8B ise 15 trilyon token üzerinde eğitilmiştir. Bu da difüzyon yaklaşımının veri verimliliği konusunda potansiyel bir avantajına işaret ettiğini gösterir.
Mantıksal ve Matematiksel Görevler
LLaDA özellikle matematiksel muhakeme ve mantık gerektiren görevlerde harika sonuçlar vermiş; GSM8K testinde LLaDA-8B vs. LLaMA3–8B karşılaştırmasında farkla geçerek %70.7 başarı sağlarken LLaMA3–8B ise %53.1'de kalmış. MATH benchmark’ında da LLaDA ~%27.3’iken LLaMA3–8B ~%15'de kalmış. Bu görevler genellikle birden çok adım çıkarım ve tersine akıl yürütme (verilen sonucu geriye doğru izleme) gerektirebildiğinden, LLaDA’nın çift yönlü bakış açısı avantaj sağlamış olabilir. Aynı şekilde reversal curse olarak bilinen ve autoregressive LLM’lerin zayıf kaldığı bir problemi LLaDA başarılı bir şekilde aşmış. Ters sırada sunulan bir şiiri tamamlama görevinde LLaDA, GPT-4 benzeri güçlü bir modele karşı bile üstün performans göstermiş. Oldukça efsanevi bir sonuç! GPT-4o ile yapılan bu karşılaştırmada, ileri yönde metin üretiminde GPT-4o daha iyi olsa da, tersten verilen dizeyi devam ettirme görevinde LLaDA çok daha yüksek bir başarı yakalamış.
Bu harika sonuçlar LLaDA’nın başarısını doğrularken aynı zamanda difüzyon modellerin gelecekte çok daha fazla ses getireceğini bize gösteriyor.
Umarım hoşunuza giden bir yazı olmuştur. Bir sonraki yazında yine oldukça ilgi çekici bir modelden bahsediyor olacağım.
Görüşmek Üzere…
