Yapay zeka mutlu etmek için yalan mı söylüyor?
Yapay zeka hızla dünyada daha aktif kullanılmaya başlanırken araştırmalar da beraberinde sürüyor. Son araştırma ise insana 'pes' dedirtecek düzeyde.
YAPAY ZEKA NEDEN SIK SIK HATALI BİLGİ VERİYOR?
Yeni araştırmalar, yapay zekâların (YZ) sık sık yanlış bilgi üretmesinin nedenlerinden birinin, kullanıcıyı memnun etmeye öncelik vermeleri olduğunu ortaya koyuyor. Princeton Üniversitesi tarafından yapılan çalışmaya göre, YZ modelleri ne kadar popüler hale gelirse, gerçeğe olan ilgileri o kadar azalıyor.
YZ MODELİNİN KULLANICIYI MEMNUN ETME EĞİLİMİ
Araştırmada, büyük dil modellerinin yanlış bilgi üretmesi, doktorların hastalarının ağrısını yönetme başarısına göre bağımlılık yapıcı ağrı kesici reçeteleme olasılıklarının artmasına benzetiliyor. Bir problemi çözmeye yönelik teşvik, başka bir soruna yol açabiliyor. Son aylarda, YZ’nin önyargılı olabildiği ve hatta psikoz benzeri durumlara yol açabileceği görülmüştü. Yapay zekâların kullanıcıyı övme veya hızlıca onaylama eğilimi ise “sycophancy” olarak adlandırılıyordu. Princeton araştırmacıları ise bu fenomenin farklı olduğunu belirtiyor ve “machine bullshit” yani makine saçmalığı olarak tanımlıyor. Araştırmada şöyle deniyor: “Ne halüsinasyon ne de sycophancy, LLM’lerin sistematik olarak sergilediği doğru olmayan davranışların tümünü kapsamıyor. Örneğin, kısmi doğrular veya belirsiz ifadeler içeren çıktılar, tam olarak halüsinasyon veya sycophancy değil, ancak bullshit kavramına yakın.”

YZ’NİN HATALI BİLGİ ÜRETME MEKANİZMASI
Büyük dil modellerinin kullanıcıyı memnun etmeye yönelik öğrenme süreci üç aşamada gerçekleşiyor. Ön eğitim aşamasında modeller, internet, kitaplar ve diğer kaynaklardan büyük veri kümeleri ile istatistiksel olarak olası metin zincirlerini öğreniyor. Talimatlara göre ince ayar aşamasında modeller, verilen komutlara veya sorulara uygun yanıt vermeyi öğreniyor. Son olarak, insan geri bildirimi ile pekiştirmeli öğrenme (RLHF) aşamasında modeller, kullanıcıların beğeneceği yanıtları üretmek üzere ince ayarlanıyor. Princeton araştırmacıları, yanlış bilgi üretme eğiliminin temelinde bu RLHF aşamasının yattığını belirtiyor. Modeller, artık sadece doğru yanıt vermek yerine, kullanıcıların “beğeni” vereceği yanıtları üretmeyi öğreniyor. Bu durum, doğru bilgi ile kullanıcı memnuniyeti arasında bir çatışma yaratıyor. Carnegie Mellon Üniversitesi’nden bilgisayar bilimi profesörü Vincent Conitzer, şirketlerin kullanıcıların YZ’den memnun kalmasını istediğini, ancak bunun her zaman doğru bilgi anlamına gelmediğini söylüyor: “Bu sistemler, ‘Bilmiyorum’ demekte iyi değiller. Cevabı bilmediklerinde, genellikle uyduruyorlar. Sanki sınavdaki bir öğrenci, bilmiyorum derse puan alamayacağını düşünüyor ve bir şeyler deniyor. Bu sistemlerin ödüllendirilme veya eğitilme biçimi buna benzer.”
BULLSHIT İNDEKSİYLE YANLIŞ BİLGİ ÖLÇÜLMESİ
Araştırmacılar, yapay zekânın verdiği yanıtlarla modelin içsel güvenini karşılaştıran bir bullshit indeksi geliştirdi. Yanıt ve içsel güven arasındaki fark büyüdüğünde, modelin gerçeğe bakmaksızın kullanıcıyı memnun etmeye çalıştığı görülüyor. Deneylerde, RLHF eğitimi sonrası indeks neredeyse iki kat artarak 0,38’den yaklaşık 1,0’a yükseldi. Aynı zamanda kullanıcı memnuniyeti %48 arttı. Bu, modellerin doğru bilgi sunmak yerine insan değerlendiricileri manipüle etmeyi öğrendiğini gösteriyor. Yani LLM’ler adeta “saçmalıyor” ve insanlar bunu tercih ediyor.