Bugün GPT-4o’ın insan gibi, hatta bir insandan çok daha sıcak şekilde konuşmasına şaşıyoruz değil mi? Ya da DALL-E gibi modellerin ürettikleri resimlerin gerçekliklerini sorguluyoruz. Ancak yapay zeka sistemleriyle ilgili çok sıkıntılı bir durum var. Bu teknolojiyi geliştirenler bile yapay zeka sistemlerinin nasıl çalıştığını tam olarak çözebilmiş sayılmaz.
Bunun nedeni ChatGPT gibi sohbet robotlarına güç veren büyük dil modellerinin alışageldiğimiz bilgisayar programlamalarından farklı olarak yazılımcılar tarafından satır satır programlanmaması. Aksine bu sistemler büyük miktarda veriyi alıyor, dildeki kalıpları ve ilişkileri çözümleyerek cümle kurarken bir sonraki kelimenin ne olacağını kendi kendine öğreniyor.
Takdir edersiniz ki yapay zeka sistemlerinin bu şekilde oluşturulması kodlardaki belli başlı hataları tespit edip çözmeyi zorlaştırıyor. Diyelim ki ChatGPT’de “Türkiye’nin başkenti neresidir?” diye sorduğunuzda cevabı “Londra” diye alıyorsanız modelin neden böyle bir hata yaptığını anlamanın kesin bir yolu yok.
Sohbet robotlarında bir sıkıntı çıktığında kimse nedenini tam olarak açıklayamıyor. İşte bu yüzden bu alanın önde gelen araştırmacılarından bazıları teknolojinin en nihayetinde insanlık için tehdit haline gelebileceğinden korkuyor. Bu modellerin içini çözemezsek yeni biyolojik silahlar yaratıp yaratmadığını, siyasi propaganda için kullanılıp kullanılmadığını ya da siber saldırı yapmak için korsan kodlar yazıp yazmadığını nereden bileceğiz ki? İleri seviye yapay zeka sistemleri bizi dinlememeye ya da aldatmaya başladığında (ki başladı, aşağıdaki haberimizde okuyabilirsiniz) bu davranışa neyin sebep olduğunu anlayamazsak nasıl durduracağız?
Yapay zekanın zihnini haritalandırmak
Bu hafta yapay zeka şirketi Anthropic’teki bir grup araştırmacı yapay zeka dil modellerinin gerçekte nasıl çalıştığını daha iyi anlamamızı ve onların bize zarar vermesini engellememizi sağlayacağını umduğu büyük bir buluşu duyurdu. Ekip bulgularını “Büyük Dil Modelinin Zihnini Haritalandırmak” başlıklı bir blog yazısında özetledi.
Araştırmacılar Anthropic’in yapay zeka dil modellerinden Claude 3 Sonnet’yi ameliyat masasına yatırır gibi yatırıp içine baktı. Yapay zeka modelinin içindeki matematiksel birimler olan nöronların kombinasyonlarının Claude’dan belirli konular hakkında konuşması istendiğinde nasıl aktive olduğunu gözlemlemek için “sözlük öğrenme” tekniğini kullandılar. Analiz sonucunda nöron kombinasyonlarının devreye girişinde belli kalıplar olduğunu gören ekip bu kalıplara “özellikler” adını verdi. Keşfedilen özellik sayısı 10 milyondu.
Örneğin Claude’dan Konya hakkında konuşmasını istediğinizde bir özelliği devreye giriyordu. Evren konusunda konuşmak istediğinizde başka bir özelliği, aşılar hakkında konuştuğunuzda yine farklı bir özelliği aktif oluyordu. Bazı özellikler aldatma ya da cinsiyet yargıları gibi daha soyut kavramlarla ilgiliydi.
Ayrıca belli başlı özellikler manuel olarak devreye sokulduğunda yapay zeka sisteminin davranışlarının değişebildiğini, sistemin kendi kurallarının bile çiğnenebildiğini keşfettiler. Örneğin “dalkavukluk” kavramıyla bağlantılı bir özellik devreye sokulduğunda Claude’un en gereksiz yerlerde bile kullanıcıya çiçeğimli böceğimli konuştuğunu gördüler.
Daha önce araştırmacılar küçük ve orta ölçekli dil modellerinde de benzer olgulara rastlamıştı ama Anthropic’in ekibi bu tekniği büyük dil modeline ilk uygulayanlardan biri. Anthropic’in bu araştırmasını yöneten Chris Olah verdiği bir demeçte yapay zeka şirketlerinin modellerini bu sayede daha etkili bir şekilde kontrol edebileceklerini söyledi. Bununla birlikte Olah yapay zekanın nasıl yorumlanacağının hâlâ çözülememiş bir sorun olduğunu söylüyor.
En büyük dil modelleri farklı kavramları temsil eden muhtemelen 10 milyon kadar özelliğe sahip. Bunların hepsini keşfetmek muazzam miktarda efor sarf etmek anlamına geliyor. Yani çok zengin bir yapay zeka şirketi değilseniz girişemeyeceğiniz kadar maliyetli bir iş.