Zihnimiz bize neyin iyi neyin kötü geleceğini hemen söyleyiverir. Hayallerimize yön veren de zihindir. Zihnimiz bizi neyin mutlu edeceğini nereden biliyor?
Yıllar önce berber arkadaşımın dükkanında, hem traş olup hem kitaplar, ilişkiler ve birçok başka konuda sohbet ederken şöyle dedi: “Bu koltukta oturup hayallerinden bahseden çok insan oldu. Bazen yanlış hayaller de kuruyor olamaz mıyız?”
Bu yazıda yapay zekadan başlayıp hayallere gideceğiz. Belki de hayallerimizin de gerisinde başka bir şey vardır?
Yapay Zeka (AI) yakın zamandaki çıkışını ChatGPT ve Gemini gibi modellerle yaptı. Bu AI modelleri halüsinasyon görmeleri ve yanlış cevap verebilmeleriyle de ünlü. AI’ın daha doğru, daha güvenli, ve de soruya daha uygun cevaplar vermesi için yaygınca kullandığımız bir teknik var: RLHF yani İnsan Destekli Pekiştirmeli Öğrenme (Reinforcement Learning from Human Feedback). RLHF teknik bir yöntem olarak ilginizi çekmeyebilir. Konuyu birazdan bize yani insana bağlayacağım. Öncelikle RLHF’i biraz daha anlatmama izin verin.
İlk aşamada AI’yın verdiği cevapları insanlar değerlendiriyor. Örnek olarak bu yanlış, bu doğru, bu daha akıcı, bu bağlama daha uygun gibi değerlendirmelerde bulunuyorlar. Kısacası insanlar iyiyi ve kötüyü örnekler üzerinden tanımlıyor.
İkinci aşamada bu değerlendirmeleri kullanarak bir Ödül Fonksiyonu öğreniyoruz. Ödül fonksiyonunu bir cevaba baktığında bu iyidir bu kötüdür diyebilen başka bir yapay zeka gibi düşünebilirsiniz.
Üçüncü aşamada yapay zekanın cevap üretme yöntemlerini (policy), ödül fonksiyonuna bakarak iyileştiriyoruz. Bu aşamada belli bir cevabı iyileştirmekten daha çok düşünme yöntemini iyileştiriyoruz. Düşünme yöntemi iyileşen yapay zeka daha iyi cevaplar üretmeye başlıyor.
Özetlersek ilk aşamada belli örnekleri değerlendiriyoruz. İkinci aşamada bu örnekler üzerinden genel bir ödül fonksiyonu tanımlıyoruz. Üçüncü aşamada ise altta yatan düşünme yöntemlerimizi geliştiriyoruz. Yazının devamında ödül fonksiyonu ile meditasyon gözlemleri arasında bağlantı kuracağım.
Meditasyon yolculuğunuz ilerledikçe günlük hayatın akışında da düşüncelerimizi ve duygularımızı gözlemleyebiliyoruz. Ufuk açıcı bir gözlemi şu soruyla başlatabiliriz: Beni neler çekiyor ve neler itiyor?
Bunu gözlemlerken fark ediyorum ki bazı insanlar çekiyor ve bazıları da itiyor. Bazı koşullar çekiyor ve bazıları da itiyor. Bir başka farkındalık da bizi iten ve çeken şeylerin kişiden kişiye değişmesi. Yani genel geçer bir iyi tanımı yok. Şöyle ki bazılarımızı kalabalık parti ortamı çekiyor, bazılarımızı da az kişiyle yapılan sakin muhabbetler. Eğer kendinizi gözlemleyecek olursanız bu itme çekme olayının ne kadar hızlı olduğuna kendiniz de şaşıracaksınız. Sanki zihnimizde bilinçsizce çalışan bir mekanizma bu iyi gelecek bu kötü gelecek diye hızlıca değerlendirme yapabiliyor. İçimde böyle bir mekanizma olduğunu varsayayım ve adını da içsel ödül fonksiyonum koyayım.
İçsel ödül fonksiyonum bana neyin iyi neyin kötü geldiğini anında anlıyor. Ya da anladığını zannediyor. Büyük bir güvenle karar veriyor. Nasıl yapabiliyor bunu şaşkınım. Ödül fonksiyonum büyük ihtimalle çocukken bana iyi gelen yani huzuru, neşeyi, güveni, sevgiyi, eğlenceyi, beraberliği vb. çoğaltan kişileri ve koşuları iyice inceledi. Yapay zekanın örnekler üzerinden genel bir ödül fonksiyonu tanımlaması gibi zihnim de çocukluğumun koşullarından genel çıkarımlar yapan bir mekanizma yarattı. Aynı şekilde acıyı, sıkıntıyı, çatışmayı, dışlanmayı vb. çoğaltan kişileri ve koşulları iyice inceleyerek genel geçer kötü gelenler fonksiyonu tanımladı. Artık anında bu iyi gelecek bu kötü gelecek diyebiliyor.
İçsel ödül fonksiyonum hayallerimi kurarken de iş başında. Sonuçta beni teşvik eden o hayallere bakınca ödül fonksiyonumun coşkuyla evet demesi. Arkadaşımın hayal hatası dediğinin temelinde gerçeklikten kopuk ödül fonksiyonlarımız olabilir mi?
İddia ediyorum ki çoğumuzun ödül fonksiyonu güncellenmemiş, çocukluğumuzdaki koşullarda kalmış. Bize iyi gelecek şeyleri görmüyor, bize kötü gelecek şeylerin iyi geleceğini zannediyor. Meditasyonda bahsettiğimiz yargılamadan gözlemleme yeteneği bize büyük bir fırsat veriyor: Ödül fonksiyonumuzun şu anki koşullarımıza göre güncellenebilmesi.
Not: Yazıda yer alan “beynimizin ödül fonksiyonu” ya da “bunun güncellenmesi” kavramları yazarın meditasyon süreçlerindeki gözlemlerine ve yapay zeka alanındaki tecrübesine dayanmaktadır.