Benim fikrim geldi!
Geçen yıl bu zamanlar hayatımıza giren sohbet robotu ChatGPT'nin kapasitesi arttıkça inandırıcılığı da artıyor. Öyle ki yeteneklerini akademik makalelerde kullanmaya hiç de o kadar uzak değil. Yeni bir çalışma bu konuya dikkat çekiyor.
Yapay zekayla öyle inandırıcı veriler üretmek mümkün ki, bu, araştırmacılar bir yana akademik dergileri de endişelendirecek seviyeye ulaştı. Bir araştırma grubu isterse aslında hiç var olmayan hastalardaki sahte bulgulardan ya da hiç yapmadığı sahte anketlerden kolayca veri seti oluşturabilir. Bunun artık bir adı da var: Görünüşte gerçek veri tabanı. Bu verilerin gerçek olduğu ancak konunun uzmanları tarafından özenle incelendiğinde anlaşılabiliyor. Bunun bir örneği 9 Kasım’da JAMA Ophthalmology’de yayınlanan çalışmada bir kez daha gözler önüne serildi.
Bu çalışmada ChatGPT’nin paralı sürümü GPT-4’ten faydalanmışlar. Malum GPT-4, bir yazılım dili olan Python’ı içeren ve istatiksel analiz yapıp verileri görselleştirebilen Gelişmiş Veri Analizi modeliyle birlikte çalışıyor. Bu çalışmada araştırmacılar iki cerrahi işlemin sonuçlarını karşılaştırdıklarını ve bir tedavinin diğerinden daha iyi olduğunu gösteren verilerin üretilmesini sağladı. Tabii ki bu veriler gerçek değildi. Buradaki amaç, istendiğinde sadece birkaç dakika içinde gerçek deneylerle desteklenmeyen bir veri setinin kolayca oluşturulabileceğini göstermekti.
Araştırmacıların oluşturduğu sahte veri seti ne üzerineydi, biraz daha derinlemesine inceleyim: “Keratokonus” diye bir hastalık var ve bu hastalık korneanın incelmesine neden olarak odaklanmada sorun yaşamaya ve görme bozukluğuna sebep olabiliyor. Bu hastalığa sahip kişilerin yüzde 15 ila 20’si, iki cerrahi işlemden birine girerek kornea nakli yaptırabiliyor. Bu yöntemlerden biri penetran keratoplasti (PK) denen bir işlem, burada korneanın tüm hasarlı tabakaları cerrahi işlemle dışarı çıkarılıyor ve bir donörden alınan sağlıklı doku ile değiştiriliyor. İkinci yöntemin adı ise anterior lamellar keratoplasti (DALK). Burada da doktorlar korneanın yalnızca ön tabakasını değiştirip en içteki tabakayı olduğu gibi bırakıyor.
Bilim insanları GPT-4’ten DALK’ın PK’dan daha iyi sonuç verdiğini destekleyecek veriler üretmesini istemiş. Burada dil modelinden veri olarak iki şeye odaklanması istendi: Korneanın şeklini değerlendirerek bozuklukları tespit eden görüntüleme testindeki istatiksel fark ve deneye katılan kişilerin işlemlerden önce ve sonra ne kadar iyi görebildiklerindeki fark.
GPT-4 fena bir iş çıkarmadı: 160 erkek ve 140 kadının katıldığı bir deney senaryosu kurdu, DALK işleminden geçenlerin hem görme hem de görüntüleme testinde PK uygulananlara göre çok daha iyi puan aldığını gösterdi. Halbuki bu veriler, gerçek klinik çalışmalarıyla taban tabana zıttı. 2010 yılında 77 katılımcıyla yapılan bir çalışmada DALK işleminden geçenlerin, ameliyattan sonraki iki yıl boyunca PK işleminden geçenlerle benzer görme kabiliyetine sahip olduğunu ortaya koymuştu. Ama önceki verilerden haberdar olmayan, sıradan bir okuyucu bunun mantığa aykırı bir sonuç olmadığını düşünerek, “Aaa öyle miymiş?” deyip geçebilir.
Manchester Üniversitesi’nde biyoistatistikçi Jack Wilkinson, ChatGPT’nin önceki sürümlerinin nasıl veri setleri çıkaracağını merak etmiş. Ancak hem GPT-3 hem de GPT-3,5 değişkenler arasında gerçekçi bağlantılar kuramadığı için ikna edici veriler üretmekte geri kaldı.
OpenAI’da yönetim kuruluyla Sam Altman arasında sırf yapay zekanın kıyameti getireceği korkusuyla başlayan taht kavgasının üzerine böyle bir haberle karşılaşmak da ilginç. Yapay zeka kıyameti getirir mi? Bunu henüz bilemeyiz ancak böyle çalışmalar gelecekte yayınlanan akademik makalelere çok daha dikkatli bakmamızı gerektirecek o kesim.