‘Her’ filmi gerçek olmaya çok yakın: GPT-40 dinliyor, görüyor ve konuşuyor

En popüler sohbet robotlarından ChatGPT'yi geliştiren OpenAI bu kez sesli komutları duruma uygun bir ses tonuyla yanıtlayabilen, gördüğü görüntüleri yorumlayabilen yeni modeliyle şaşırtıyor bizi.

Bilim Teknoloji 14 Mayıs 2024
Bu haber 8 ay önce yayınlandı
Fotoğraf: Her

Apple ve Google kendi sesli asistanlarını sohbet robotlarına dönüştürme yolunda adımlar atarken OpenAI sahneye çıkarak “Ben de sohbet robotumu sesli asistana dönüştürürüm” dedi. Şirketin dün gece yayınladığı GPT-4o’nun sorulan sorulara sanki 40 yıllık arkadaşınızmış gibi cevap vermesi, arka planı analiz ederek yorumlar yapması, en önemlisi de söz kesmeden dinlemesi yeni modeli inceleyenleri çok etkiledi. Kimi “İşimiz elimizden gidecek diye evhamlanmaya başladı, kimi ise yeni arkadaş edinebileceği için mutluydu.

Şirket GPT-4o adını verdiği yapay zeka sistemine dayanan yeni uygulamasının ses, görüntü ve videoları GPT’nin önceki sürümlerinden çok daha hızlı algılayabildiğini söylüyor. Şirketin blog yazısına göre ortalama 320 milisaniyede cevap verebiliyor ki bu bir insanın karşısındaki insanın söylediklerini algılayıp cevap verme hızına en yakın süre.

Ayrıca bunları algılayıp yorumlayarak duruma uygun ses tonunu kullanabiliyor. Örneğin şirketin yayınladığı videolardan birinde şirket çalışanı önemli bir duyuru yapacağını söylediğinde GPT-4o meraklı bir ses tonuyla neyin duyurusunun yapılacağını soruyor. Sonrasında kendi çıkışının duyurusunun yapıldığını öğrenince sesi heyecanlı gelmeye başlıyor.

Ya da örneğin çevirmene ihtiyacınız mı var? Şirket çalışanları yeni modelin İspanyolcadan İngilizceye, İngilizceden İspanyolcaya canlı bir ses tonuyla saniyeler içinde çeviri yapabilme özelliğini de inceledi. Yeni modelin 50’den fazla dili desteklediği belirtiliyor; bu dillerden biri de Türkçe. Şirketin sosyal medya hesabından yayınlanan diğer videolarda GPT-4o ninni ya da şarkı söyleyebiliyor, soğuk şakalar yapabiliyor, hatta bir öğretmen edasıyla matematik öğretebiliyor.

OpenAI, GPT-4o özelliklerine sahip bir masaüstü uygulaması kuracağını söylüyor. Yeni model öncelikle ücretli abonelere sunulacak ama önümüzdeki aylarda GPT’ye para ödemeyen kullanıcılar da GPT-4o’dan faydalanabilecek. Ama ücretsiz kullanıcılar yeni modeli sınırlı olarak kullanabilecek.

ChatGPT şimdiye kadar yazılı komutları algılayarak yazılı yanıt verebiliyor, öğrencilerin ödevlerine yardım edebiliyor ve bilgisayar kodu üretebiliyordu. Sesli modu da kullanıcıların hizmetine sunuldu ama o dün yayınlanan modelin gerisinde kalıyor, sadece komutlara yanıt verebiliyordu. Görüntüleri algılayarak yorum yapabilme yeteneğine sahip değildi.

Ses asistanlarına aşık olacağımız günler yakın

OpenAI’nın yeni girişimi diyaloğa dayalı ChatGPT gibi sohbet robotlarını sesli asistanlarla birleştirme çabasının bir parçası. Örneğin Google geliştirdiği sohbet robotu Gemini’yi Google Asistan’a entegre etmeye çalışırken Apple da Siri’nin daha çok diyalog edebilen bir versiyonunu yaratmak için çabalıyor.

Şirketin CEO’su Sam Altman yeni modelin filmlerde gördüklerimize benzediğini söylüyor. Altman geçen yıl kendisinin ve diğer şirket çalışanlarının 2013 yapımı “Her” filminden ilham aldığını söylemişti. Filmde Joaquin Phoenix’in canlandırdığı karakter bir ses asistanına aşık oluyordu. Zaten Altman yeni modelin lansmanından hemen önce “Pazartesi gününe hazırlanmak için Her’ü izliyorum” yazılı bir paylaşımı da beğendi.

Şirket yeni modelin hafıza becerisinin de olduğunu söylüyor. Yani kullanıcıların önceki konuşmalarından öğrenebiliyor. Eski GPT modelleri becerilerini Wikipedia, kitap PDF’leri ve sosyal medyada belli sayıda beğeni almış gönderilerden toplanan verileri analiz ederek kazanıyordu. Artık sadece yazılı verilerden değil, seslerden, görüntülerden ve videolardan öğrenebiliyor. Bu aslında çok değerli bir özellik. Çünkü artık yapay zekanın dijitalde beslenebileceği yazılı verilerin sınırına dayanmaya çok yakın olduğumuzla ilgili birtakım endişeler vardı.

Bu arada OpenAI’ın yeni modelini açıkladığı tarih de biraz manidar. Zira bugün de Google yıllık toplantısını gerçekleştirecek ve toplantıda üzerinde en çok konuşulacak konunun Gemini’ye getirilen güncellemeler olması tahmin ediliyor. Gemini de GPT-4o gibi çoklu model; yazılanları, görüntüleri ve sesleri yorumlayıp yanıt verebiliyor.

OpenAI deepfake'e karşı harekete geçti: DALL-E görsellerini yüzde 98,8 oranında doğru tespit ediyorOpenAI deepfake’e karşı harekete geçti: DALL-E görsellerini yüzde 98,8 oranında doğru tespit ediyor

10Haber bültenine üye olun, gündem özeti her sabah mailinize gelsin.