Apple ve Google kendi sesli asistanlarını sohbet robotlarına dönüştürme yolunda adımlar atarken OpenAI sahneye çıkarak “Ben de sohbet robotumu sesli asistana dönüştürürüm” dedi. Şirketin dün gece yayınladığı GPT-4o’nun sorulan sorulara sanki 40 yıllık arkadaşınızmış gibi cevap vermesi, arka planı analiz ederek yorumlar yapması, en önemlisi de söz kesmeden dinlemesi yeni modeli inceleyenleri çok etkiledi. Kimi “İşimiz elimizden gidecek diye evhamlanmaya başladı, kimi ise yeni arkadaş edinebileceği için mutluydu.
Şirket GPT-4o adını verdiği yapay zeka sistemine dayanan yeni uygulamasının ses, görüntü ve videoları GPT’nin önceki sürümlerinden çok daha hızlı algılayabildiğini söylüyor. Şirketin blog yazısına göre ortalama 320 milisaniyede cevap verebiliyor ki bu bir insanın karşısındaki insanın söylediklerini algılayıp cevap verme hızına en yakın süre.
Ayrıca bunları algılayıp yorumlayarak duruma uygun ses tonunu kullanabiliyor. Örneğin şirketin yayınladığı videolardan birinde şirket çalışanı önemli bir duyuru yapacağını söylediğinde GPT-4o meraklı bir ses tonuyla neyin duyurusunun yapılacağını soruyor. Sonrasında kendi çıkışının duyurusunun yapıldığını öğrenince sesi heyecanlı gelmeye başlıyor.
Say hello to GPT-4o, our new flagship model which can reason across audio, vision, and text in real time: https://t.co/MYHZB79UqN
Text and image input rolling out today in API and ChatGPT with voice and video in the coming weeks. pic.twitter.com/uuthKZyzYx
— OpenAI (@OpenAI) May 13, 2024
Ya da örneğin çevirmene ihtiyacınız mı var? Şirket çalışanları yeni modelin İspanyolcadan İngilizceye, İngilizceden İspanyolcaya canlı bir ses tonuyla saniyeler içinde çeviri yapabilme özelliğini de inceledi. Yeni modelin 50’den fazla dili desteklediği belirtiliyor; bu dillerden biri de Türkçe. Şirketin sosyal medya hesabından yayınlanan diğer videolarda GPT-4o ninni ya da şarkı söyleyebiliyor, soğuk şakalar yapabiliyor, hatta bir öğretmen edasıyla matematik öğretebiliyor.
Realtime translation with GPT-4o pic.twitter.com/J1BsrxwYdE
— OpenAI (@OpenAI) May 13, 2024
OpenAI, GPT-4o özelliklerine sahip bir masaüstü uygulaması kuracağını söylüyor. Yeni model öncelikle ücretli abonelere sunulacak ama önümüzdeki aylarda GPT’ye para ödemeyen kullanıcılar da GPT-4o’dan faydalanabilecek. Ama ücretsiz kullanıcılar yeni modeli sınırlı olarak kullanabilecek.
ChatGPT şimdiye kadar yazılı komutları algılayarak yazılı yanıt verebiliyor, öğrencilerin ödevlerine yardım edebiliyor ve bilgisayar kodu üretebiliyordu. Sesli modu da kullanıcıların hizmetine sunuldu ama o dün yayınlanan modelin gerisinde kalıyor, sadece komutlara yanıt verebiliyordu. Görüntüleri algılayarak yorum yapabilme yeteneğine sahip değildi.
Ses asistanlarına aşık olacağımız günler yakın
OpenAI’nın yeni girişimi diyaloğa dayalı ChatGPT gibi sohbet robotlarını sesli asistanlarla birleştirme çabasının bir parçası. Örneğin Google geliştirdiği sohbet robotu Gemini’yi Google Asistan’a entegre etmeye çalışırken Apple da Siri’nin daha çok diyalog edebilen bir versiyonunu yaratmak için çabalıyor.
Şirketin CEO’su Sam Altman yeni modelin filmlerde gördüklerimize benzediğini söylüyor. Altman geçen yıl kendisinin ve diğer şirket çalışanlarının 2013 yapımı “Her” filminden ilham aldığını söylemişti. Filmde Joaquin Phoenix’in canlandırdığı karakter bir ses asistanına aşık oluyordu. Zaten Altman yeni modelin lansmanından hemen önce “Pazartesi gününe hazırlanmak için Her’ü izliyorum” yazılı bir paylaşımı da beğendi.
Şirket yeni modelin hafıza becerisinin de olduğunu söylüyor. Yani kullanıcıların önceki konuşmalarından öğrenebiliyor. Eski GPT modelleri becerilerini Wikipedia, kitap PDF’leri ve sosyal medyada belli sayıda beğeni almış gönderilerden toplanan verileri analiz ederek kazanıyordu. Artık sadece yazılı verilerden değil, seslerden, görüntülerden ve videolardan öğrenebiliyor. Bu aslında çok değerli bir özellik. Çünkü artık yapay zekanın dijitalde beslenebileceği yazılı verilerin sınırına dayanmaya çok yakın olduğumuzla ilgili birtakım endişeler vardı.
Bu arada OpenAI’ın yeni modelini açıkladığı tarih de biraz manidar. Zira bugün de Google yıllık toplantısını gerçekleştirecek ve toplantıda üzerinde en çok konuşulacak konunun Gemini’ye getirilen güncellemeler olması tahmin ediliyor. Gemini de GPT-4o gibi çoklu model; yazılanları, görüntüleri ve sesleri yorumlayıp yanıt verebiliyor.