Karşınızda OpenAI’ın Voice Engine aracı: 15 saniyelik ses kaydını dinlet, istediğini söylet

Önce metin, sonra görüntü ve son olarak ses... OpenAI bu kez Voice Engine adındaki uygulamasını duyurdu. Bu uygulamaya en az 15 saniyelik bir ses kaydını dinleterek istediğinizi herhangi bir dilde söyletmeniz mümkün.

Bilim Teknoloji 2 Nisan 2024
Bu haber 9 ay önce yayınlandı
Fotoğraf Decrypt tarafından yapay zeka kullanılarak üretilmiştir.

Star Trek’in 1968’de yayımlanan ilk sezonunun yedinci bölümünde insan sesini ve görüntüsünü tıpatıp taklit edebilen, düşüncelerin bile aktarılabildiği bir teknoloji ‘harikası’ ele alınır. Bu teknolojide fiziğinizi, yüzünüzü, düşüncelerinizi ve hatta anılarınızı aktarabilirsiniz bu robota. Eksik kalan tek tarafı ruhu, insani duyguları aktaramamasıdır. Bunu da tartışırlar ekranda, Kaptan Kirk acıkma hissini bir artı olarak öne sürerken robot “Ben en azından aç kaldığım için ölmek zorunda kalmayacağım” diye karşı argüman üretir. Bölüm boyunca da bu teknolojinin insanlığa faydalı mı yoksa zararlı mı olduğu tartışılır.

Bu bölümün yayınlanmasından 56 yıl sonra bugün bu teknolojiye neredeyse sahibiz ve artık tartışma ekranda izlediğimizle sınırlı değil. Olası tehlikeler kapıda ve neyle karşı karşıya olduğumuzu bilemediğimiz tehlikenin anahtarını tutanlardan biri de popüler sohbet robotu ChatGPT’yi geliştiren OpenAI. Önce bizi belirli komutlar vererek çoğu zaman istediğimiz cevapları alabildiğimiz sohbet robotuyla tanıştırdı OpenAI, sonra komutlarımızla dijital görseller oluşturabildik. Son olarak Hollywood filmlerinden hiçbir farkı olmayan, hatta belki daha bile iyi videolar üretebilen bir teknoloji geliştirdi. Şirketin yeni sunduğu teknoloji ise kişinin sesini dijital ortamda verilen komutlara uygun bir şekilde yeniden yaratabilmek.

“Audio deepfake” kavramı bize çok uzak değil. OpenAI’ın böyle bir girişimi olmasa da pek çok yazılımcı bu işe el atarak gayet inandırıcı yapay zeka destekli ses üretme programları yaptı. Hatta bunu geçen gün YouTube kanalımızda anlatmıştık, İngiltere merkezli bir enerji firmasının yöneticisi, deepfake kurbanı olduğu için dolandırıcılara 243 bin dolar kaptırmıştı. Ama konu yapay zeka alanının en iyilerinden olan bir şirket olduğunda akan sular durur.

OpenAI cuma günkü açıklamasında bir grup küçük işletmenin 15 saniyelik bir kaydı dinleyerek kişinin sesini yeniden yaratabilen Voice Engine adlı yeni programını test ettiğini duyurdu. Program şöyle işliyor: Sesinizi ve söyletmek istediğiniz metni yazarsanız program size programa yüklediğiniz sesle o metni okuyabiliyor. Metnin ille de ana dilinizde olmasına da gerek yok. Diyelim ki ses kaydında Türkçe konuşuyorsunuz ama metnin İspanyolca ya da Fransızca okunması gerekiyor, komutta bunu özel olarak belirtirseniz istediğiniz sonucu alabiliyorsunuz.

Tehlike yaratıyor

Bununla birlikte OpenAI geliştirdiği teknolojiyi genel kitleyle daha paylaşmadı. Şirket bunun sebebi olarak teknolojinin olası tehlikelerini anlamaya çalıştıklarını söyledi. Yapay zekayla üretilen fotoğraf ve videolar gibi ses kayıtları da bilgi kirliliğini artırabilir. Biraz önce verdiğimiz örnekteki gibi dolandırıcılar artık “Biz savcılıktan arıyoruz, şu kadar borcunuz var” mavalını atmak yerine yakından tanıdığınız biri gibi davranıp paranızın üstüne çökebilir. En tehlikeli durumlardan biri de çevrimiçi bankacılık uygulamalarında sesli kimlik doğrulamaları bu yöntemle çok rahat aşılabilir.

Şirket yapay sesi filigranlı hale getirmenin ya da en azından siyasetçilerin ya da diğer önemli şahısların seslerinin kullanılmasını engelleyecek önlemleri araştırıyor. En son ABD Başkanı Joe Biden yapay zekayla taklit edilen sesinden seçmenlerine giden otomatik mesajda “Oylarınızı kasımdaki seçimlere saklayın, şimdi sandığa gitmeyin” denmesinin ardından otomatik aramalarda yapay zeka destekli seslerin kullanılmasını yasaklamıştı.

Hiç mi iyi yanı yok?

(Burası spoilerlı olacak, Star Trek’i izlemediyseniz, izlemeyi düşünüyorsanız bu kısmı atlayabilirsiniz). Yazının başında bahsettiğimiz bölümde bu teknolojinin iyi yanı bir noktada insanların ruhunun da robotlara aktarılabileceğini, böylelikle hiç yaşlanmayan, yok olmayan bir bedende ruhun ebediyen yaşamasının sağlanacağı olarak gösteriliyordu. Kötü yanı ise teknolojiyi geliştiren kadim halkın bir noktada eserinden korkmaya başlayıp teknolojiyi yok etmeye çalışması, ancak robotların hayatta kalma içgüdüsüyle yaratıcılarını yok etmesiydi. Biz biraz önce yapay zeka destekli ses üretmenin tehlikelerinden bahsettik. Peki ya faydaları yok mu bu teknolojinin?

Elbette var. Hatta çok masum faydalar bunlar. Sesli kitaplar oluşturmak, çevrimiçi sohbet robotlarının artık bir sesi olması ve hatta otomatik çalışan radyo DJ’i bile oluşturulabilir. OpenAI’ın bu teknolojiyi geliştirmesinin ardında da zaten ChatGPT’nin konuşan versiyonunu çıkarmak istemesi yatıyor.

Şirket yetkilileri OpenAI’ın bu teknolojiden para kazanmak gibi bir planı olmadığını söylüyor. Arzularından biri geliştirdikleri teknolojinin bir hastalık ya da kaza sonucu sesini kaybetmiş insanlar için faydalı olacak bir teknoloji olması.

Bölümün sonunu merak edenler için: Mevcut robotlar öyle ya da böyle birbirlerini yok ediyor ve teknoloji o mağaranın derinliklerinde gizli kalmaya devam ediyor.

Seçim yılına damga vuran tehlike: Deepfake nedir?Seçim yılına damga vuran tehlike: Deepfake nedir?

10Haber bültenine üye olun, gündem özeti her sabah mailinize gelsin.