Çini yapay zeka DeepSeek, başkalarının yüzmilyonlarca dolara mal ettiği işi 6 milyon dolara başaran bir yöntem geliştirdi, yöntemini de gizlemedi, ilan etti. Şimdi o yöntemi uygulamak isteyen 600 proje ortaya çıktı bile.
Bütün teknoloji ve yatırım dünyası günlerdir Çin’den çıkan yapay zeka şirketi DeepSeek’i ve onun başarı yöntemlerini konuşuyor.
DeepSeek, bir hedge fonun patronu olan Liang Feng’in girişimi. Ve bu girişimin neredeyse hiçbir şeyi, yapay zeka devlerinin yaptıklarına benzemiyor.
Bir kere DeepSeek’in doğrudan tüketiciyle hiç ilgisi yok, onlara bir şey satmak istemiyor, onlardan para almıyor. DeepSeek sadece araştırma yapıyor.
Ama buna rağmen kârlı. Çünkü daha kurulurken kurucusu olan hedge fona hisse senedi ticaretinde yardımcı olmak için kurulmuş. Sonra onun gibi başka şirketleri kendine müşteri etmiş. Yani DeepSeek’in yapay zeka çözümlerini şu anda ona para ödeyen şirketler kullanıyor, bireyler değil.
Bu da DeepSeek’e bir özgürlük alanı vermiş, onlar da araştırmalarına yoğunlaşmışlar.
Şirketin ikinci önemli sırrı, patronu Liang Wenfeng’in “tecrübe”ye inanmaması, hatta tecrübeli çalışan hiç istememesi. Bunu “Tecrübeli insan, doğal olarak size tecrübeleriyle birlikte geliyor ve bir şeyin neden öyle yapılmaması gerektiğini peşinen bildiğini düşünüyor” diyerek açıklamış 2023 yılında verdiği bir söyleşide.
O yüzden şirketine hiç tecrübesi olmayan yeni mezun öğrenciler almış hep. Ve çözümü de sonunda onlar bulmuşlar zaten.
Üçüncü sır, yapay zeka şirketine bilgisayar bilimiyle ilgisi olmayan insanlar işe almak. Şairler, yazarlar, üniversite hukuk profesörleri ve başka pek çok alandan insan. Onlar yapay zekanın eğitiminde önemli roller oynamışlar, yapay zekanın dilini geliştirmekte onların sorduğu soruların ve verdikleri karmaşık ödevlerin önemli rolü olmuş.
Dördüncü sır, Amerika’nın Çin’e uyguladığı yüksek kapasiteli işlemci ambargosu. Bu çeşit işlemcileri yapan en büyük şirket olan Nvidia, Çin pazarını tamamen kaybetmemek için Çin’e yönelik ambargoların koyduğu kurallara uygun işlemciler üretmiş. Ancak bu işlemci, farklı yöntemler sayesinde o sırada Nvidia’nın en güçlü işlemcileriyle yarışır bir performans ortaya koyabiliyormuş.
Deep Seek Nividia’nın 2048 tane H800 ana işlemci kartını bir arada kullanmış. Bu işlemcilerle 671 milyar parametrelik geniş dil modelini (LLM) 2 ay boyunca eğitmiş.
Beşinci ve en önemli sır, DeepSeek’in yapay zeka eğitmeye bakış açısını başkalarından tamamen farklı hale getirmesi.
Örnek olarak OpenAI’ı alalım. Onların yapay zekası ChatGPT, dev bir kütüphanenin o kütüphanedeki bütün kitapları okumuş ezberlemiş kütüphanecisi gibi.
Oysa DeepSeek böyle her şeyi bilen her şeyi okumuş tek bir kütüphaneci yerine kütüphanenin her koridoru için ayrı bir kütüphaneci kullanmaya karar vermiş.
Böylece her bir kütüphaneci çok daha az bilgiyi öğrenmek ve aklında tutmak zorunda kalmış; ChatGPT’nin bir büyük kütüphanecisine göre çok daha az bilgisayar gücü kullanmış, çok daha hızlı öğrenmiş.
Bu yönteme İngilizce ‘Mixture of Experts’ (MoE) adı veriliyor. Bu yöntemle, az önce haberde vardı DeepSeek’in yapay zeka modelinin eğitilmesi kabaca 2 ay sürmüş. Bu da 2048 adet işlemci düşünülünce toplam 2,8 milyon ana işlemci saati demek. Bir kıyaslama için şunu söyleyelim: Meta’nın Llama 3 adlı yapay zeka modeli 405 milyar parametreli bir LLM’yi öğrenmek için toplam 30,8 milyon ana işlemci saati harcadı. Yani DeepSeek’in tam 11 katı.
Bu rakamların önemi şu: DeepSeek’in toplam maliyeti olan 6 milyon dolar, Meta için komik küçüklükte bir para; çünkü Meta’nın eğitimi DeepSeek’ten 11 kat daha masraflı.
DeepSeek’in artık sır olmayan altıncı önemli özelliği her şeyinin açık olması. Zaten bu açıklık sayesinde herkes DeepSeek’in yazdığı bilimsel makaleden bu sırların tamamını öğrenmiş durumda.
Amerika merkezli bir start-up şirket ve onun web sitesi var, adı Hugging Face. Burada yapay zekayla ilgilenenler, bilgisayar bilimciler, mühendisler, öğrenciler, gençler herkes kendi yazılımlarını paylaşıyor, paylaşılmış yazılımları alabiliyor. Burası bir anlamda ‘Yapay zekanın GitHub’ı olmak istiyor. GitHub, yazılımcıların, özellikle de açık kaynak yazılımcılarının birbirleriyle yazılımlarını paylaştıkları yer.
İşte bu Hugging Face’in CEO’su Clément Delangue, The New York Times’a son birkaç gün içinde sitelerine DeepSeek’in modeli olan MoE’yi tekrar eden 600’den fazla başvurunun geldiğini söylüyor.
Bu haberde The New York Times yatırımcı dünyasının DeepSeek’i gördükten ve sırlarına vakıf olduktan sonra nasıl davranmaya hazırlandığını anlatıyor.
Kapitalizmin çok yücelttiği “yaratıcı yıkım” bu olsa gerek. Aynı işi çok daha ucuza, çok daha kolay yapmak varken neden on milyarlarca dolar harcansın?
Örneğin OpenAI, DeepSeek’in kendi modelini eğitirken ChartGPT’den yararlandığını, bilgisayarcıların “damıtma” dediği yöntemi kullandığını söylüyor. Bu doğru mudur değil midir bilinmez ama bu konuda şikayet edecek en son kurum OpenAI olsa gerek; bütün dünyanın internete koyduğu her şeyi tek bir kişiden bile izin istemeden onlar kullanıp modellerine eklemediler mi?