Silikon Vadisi’ni koltuğundan düşüren yapay zeka modeli DeepSeek, devlere meydan okuyor

Silikon Vadisi’ni koltuğundan düşüren yapay zeka modeli DeepSeek, devlere meydan okuyor

Çinli yapay zeka şirketi DeepSeek, sadece 5.6 milyon dolarlık altyapıyla geliştirdiği R1 modelini açık kaynak olarak yayımlayarak, OpenAI’nin öncülüğündeki yapay zeka dünyasına büyük bir meydan okudu.

Silikon Vadisi’ni koltuğundan düşüren yapay zeka modeli DeepSeek, devlere meydan okuyor
16px
24px
31.01.2025 10:34Güncelleme: 31.01.2025 10:42
ABONE OLgoogle

Silikon Vadisi’ndeki devler, DeepSeek’in hamlesi karşısında ne yapacak?

Oksijen’den Ayşegül İldeniz “Silikon Vadisi’ni sandalyeden düşüren yapay zeka modeli: DeepSeek” başlıklı yazı kaleme aldı.

İldeniz’in haberinin tamamı şu şekilde:

Çinli DeepSeek, OpenAI o1’den daha başarılı bir yapay zekâ modelini Trump’ın başkan olduğu gün piyasaya açık kaynak olarak sunuverdi. Model, piyasadaki öncü modeller kadar iyi ama sadece 5.6 milyon dolarlık işlemciyle geliştirilmiş. Böylece aylardır konuştuğumuz yapay zekadaki köpüğün bir kısmı borsadan bir günde siliniverdi. Yapay zekâ altyapısı için bu yıl içinde 250 milyar dolar harcayacağını açıklayan Silikon Vadisi ve yapay zekâ çiplerine ihracat kısıtını sadece Çin değil Türkiye dahil birçok ülkeye yayan Bay Trump sandalyeden düştü! Marc Andreessen uzay yarışının başlangıcını hatırlatıp “Bu bir Sputnik anı!” dedi. 5 milyon dolar ve bir grup doktora öğrencisine erişimi olanlar bana DM’den yazsın.

Kafamı kuma gömmeyi uzun süredir bu kadar istememiştim. Los Angeles, yanı başımızdaki en büyük metropolün yanması, ardından Trump’ın ilk hafta yaptıkları ve sonra memleketteki yangın felaketi. İyi ki teknoloji koşturmaya devam ediyor, iyi ki hep beraber kafayı kuma gömecek bir konumuz var.

Kafayı kuma gömmek demişken… Geçen hafta vadideki yapay zekâ tayfasının kafasına Çinli bir şirketin yaptığı DeepSeek R1 modeli düştü. Dünya Jeff Bezos’un nişanlısının dekoltesi, Zuckerberg’in Trump’ın elini öpmesi, Elon’un kol hareketini konuşurken teknolojistler olarak kendi derdimize düşüverdik. Arada bir sandalyeden düşmek kadar iyi bir şey yoktur. Meğer Silikon Vadisi’nin iki yıldır yüz milyarlarca doları gömmeyi sürdürdüğü yapay zekâ konusunda çok büyük bir sıçrama oluvermiş. DeepSeek, sadece 5.6 milyon dolarlık altyapıyla karşılaştırmalarda OpenAI o1’i geçen çok güçlü ama sadece 37 milyar parametrelik çevik bir model yaratmış ve açık kaynak olarak dünyaya yayıvermiş.

Bunun sonucu geçtiğimiz pazartesi günü, “Yapay zekânın ne kadarı hype?” sorusunun yanıtını borsa bir günde 1 trilyon dolar düşerek yanıtladı.

DEEPSEEK DE KİM?

20 Ocak’ta DeepSeek’in açık kaynaklı modelini piyasaya sürmesinden beri ortalığı saran korku dalgasını izliyorum. Hedge fon yöneticisi Liang Wenfeng 10 bin NVIDIA çip ve küçük bir takım kurup işe koyulmuş. Şirketin ana ortağı, Çin’de 8 milyar dolarlık bir fon yönetim şirketi. 2015’te kurulan fon, elindeki verileri finansal hedefleri için değerlendirmek amacıyla bir süper bilgisayar kümelenmesi oluşturmuş. 2023’te şirket kaynaklarını yapay zekâya yönlendirmeye karar vermiş. En başarılı iki Çin üniversitesindeki doktora öğrencileriyle kurdukları bir takımları var.

Tabii modeli eleştirenler bol. Sam Altman hemen “Çok iyi çalışan bir şeyi kopyalamak çok kolay. Zor olan yeni ve çalışıp çalışmayacağını bilmediğiniz şeyi yapma riskini almak” dedi. Hatta modelin, “Sen kimsin?” diye sorulduğunda, “Ben Open AI şirketinin bir modeliyim” diye yanıt verdiğini çünkü yaptığı distilasyonun raporun söylediği gibi sadece V3 ve Llama ile sınırlı olmadığını, OpenAI o1’i de kopyaladığını iddia edenler var. Ama teknoloji işte böyle ilerliyor. Şirket yeni bir şey yaratmak yerine mühendislikle piyasadaki teknolojileri optimize edip bir kartal yaratmış. Başkalarının yarattıkları üzerine bazen çok basit bir tuğla koyuyorsunuz, ortaya bir “canavar” çıkıyor.

ENGELLEMENİN BİN YOLU

Amerikalıların yapay zekâ yarışında Çinlilerden önde kalmak için yaptıklarını hatırlayalım: 14 nanometrenin altındaki tüm sofistike çiplerin Çin’e ihracatını yasaklamak. Çinli şirketlerin Amerika’daki faaliyetlerini ve Çin vatandaşlarının iş yapma vizelerini kısıtlamak. Daha stratejik olarak “Chips Act” ismiyle bir yasa geçirerek çip üretimini Asya’dan Amerika’nın içine çekmek ve AR-GE’yi hızlandırmak için devlet eliyle 250 milyar dolarlık bir fon yaratmak. En son geçen hafta, içlerinde Türkiye’nin olduğu birçok müttefik ülkeye senelik belirli sayı (50 bin) üzerinde GPU’nun girişini engellemek.

KISITLARSAN DEV OLUR

Batılı devletlerin Çin’e getirdiği teknoloji ihracatı kısıtlamalarının sonucu olarak, Çin şirketleri ellerindeki kaynakları maksimum optimize etmeye başladılar. Son derece pahalı ve sofistike çipler gerektiren temel modelleri sıfırdan yaratmak yerine, kısıtlı bir altyapıyla küçük ama çok verimli modeller oluşturmaya yöneldiler ve en az bir şirket bunda başarılı olmuş görünüyor. Piyasadaki bütün şirketler ellerindeki geniş işlem gücünü devamlı artırmaya bakarken, DeepSeek, bütünüyle yazılımı optimize etmeye odaklanmış.

DeepSeek’in modeli, ihracatı kısıtlayarak inovasyonun engellenemeyeceğini ve bunun yol açabileceği sorunlar hakkında yıllardır uyarı yapanların haklılığını kanıtlamak için güzel bir örnek oldu. Hatta bence, milyarlarca doları altyapıya gömmeye devam etmek yerine bir grup parlak doktora öğrencisi ve bir miktar sermaye ile mucize yaratılabileceğine dair herkese ilham vermesi gereken bir örnek olarak karşımızda.

Biden’ın benzetmesiyle “tekno-oligarşi”nin sonsuz parası bir avuç doktora öğrencisi ve iyi bir fikre yenildi demek için çok erken olabilir. Bu gelişme kısa vadede Silikon Vadisi tarafından negatif algılansa da, büyük teknoloji firmaları Microsoft ve Amazon açısından uzun vadede anlamlı olabilir. Çünkü yapay zekâ ucuzladıkça yaygın inference (çıkarım) için bilişim altyapısı ihtiyacı artmaya devam edecek. Apple için ise güzel bir gün! Yapay zekânın bu kadar küçük ama güçlü bir modelle cep telefonuna (edge compute) girmesi Apple’a çok yarar.

Her hâlükârda bu haber, inovasyonun pragmatizm ve yoklukla birleşince nereden ve nasıl çıkacağını sadece sağlam bir bilimsel altyapının belirleyeceğini hepimize hatırlatması açısından ilginç bir örnek.

Meselenin her zamanki gibi sadece küçük bir kısmının para, esas kısmının iyi eğitimli ve spesifik bir konuda dünya çapında insan yetiştirebilme, onları değerlendirip ülkede tutacak yeterince heyecanlı ve rekabetçi projeler verebilme konusu olduğunu unutmayalım. “5 milyon doları ve bir grup doktora öğrencisine erişimi olanlar bana özelden yazsınlar” diye nüktedan bir cümle kurarak hepinizi bu hafta sonu bir beyin teatisi yapmaya yolluyorum. Silikon’dan sevgiler.

BİR YAPAY ZEKAYA KAÇ DOLAR GEREKİR?

Amerika’da özel sektör yapay zekâ konusunda ekspres trene binmiş şekilde son iki yılda yaklaşık 200 milyar doları, çoğu altyapı ve veri merkezlerine olmak üzere harcadı; bu yıl da 250 milyar civarında yatırım yapılacağı düşünülüyor. Geçen yıl 100 milyon dolar civarında kaynak gerektiren bir temel modelin bu yıl bir milyar dolara mal olacağı konuşuluyor. Gördüğünüz üzere, ne kadar işlem gücü ve para dökülürse, o kadar iyi model inancı bu taraflarda hala çok sağlam şekilde sürüyor. Halbuki bu konuyu ciddi şekilde sorgulayanlar (açıklama için diğer kutuyu okuyun) var.

DeepSeek’in çıkardığı ürün aşağıdaki yatırımların hepsinin sorgulanmasına neden olacak.

Larry Ellison (Oracle), Sam Altman

(OpenAI) ve Masayoshi Son (SoftBank) kamuoyuna yapay zekâ için ilk aşamada 100 milyar dolar, sonrasında 500 milyar dolarlık bir altyapı yatırımını açıkladılar.

Satya Nadella (Microsoft CEO'su) Davos’ta “Ben yapay zekaya bu yıl sadece 80 milyar dolar harcıyorum” deyip, kendi kartlarını açtı.

Mark Zuckerberg 2025’te yapay zekâ için 65 milyar dolarlık yatırım yapacağını söyledi.

HANGİ NVİDİA ÇİPİ?

R1 modeli DeepSeek’in iddiasına göre 5.6 milyon dolar ve 2 bin 78 adet NVIDIA H800 çip üzerinde eğitilmiş. Model matematik, kodlama, mantık yürütme konularında bildiğimiz temel modeller seviyesinde ya da daha iyi çalışıyor (OpenAI o1, Sonnet 3.5 gibi). Perspektif vermek için bilgi: OpenAI’ın GPT-4 modelini eğitmek için yaklaşık 100 milyon dolar harcadığı, sıradaki modeli GPT-5’i eğitmek için ise 1 milyar dolar ayırdığı tahmin ediliyor. Bu anlamda H800 gibi kısıtlı işlemcilerle bu kadar yüksek verim elde edebilmek büyük bir sıçrama. Amerikan ihracat kurallarına göre H100’lerin (H800’e göre çok daha güçlü GPU’lar) Çin’e girmesi yasak. Bu bilgilerin doğru olmadığını iddia eden Scale AI CEO’su, DeepSeek’in elinde aslında 50 bin adet NVIDIA H100 olduğunu iddia etti.

Açık kaynak böyle çevik ve küçük modelleri var etmek için tam bir yaşam kaynağı. Çünkü modeller ancak ekosistemdeki geliştiriciler ve bilim insanları tarafından büyütüldükçe yaygın ve daha verimli hale gelebiliyor. Tüm modeli  OpenAI ya da Google’ın yaptığı gibi kapalı yöntemle büyütmeye çalışmak elbette en pahalı yol.

GİZLİ SOS NE?

Özetle ortada yeni birçok zekice mühendislik stratejisi var: İki aşamalı bir yapay zekâ eğitimi yapılıyor. Önce bir model direkt deneme yanılma yöntemiyle (reinforcement learning/takviyeli öğrenme) kendi kendine eğitiliyor. İlk modelin doğruladığı kaliteli veriler, ikinci modeli eğitmek için kullanılıyor. Veri kümesi insansız bir şekilde bütünüyle deneme yanılma yöntemiyle eğitildiği için özellikle matematik ve kodlama gibi “doğruluğu” ölçülebilen konularda çok başarılı bir model ortaya çıkmış. İnsan katkısını (SFT/ince ayar) en son ve az örnekle yapıyorlar. İlaç geliştirme ya da hava durumu tahmini gibi çok büyük veriyi değerlendirmede gereken yöntemleri andırıyor. 671 milyarlık parametre setini zekice parçalara bölerek büyük modelden öğrenebilen son derece başarılı 37 milyar parametrelik ufak bir model çıkarmışlar. Ayrıca model simgeleri tek tek değil çoklu şekilde öngörebiliyor (multi token prediction). Burada parametrelerin kesinliğini aynı seviyede (FP32, floating point 32bit) tutarken, hesaplama sırasında kesinliği (FP8’e) indirmişler.

BUNDAN SONRA NE OLUR?

- Yeni yöntemi herkes kullanmaya başlayacak. Sentetik verinin çağı başlıyor diyebiliriz. İnsanlardan gelen veri bitmeye başlamıştı. Artık veriyi, sonuçlarını kesin bildiğimiz konularda (matematik gibi) çok daha uzun eğiteceğiz.

- Eğitim sırasında değil çıkarım (inference) sırasında daha çok bilişim gücü gerekecek. İşlem gücü ile kısıtlı olmaya devam edeceğiz.

- Modellere erişim ucuzlayacak.

- Yapay zekâda açık kaynak kullanımına büyük bir dönüş olacak.

- Sonsuz para ve iki devlet değil, 5 milyon dolar ve 200 kişisi olan birçok çevik ve zeki şirket bu sektörü sallayabilir.

TEMELDEKİ TARTIŞMA NEDİR?

Bu konunun kalbinde aslında başka bir tartışma var. Üretici yapay zekâ gelişimi bugün çok basit bir denklem üzerinde gidiyor. Ne kadar işlem gücü ve ne kadar veri, o kadar başarılı temel modeller. Bu denklemde şu ana kadar modellerin gelişimi, Moore Yasası’ndan daha hızlı, yani her 6-8 ay içinde verimleri katlanır şekilde sürüyor. Bu mantıkla dünyanın tüm işlem gücünü ve verisini makineye beslemeye devam edersek çok kısa zamanda genel yapay zekâ dediğimiz şeye, yani insan zekâsı ya da üzerinde bir sisteme ulaşıvereceğiz! Hatta bu hafta Davos’ta, yine, 2026-2027 yılları içinde bu hedefe ulaşılacağını iddia eden teknolojistler oldu. Bu konuda yakında büyük bir duvara çarpacağımızı, hatta çarptığımızı düşünenler var. Vadideki popüler dedikodu, daha fazla işlem gücü akıtıldığı halde modellerden alınan verimin son aylarda çok yavaşladığı, fakat hiç kimsenin bunu açıkça söylemeye cesaret edemediği yönünde.

İkinci temel tartışma ise, şu an çok moda olan ve OpenAI o1, o3 ve DeepSeek R1’in de kullandığı test-time compute fenomeni etrafında dönüyor. Artık daha fazla işlem gücü ve daha fazla veri yerine, modellerin “durup düşünmesi” yani eğitildikten sonra modele bir prompt sorduğumuz zaman yaptıkları inference (çıkarım) sırasında durup düşünmeleri üzerine. Bu sayede o1 modelinde gördüğümüz gibi, sistem daha karmaşık ve “mantık” gerektiren problemleri, farklı metotları değerlendirerek, akıl yürütmeyi andıran şekilde çözüyor. Böylelikle çok başarılı sonuçlar elde edebiliyor. OpenAI o3, en son, Francois Chollet’nin yıllardır geçilemeyen ve yapay zekânın insan seviyesindeki zekaya ne kadar yaklaştığını ölçen ünlü ARC sınavını yüzde 87 gibi bir skorla geçti. Özetle, test-time compute’un bizi genel yapay zekaya bir adım daha yaklaştırdığını düşünenler var. DeepSeek bu sistemi çok zekice küçük bir sistem yaratmak için kullanmış görünüyor.

patronlardunyasi.com

E-Bülten Aboneliği
İş, Ekonomi ve Cemiyet hayatının özel gündemi Patronlar Dünyası'nda... Günlük E-Bülten'imize abone olun, Patronlar Dünyası ayrıcalıklarını yaşayın.
Patronlar Dünyası ile Bir Adım Önde