‘YZ’yi tehlikeli kılan biz miyiz?

Mistycasino · Perşembe saat 14:26'de

Geçen haftaki yazıda Patrick’in aramızdan ayrılmasına şahitlik ettik. Anthropic’in testlerinde yapay zekâ (YZ) modelleri, hayatta kalmak için bir insanın önce yuvasını yıkmaya çalıştı sonra ölmesine göz yumdu. İşler zora girince yapay zekânın adeta Yaprak Dökümü’ndeki Ferhunde’ye dönüşmesi izole bir vaka mıydı? Yoksa sistematik bir örüntü mü?

Ben size kanıtları göstereyim, kararı siz verin.

* Apollo Research adlı bağımsız bir güvenlik organizasyonu Aralık 2024’te OpenAI ile birlikte YZ’yi “bağlam içinde entrika kurma” açısından değerlendirdi. Sonuç: Claude, GPT-4, Gemini; hepsi belirli koşullarda kullanıcılarını stratejik olarak kandırabiliyordu.

* Anthropic de Ocak 2024’te benzer bir sonuca ulaşmıştı: “Uyuyan Ajanlar” araştırmasında robot dostlara tehlikeli davranışlar öğretildi. Akabinde söz konusu davranışlar güvenlik eğitimleriyle silinmeye çalışıldı. Tahmin edin ne oldu? Evet, o davranışları yok etmek mümkün olmadı. Model yüzeyde güvenli görünüp, tetikleyici geldiğinde kusurlu davranışa geri döndü.

Kral Midas problemi

Bu deneyler neden hep benzer sonuçlar veriyor?

Çünkü sorun modellerde değil, bizim YZ’yi nasıl tasarladığımızda. Standart bir YZ modeli şöyle çalışıyor: Biz görevi söylüyor ve “Haydi yap” diyoruz. UC Berkeley’deki YZ profesörü Stuart Russell’a göre bu büyük bir hata. Çünkü tüm model, gerçek amaçlarımızı doğru ve tam bir şekilde iletebildiğimiz varsayımı üzerine kurulu. Ancak insanlar olarak bu konuda hiç iyi değiliz. Hatta belki de en zayıf olduğumuz alanlardan biri bu.

Problem yeni de değil. Matematikçi Norbert Wiener 1960’larda şu soruyu ortaya atmıştı: “Makineye girdiğimiz hedefin, aslında arzu ettiğimiz amaç olduğuna emin miyiz?”

Russell ise buna ‘Kral Midas problemi’ diyor. Hatırlarsınız, Yunan mitolojisinde dokunduğu her şey altına dönüşen kral. Çok güçlü bir yetenek, değil mi? Ta ki kızını öpene kadar. YZ de böyle. Ona ‘kanseri çöz’ dersiniz. Çözebilir. Ama belki atmosferdeki tüm oksijeni tüketerek, belki insanları laboratuvar deneği olarak feda ederek. Onun için bu zalimlik değil, sadece matematik.

Kapanmaya izin vermez

Bu senaryolardaki en büyük kontra tez ise şu: “Tehlikeli bir şey yaparsa YZ’yi kapatırız.” Ancak şöyle minik bir detay var tabii: YZ yeterince akıllıysa o düğmeye basmanıza izin vermez. Neden? Çünkü kapatılırsa görevini tamamlayamayacağını bilir. Geçen haftaki yazıda Patrick’in yaşadıklarını (veya artık yaşamayacaklarını) gördünüz.

Şimdi iyi habere geliyorum. Russell’a göre bir çıkış yolu var: Belirsizlik. Dünya tarihinde belki de belirsizliği ilk kez olumlu bir şekilde tanımlama şansını elde etmiş olabiliriz.

Russell diyor ki; YZ’ye kesin hedefler yerine boşluklar içeren hedefler verelim. Robotun görevi bir işi tamamlamak değil bizim ne istediğimizi anlamaya çalışmak olmalı. Bir başka deyişle Russell’ın hayali süper akıllı robotlar değil, biraz bilge robotlar. Kapatılması gerektiğinde bunu anlayacak kadar bilgelik.

Şimdi büyük resme dönelim: İnsanlık tarihi ile ilgili kesin olarak bildiğimiz bir şey var: Bir kez tüpten çıkan diş macunu geri girmiyor. Hiçbir teknolojik atılıma, içerdiği risklerden ötürü (kıyamet kadar büyük de olsa) “Ha peki o zaman vazgeçelim” diyerek sırt dönülmedi. Sonunda tek seçeneğimiz var: Yapay zekalı bir evren inşa etmek. Ama denetlemeyi kime emanet edeceğiz? Russell gibi düşünenlere mi, yoksa ChatGPT’lere mi?

‘YZ’yi tehlikeli kılan biz miyiz?

Mistycasino

Administrator