Yapay zeka (AI) firması OpenAI, Perşembe günü ilk metinden video oluşturma modelini büyük bir heyecanla tanıttı, ancak firma modelin hala kat etmesi gereken yollar olduğunu kabul etti.
OpenAI, 15 Şubat’ta Sora adını verdiği ve basit metin komutlarından ayrıntılı videolar oluşturabildiği, mevcut videoları devam ettirebildiği ve hatta hareketsiz bir görüntüye dayalı sahneler oluşturabildiği söylenen yeni yapay zeka modelini tanıttı.
Introducing Sora, our text-to-video model.
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024
OpenAI, 15 Şubat tarihli blog yazısında, yapay zeka modelinin 1080p’ye kadar çözünürlüklerde film benzeri sahneler oluşturabileceğini iddia etti. Bu sahneler birden fazla karakter, belirli hareket türleri ve özne ile arka planın doğru ayrıntılarını içerebiliyor.
Sora nasıl çalışıyor?
OpenAI’nin görüntü tabanlı modeli Dall-E 3 gibi Sora da difüzyon modeli olarak bilinen bir modelle çalışıyor.
Difüzyon, daha çok “statik gürültüye” benzeyen bir görüntü ile video üreterek ve birkaç adımda “gürültüyü kaldırarak” kademeli bir şekilde görüntü çıktısı oluşturan yapay zeka modelini ifade eder.
Announcing Sora — our model which creates minute-long videos from a text prompt: https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG
— Greg Brockman (@gdb) February 15, 2024
Yapay zeka firması, Sora’nın ChatGPT ve Dall-E 3 modellerinin önceki araştırmalarına dayandığını ve bu sayede modelin kullanıcı girdilerini daha iyi yansıttığını iddia etti.
OpenAI, Sora’nın hala bazı zayıf yönleri olduğunu ve karmaşık bir sahnenin fiziksel yapısını doğru bir şekilde simüle etmekte zorlanabileceğini, yani neden ve sonuç ilişkisini karıştırabileceğini kabul etti:
“Örneğin, bir kişi kurabiyeden ısırık alabilir, ancak daha sonra kurabiyede ısırık izi olmayabilir.”
Firma, yeni aracın aynı zamanda sağ ve solu karıştırarak ya da yönlerin kesin tanımlarını takip edemeyerek verilen bir komutun ” mekansal detaylarını” da karıştırabileceğini belirtti.
OpenAI, yeni modelin şimdilik sadece “kırmızı ekip” (siber güvenlik araştırmacıları için kullanılan teknoloji terimi) tarafından “zarar ve risk için kritik alanları” değerlendirmek ve modelin nasıl geliştirileceği konusunda geri bildirim toplamak amacıyla seçilen tasarımcılar, görsel sanatçılar ve film yapımcıları tarafından kullanılabileceğini söyledi.
Aralık 2023’te Stanford Üniversitesi’nden gelen bir rapor, yapay zeka veritabanı Laion’u kullanan yapay zeka destekli görüntü oluşturma araçlarının, yasadışı çocuk istismarı görüntüsü üzerinde eğitildiğini ortaya çıkardı. Bu da metinden görüntü veya video elde eden modeller için ciddi etik ve yasal kaygıların ortaya çıkmasına neden oldu.
X kullanıcıları şaştı kaldı
X’te Sora’nın çalışma örneklerini gösteren düzinelerce demos dolaşırken, Sora 173 binden fazla gönderiyle X’te trend oldu.
Yeni modelin neler yapabileceğini göstermek amacıyla OpenAI CEO’su Sam Altman, X’teki kullanıcılardan gelen özel video oluşturma taleplerini kabul etti ve ejderha sırtındaki bir ördekten dağın tepesinde podcast kaydeden köpeklere kadar Sora tarafından oluşturulan toplam yedi video paylaştı.
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) February 15, 2024
Yapay zeka yorumcusu Mckay Wrigley, Sora tarafından oluşturulan videonun kendisini şaşırttığını belirtti.
Nvidia’nın kıdemli araştırmacısı Jim Fan, 15 Şubat’ta X üzerinden yayınladığı bir yazıda, Sora’nın Dall-E 3 gibi bir “oyuncak” olduğuna inanan herkesin büyük bir yanılgıya düşeceğini belirtti.
If you think OpenAI Sora is a creative toy like DALLE, … think again. Sora is a data-driven physics engine. It is a simulation of many worlds, real or fantastical. The simulator learns intricate rendering, “intuitive” physics, long-horizon reasoning, and semantic grounding, all… pic.twitter.com/pRuiXhUqYR
— Jim Fan (@DrJimFan) February 15, 2024
Fan’a göre Sora, bir video oluşturma aracından ziyade bir “veri güdümlü fizik motoru” çünkü yapay zeka modeli sadece soyut video üretmekle kalmıyor, aynı zamanda sahnedeki nesnelerin fiziksel özelliklerini de belirleyici bir şekilde yaratıyor.
(っ◔◡◔)っ ♥ KAYNAK ♥