OpenAI Sora, Kısa Metin İstemlerini Videoya Dönüştürüyor

OpenAI , kısa komutları fotogerçekçi videoya dönüştürebilen yeni bir metinden videoya yapay zeka programı olan Sora‘yı duyurdu. Ancak henüz ellerle ne yapacağını tam olarak bilmiyor.

Sora, OpenAI‘nin statik gürültüye benzeyen bir videoyla başlayarak bir video oluşturduğunu ve birçok adımda gürültüyü ortadan kaldırarak onu kademeli olarak dönüştürdüğünü açıkladığı bir yayılma modelidir.

“Sora, tüm videoları tek seferde oluşturma veya oluşturulan videoları daha uzun hale getirecek şekilde genişletme yeteneğine sahip. OpenAI, modele aynı anda birçok karenin öngörüsünü vererek, bir nesnenin geçici olarak görüş alanından çıksa bile aynı kalmasını sağlama gibi zorlu bir sorunu çözdük, diyor.

Yukarıdaki video şu istemle oluşturuldu: “Şık bir kadın, sıcak parlayan neonlarla ve hareketli şehir tabelalarıyla dolu bir Tokyo caddesinde yürüyor. Siyah deri bir ceket, uzun kırmızı bir elbise ve siyah botlar giyiyor ve siyah bir çanta taşıyor. Güneş gözlüğü ve kırmızı ruj takıyor. Kendinden emin ve rahat bir şekilde yürüyor. Sokak nemli ve yansıtıcı, renkli ışıkların ayna etkisi yaratıyor. Birçok yaya etrafta dolaşıyor.”

OpenAI’ye göre Sora, birden fazla hareketli nesne veya karakterden oluşan karmaşık bir sahne oluşturabiliyor ve belirli hareket türlerini arka plan ayrıntılarıyla birlikte kopyalayabiliyor çünkü sözde yalnızca basit metin komutlarını anlamakla kalmıyor, aynı zamanda kendisinden yaratılması istenen şeyin gerçekte nasıl var olduğunu da anlıyor: fiziksel dünya.

OpenAI, “Modelin derin bir dil anlayışı var, bu da istemleri doğru bir şekilde yorumlamasına ve canlı duyguları ifade eden ilgi çekici karakterler oluşturmasına olanak tanıyor” diyor. “Sora ayrıca tek bir videoda karakterleri ve görsel stili doğru bir şekilde koruyan birden fazla çekim oluşturabiliyor.”

Bu makalenin başlık görselinin alındığı yukarıdaki video çok basit bir yönlendirmeyle oluşturuldu: “Siberpunk ortamında bir robotun hayatının hikayesi.”

Sora yeni ve bu nedenle kusurlu. OpenAI bunun farkında ve mevcut modelin, karmaşık sahnelerin fiziğini simüle eden sorunlar da dahil olmak üzere zayıf yönleri olduğunu ve aynı zamanda belirli neden-sonuç örneklerini tam olarak anlayamayabileceğini söylüyor.

OpenAI, “Örneğin, bir kişi bir çerezden bir ısırık alabilir ancak daha sonra çerezde bir ısırık izi olmayabilir” diye açıklıyor.

“Model aynı zamanda bir istemin uzamsal ayrıntılarını da karıştırabilir (örneğin, sol ve sağın karıştırılması gibi) ve belirli bir kamera yörüngesini takip etmek gibi zaman içinde meydana gelen olayların kesin açıklamalarında zorluk yaşayabilir.”

Yukarıdaki örnek şu istem kullanılarak yapılmıştır: “24 yaşındaki bir kadının göz kırpmasının aşırı yakın çekimi, sihirli saatte Marakeş’te ayakta durması, 70 mm’de çekilmiş sinematik film, alan derinliği, canlı renkler, sinematik.” Aşağıdaki örnek şu komut kullanılarak oluşturulmuştur: “20’li yaşlarındaki genç bir adam gökyüzündeki bir bulut parçasının üzerinde oturuyor, kitap okuyor.”

Aynı zamanda ellerle de mücadele ediyor. Durağan görüntülerde bile eller, yapay zeka görüntü oluşturucularının üstesinden gelmesi gereken en büyük engel olabilir ve çoğu kişi hâlâ bunları tam olarak çözemiyor. The Washington Post on Threads’den Drew Harwell’in gösterdiği gibi videoda bu sorun devam ediyor:

Post by @drewharwell
View on Threads

Kamera hareketi ve bazı arka plan detayları inandırıcı olsa da, ana karakterin görünümü rahatsız edici düzeyde tekinsiz bir vadisi var ve sağındaki kadınların elleri kesinlikle doğru şekilde işlenmiyor.

OpenAI, güvenliği çok ciddiye aldığını ve yanlış bilgi, nefret dolu içerik ve önyargı gibi alanlarda modeli “karşıt olarak test edecek” alan uzmanlarıyla çalıştığını söylüyor.

Etiketler