OpenAI Sora: Metinleri Videoya Dönüştüren Yapay Zeka Modeli – Kullanımı ve Özellikleri

Mustafa Ersan23 Haziran 2024

OpenAI Sora, kullanıcılar tarafından girilen metinsel isteklerden video oluşturan son teknoloji yapay zeka modelidir. Bu yeni teknoloji, Google gibi büyük şirketlerden Runway gibi start-up’lara kadar pek çok firma tarafından dikkatle takip edilmektedir.

Daha önce duyurulan metinden videoya oluşturma araçları arasında Google’ın Lumiere modeli oldukça başarılı bir performans sergilemişti. Ancak, Sora’nın gelişiyle Lumiere bile geride kalmış gibi görünüyor. Sora, özellikle çarpıcı fotogerçekçiliğiyle dikkat çekmektedir. Rakiplerinin sunmadığı bu özellik, Sora’yı diğerlerinden ayıran önemli bir faktördür.

Ayrıca, tipik olarak diğer yapay zeka modellerinin ürettiği kısa parçalardan farklı olarak, Sora daha uzun videoları bile kolaylıkla oluşturabilmektedir. Bir dakikaya kadar olan klipleri üretme kabiliyeti, Sora’yı endüstrideki diğer modellerden ayıran bir özelliktir. Şu anda bir videonun oluşturulma süresi hakkında net bir bilgi bulunmamakla birlikte, 1 dakikalık bir video için birkaç dakikadan fazla bir bekleme süresinin gerekebileceği anlaşılmaktadır.

Sahnelerin etkileyici olmasının ötesinde, Sora’nın şaşırtıcı yetenekleri arasında eğitim almadığı yetenekler de bulunmaktadır. OpenAI’nin Dall-E 3 görüntü oluşturucusu tarafından kullanılan difüzyon modelinin bir versiyonu ve GPT-4’ün transformatör tabanlı motorundan güç alan Sora, sadece istemlere uygun videolar üretmekle kalmıyor. Aynı zamanda bunu sinematik grameri temel alarak harika işler çıkarıyor.

Bu özellik, bir hikayeyi anlatmak için temel bir unsur olarak karşımıza çıkar. Ayrıca, Sora’nın girdiği isteği parça parça üreterek birleştirme yerine, tüm sahneyi tek seferde oluşturabilmesi, benzersiz bir özellik. OpenAI ekibinin henüz göstermediği ve yakın bir gelecekte de göstermeyeceği bir diğer özellik de Sora’nın sahip olduğu yetenektir. Sora, aslında tek bir fotoğraf veya bir dizi fotoğraftan video oluşturabilme özelliğine sahiptir.

Örneğin, İstanbul, Taksim’de çektiğiniz bir fotoğrafı Sora’ya yükleyebilir ve bu fotoğraf üzerinden geçen hikayenizi anlatmasını sağlayabilirsiniz. Bu, Sora’nın yaratıcılığına ve kullanıcı deneyimine katkı sağlayan bir başka önemli özellik olarak karşımıza çıkıyor.

OpenAI Sora Nasıl Kullanılır?

Yeni yapay zeka uygulaması Sora’yı kullanabilmemiz için bir süre daha beklememiz gerekecek gibi görünüyor. OpenAI, metinden video üretme modelini 15 Şubat’ta kamuoyuna duyurmuş olsa da, sistem henüz araştırma ve test aşamasında. Şirket, gerçek dünya kullanımını simüle etmek güvenlik açıklarını ve zayıflıkları belirlemek amacı ile sınırlı sayıda kişi ile birlikte çalışmaktadır.

Bu süre zarfında, modelin profesyoneller için en etkili şekilde geliştirilebilmesi için geri bildirim toplamak amacıyla bir dizi görsel sanatçıya, tasarımcıya ve film yapımcısına erişim izni verilmiştir. Şu an için Sora’nın net bir çıkış tarihi ya da açık beta kullanımıyla ilgili bilgi yer almıyor. Ancak, bu sürecin çok da uzun sürmeyeceği tahmin edilmektedir.

Sora Nasıl Çalışır? Özellikleri Nelerdir?

OpenAI, Sora’nın çalışma prensipleri hakkında detaylı bir rapor sunsa da, bu bilgileri daha anlaşılır bir şekilde sizinle paylaşmak istiyoruz. Birçoğumuz eski televizyonları ve çanak antenleri hatırlar. Bu cihazlar zaman zaman parazitli ve bulanık görüntülere neden olurdu. Görüntüyü netleştirmek için çatıya çıkarak antende hassas ayarlar yapmak gerekiyordu. OpenAI’ın Sora yapay zekası da bu ilkeye benzer bir şekilde çalışıyor diyebiliriz.

Sizin girdiğiniz isteği (prompt), önce analiz ederek anlamlandırır ve bu analize dayanarak bir senaryo oluşturur. Oluşturulan senaryoya uygun sahneler üretilir. Sora, diğer modeller gibi “bir sahne üret ve mükemmelleştir” yaklaşımını benimsemez. Tam aksine, eğitim verisinde bulunan yazı, video, ses, anlatı, araştırma, film, dizi vb. her türlü bilgiyi değerlendirir ve yorumlar. Böylece tüm sahneyi tek seferde oluşturur.

Sora, bir videoyu tek seferde oluşturuyor gibi görünse de aslında nihai forma ulaşana kadar bazı düzeltmelerden geçiyor. Eski TV örneğinde olduğu gibi, Sora’nın ilk çıktısı genellikle gürültülü ve detaylardan yoksun olabilir. Ancak sistem, bu gürültüyü kademeli olarak gidermek ve videoları oluşturmak için “transformatör mimarisi” adı verilen bir süreci tekrarlayarak iyileştiriyor.

Kelimelere dayalı metin üreten GPT modellerini düşünelim. Sora da benzer bir yaklaşımı izliyor. Ancak bu sefer görüntüler ve videolar üzerinde çalışıyor. Videoları daha küçük parçalara ayırıyor ve yorumluyor.

Sora Neler Yapabiliyor?

Sora’nın yeteneklerine bir göz atalım. OpenAI’ın dün yayınladığı araştırma makalesini detaylı bir şekilde inceledim, paylaşılan örnekleri inceledim ve bir dizi derleme yaptım. Bu çalışmalar sonucunda, Sora’nın sağladığı potansiyelin sınırsız olduğunu söyleyebilirim.

Genel olarak, Sora şu yeteneklere sahip: