Google, yeni yapay zeka tabanlı video üretim modeli Lumiere'yi tanıttı. Metin tabanlı açıklamalara dayanarak tek geçişte yüksek çözünürlüklü ve dinamik videolar oluşturabilen yapay zekaya dair detaylar haberimizde!
Google, yapay zeka temelli "gerçekçi video üretimi için mekânsal-zamansal difüzyon modeli" olan Lumiere'yi tanıttı. Pratikte gösterildiği üzere, Lumiere şu ana kadar var olan en güçlü yapay zeka video üretici olabilir, zira metin tabanlı açıklamalara dayanarak dinamik görüntüler oluşturuyor.
Lumiere'nin Benzersiz Modeli
Google Lumiere'nin mevcut analoglardan en önemli farkı, modelin benzersiz mimarisidir - video, tam uzunluğu boyunca tek bir geçişte üretilir. Diğer modeller farklı çalışır: birkaç temel kare üretir ve ardından zaman içinde interpolasyon yaparlar, bu da üretilen videonun tutarlılığını zorlaştırır.
Lumiere, metni videoya dönüştürme, statik görüntüleri dinamik hale getirme, örnek tabanlı belirli bir stilde video oluşturma, yazılı ipuçlarına göre mevcut videoları düzenleme, belirli bir alanı animasyonlu hale getirme veya videoyu parça parça düzenleme gibi çeşitli modlarda çalışır
Eğitim Verileri ve Çıkış
Google, "T2V [metni videoya dönüştürme] modelimizi metin açıklamaları içeren 30 milyon video klibi veri setinde eğitiyoruz. Videolar, saniyede 16 kare ile 80 kare uzunluğundadır. Temel model, 128 × 128 piksel çözünürlüğünde eğitilmiştir." açıklamasını yaptı. Çıkış olarak, 1024 × 1024 piksel çözünürlüğünde 5 saniyelik videolar elde edilmektedir.
Google'ın Geçmişteki Çabaları
Google Lumiere, ilk yapay zeka video üreticisi değildir. Google daha önce Imagen Video modelini tanıtmıştı, ancak Lumiere, daha yüksek çözünürlük ve gelişmiş yeteneklerle bu alandaki önceki çabaları geride bırakıyor.
Google, bu teknolojinin yanlış kullanımından doğabilecek riskleri anlıyor ve kullanıcılarına esnek ve yaratıcı bir görsel içerik oluşturma fırsatı sunma amacı gütseler de, yanlış kullanım ve kötü niyetli içerik üretimi riskine karşı önlemler geliştirmenin önemli olduğunu belirtiyor.