Microsoft’un VASA-1 Yapay Zekası

Microsoft, bir kişinin yüzünün hareketsiz görüntüsünü konuşan veya şarkı söyleyen animasyonlu bir klibe dönüştüren yeni bir dudak senkronizasyonu VASA-1 yapay zeka aracını tanıttı.

Microsoft’un VASA programı sayesinde hareketsiz görüntüler konuşmaya ve şarkı söylemeye başlıyor.

Microsoft, bir kişinin yüzünün hareketsiz görüntüsünü konuşan veya şarkı söyleyen animasyonlu bir klibe dönüştüren yeni bir dudak senkronizasyonu yapay zeka aracını tanıttı.

VASA-1 yalnızca sesle “mükemmel bir şekilde senkronize” olan dudak hareketleri üretmekle kalmıyor, aynı zamanda özgünlük ve canlılık algısına katkıda bulunan “geniş bir yelpazedeki” yüz nüanslarını ve doğal baş hareketlerini de yakalayabiliyor.

Microsoft, “bütünsel yüz dinamikleri” ve yüzün gizli alanında çalışan bir kafa hareketi oluşturma modeli geliştirdi. Şirket, “önceki yöntemleri kapsamlı bir şekilde önemli ölçüde geride bıraktığını” söylüyor.

VASA şu anda yalnızca bir araştırma gösterimidir ve ürünün piyasaya sürülmesi veya başkalarının API’yi kullanmasına izin verme planı yoktur; Aslında Microsoft sadece dudak senkronizasyonu modelini göstermek istiyor.

Şirket, VASA’nın karakterin nereye bakması gerektiği, konunun kafasındaki görüntü ve konuşurken nötr, mutlu, kızgın veya şaşırmış gibi duyguları gibi istekleri kabul edeceğini söylüyor.

Microsoft, insanların yapay zeka görüntülerini oluşturmak için DALL-E 3 veya StyleGAN2’yi kullanarak VASA’yı gösterdi ancak gerçek fotoğraflar da kullanılabilir; Örneğin Amerika Birleşik Devletleri başkanı, söylemediği bir şeye, derin sahtekarlıklar ve yanlış bilgilerle ilgili etik soruların gündeme getirilmesine neden olabilir.

Microsoft , VASA-1 araştırma sayfasında “Araştırmamız, sanal yapay zeka avatarları için olumlu uygulamaları amaçlayan görsel duygusal beceriler oluşturmaya odaklanıyor” diyor.

“Yanlış yönlendirmek veya aldatmak amacıyla kullanılan içeriklerin oluşturulması amaçlanmamaktadır. Bununla birlikte, diğer ilgili içerik oluşturma teknikleri gibi, yine de insanların kimliğine bürünmek amacıyla kötüye kullanılabilir.

“Gerçek kişilere yönelik yanıltıcı veya zararlı içerikler oluşturmaya yönelik her türlü davranışa karşıyız ve sahtecilik tespitini geliştirmeye yönelik tekniğimizi uygulamakla ilgileniyoruz.

“Şu anda, bu yöntemle oluşturulan videolar hala tanımlanabilir eserler içeriyor ve sayısal analiz, gerçek videoların orijinalliğine ulaşmak için hala bir boşluk olduğunu gösteriyor.”

Bu doğru, Microsoft’un yayınladığı örneklerde hâlâ esrarengiz bir vadi havası var . Ancak herkes bu kadar medya okuryazarı değil ve VASA-1 videosunun gerçek olduğuna inanan insanlar var.