AI Görüntü Oluşturucuları Neden Metni Doğru Yaratmakta Zorlanıyor?

Yapay zeka görüntüsü ile gerçek fotoğraf arasında ayrım yapmak giderek zorlaşıyor. Ancak hala bazı ipuçları var ve bunlardan biri de yapay zeka görüntü oluşturucularının tutarlı metinler üretmekte zorluk çekmesi.

Yapay zeka şirketleri sıklıkla en son modellerinin “okunaklı bir şekilde metin oluşturabilme” özelliğiyle övünüyor ve metin oluşturma geliştirilmiş olsa da yapay zeka programları hala bu konuda takılıp kalıyor.

Make a picture of a camera store with a big sign that — Midjourney V6’nın üzerinde ‘Fotoğrafçı Salonu’ yazan bir kamera mağazasına giriş girişimi.
Yakınında bile değil.

Yapay Zeka Görüntü Oluşturucuları Neden Kelimeleri Doğru Yazamıyor?

Basit bir açıklama, yapay zeka görüntü oluşturucularının, metnin ne olduğunu bilmediği için insanlar gibi yazmak yerine harfler ve rakamlar üzerine çizim yapmasıdır.

University College London’da bilgisayar bilimcisi ve yazar olan Profesör Peter Bentley, şunları söylüyor: “Şu anda, çok fazla parmak veya tuhaf eklemlere sahip çılgın el görüntüleri elde edebilmemizle aynı nedenden dolayı başarısız oluyorlar . “

“Görüntü üreten yapay zekalar dünyamız hakkında hiçbir şey bilmiyor, 3 boyutlu nesneleri anlamıyorlar ve görüntülerde görünen metinleri de anlamıyorlar.

“Görsellerle ilişkilendirilen metinsel etiketler biçimindeki büyük miktarda metin üzerinde eğitilmiş olsalar da, görüntü içindeki metin onlar için görüntünün yalnızca bir başka parçası.

“Tıpkı bir tüyün, metin üretmesi istendiğinde ‘tüy benzeri’ olduğu sürece birçok varyasyonda ve renkte gösterilebilmesi gibi, birçok sistem de ‘metne benzer’ şekiller üretiyor.”

İnsanlar harflerin ne anlama geldiğini ve bir kelimenin nasıl oluşturulduğunu anlıyor, yapay zeka anlayamıyor. Yapay zeka, metin karakterlerini sadece çizgi ve şekillerin farklı bir kombinasyonu olarak görüyor.

DALL-E ve Midjourney gibi programlar, kelimeler ve görüntüler arasındaki ilişkileri öğrenen yapay sinir ağları üzerine kuruludur. Bazıları, metin gösterimi için tamamen yeni bir yapay zeka oluşturucunun gerekli olduğunu savunuyor.

DALLE-2 makalesinde yazarlar, modelin “işlenmiş metnin yazım bilgisini tam olarak kodlamadığını” söylüyorlar. Yani model, kelimenin nasıl okunması gerektiğini tahmin ediyor.

Bu sefer Google’dan gelen başka bir araştırma makalesi, daha fazla parametrenin (modellerin üzerinde eğitildiği değişkenler) eklenmesinin metin oluşturmayı önemli ölçüde iyileştirebileceğini öne sürüyor.

Make a picture of a man holding a sign that reads Not — Midjourney V6’ya girilen yukarıdaki istemin tamamen aynısı anlamsız bir görüntü üretti.

Yapay zeka görüntü oluşturucularının ellerle uğraştığı gibi, yapay zeka da bir kelimenin 3 boyutlu geometrisini kavramsallaştırmaya çabalıyor ve sonuçta her şey eğitim verilerine bağlı.

Yapay zeka görüntü oluşturucuları, görüntülerdeki metinlerden çok daha fazla insan yüzü resmine göre eğitilecek. Bu nedenle, insanların yüzlerinin görüntülerini oluşturmak, bir görüntüdeki metinden daha iyi bir iş çıkarıyorlar.

Make a picture of the Welcome to Fabulous Las Vegas — Yapay zeka modelleri (çoğunlukla) Las Vegas tabelasını doğru bir şekilde yeniden oluşturabiliyor çünkü tabelanın çok sayıda gerçek fotoğrafı üzerinde eğitilmişler. | Midjourney

Bunun güzel bir örneği Las Vegas tabelasıdır. Yapay zeka modelleri, ikonik Vegas tabelasının sayısız resmiyle eğitilecek. Bu nedenle onu doğru bir şekilde yeniden yaratabilirler. Tersine, modeller, “Hiçbir Şey Tam Çerçeveyle Kıyaslanamaz” yazan bir tabela tutan bir adamın resimlerine göre eğitilmedi. (Ama ilginçtir ki DALL-E bu konuda iyi bir iş çıkardı.)

Fotoğrafçılar veya Photoshop’u nasıl kullanacağını bilen herkes için yapay zekanın yaptığı bu yazım hatalarından bazıları kolaylıkla düzeltilebilir.

Etiketler