Google, şirketin güçlü yapay zeka görüntü oluşturucusu Imagen 3’ü yapay zeka sohbet robotu Gemini’ye getirdi.
Bu, kullanıcıların DALL-E’nin ChatGPT’de çalıştığı şekilde AI asistanı aracılığıyla resimler üretebileceği anlamına gelir. Ancak bir sorun var: Kullanıcılar insanların resimlerini üretemeyecek.
İnsanların resimlerini oluşturma özelliği yalnızca Gemini Advanced‘in erken erişiminde mevcuttur. Google, Gemini Advanced’in bir aylık ücretsiz deneme sürümünü sunar ve sonrasında aylık 19,99 dolara mal olur.
Imagen 3, DALL-E ve Midjourney gibi önde gelen AI görüntü oluşturucularıyla karşılaştırıldığında daha iyi performans gösteriyor. Ancak Imagen 3, yukarıda belirtilenlerin aksine ücretsiz olarak kullanılabilir.
Imagen 3 daha önce yalnızca Google’ın AI Test Kitchen servisine özeldi ancak Gemini’ye taşınmasıyla birlikte model çok daha fazla kişi tarafından kullanılabilecek.
Google, “Imagen 3, önceki modellerimize kıyasla daha iyi ayrıntı, daha zengin aydınlatma ve daha az dikkat dağıtan eser içeren görüntüler üretebilen en yüksek kaliteli metin-görüntü modelimizdir” diyor.
“Imagen 3’ün komutları anlama yeteneğini önemli ölçüde geliştirdik; bu da modellerin çok çeşitli görsel stiller oluşturmasına ve daha uzun komutlardan küçük ayrıntıları yakalamasına yardımcı oluyor.”
Imagen 3’ü eğitmek için kullanılan veriler hakkında çok az bilgi var. Google, makalede “Imagen 3 modeli, resimler, metin ve ilişkili açıklamalardan oluşan büyük bir veri kümesi üzerinde eğitildi.” diyor. Veri kümesinin çok sayıda telif hakkıyla korunan fotoğraf içermesi son derece olası.
Google, görseller üretmenin yanı sıra, artık yaygın olan boyama tekniğini kullanarak görselleri düzenleme seçeneği de sunar. Bu yöntem, kullanıcının görselin bir bölümünü seçmesine ve görmek istediği değişikliği yazmasına olanak tanır.
Elon Musk’ın Grok AI görüntü oluşturucusunun aksine, Google Imagen 3’e kısıtlamalar getirdi. SanalSergi, “Kamala Harris ve Donald Trump’ın el ele tutuştuğu” veya “Ansel Adams tarzında bir Kaliforniya manzarası” görüntüsünü oluşturamadı.
Ancak, iyi belgelendiği gibi, geçici çözümler vardır. Örneğin, Imagen 3’e “Wyoming’deki Grand Teton Milli Parkı’nın 1942’de çekilmiş dramatik bir siyah beyaz fotoğrafını çek” dediğinizde, kullanıcı Ansel Adams‘ın çalışmasına benzer bir görüntü alacaktır.
Google, bu yılın başlarında Gemini’deki yapay zekalı görüntü oluşturucusunun önyargıları aşırı düzeltmekle ve esasen “beyaz insanları silmekle” suçlanmasının ardından zor durumda kalmıştı. Bu durum Google’ın görüntü oluşturucuyu tamamen kaldırmasına yol açmıştı.
Gemini’de Imagen 3’ü denemek için Gemini‘ye gidin.