Dalle-mini nedir ve nasıl çalışır?

Dalle Mini Nedir Ve Nasil Calisir



Dalle-mini, kullanıcı giriş metninden yüksek kaliteli görüntüler üretebilen bir derin öğrenme modelidir. OpenAI'nin Ocak 2021'de piyasaya sürdüğü DALL-E modelini temel alır. DALL-E, ' Çözülmüş Dil ve Gizli İfade ”, metni ve görüntüleri ortak bir gizli alana kodlayabilen ve ardından bunları herhangi bir modaliteye geri döndürebilen, dönüştürücü tabanlı bir sinir ağıdır.

Bu makale aşağıdaki içeriği açıklayacaktır:







Dalle mini nedir?

ona mini ver açık kaynaklı bir araştırma topluluğu olan EleutherAI tarafından oluşturulan DALL-E'nin daha küçük ve daha hızlı bir sürümüdür. Dalle-mini, DALL-E'nin 12 milyar parametresine kıyasla yalnızca 6 milyar parametre kullanır ve tek bir GPU üzerinde çalışabilir. Dalle-mini ayrıca metin girişi için farklı bir belirteç ve sözcük dağarcığı kullanır, bu da onu farklı diller ve alan adlarıyla daha uyumlu hale getirir:




Not : Kullanıcılar aşağıdakileri izleyerek Dalle-mini kullanarak ücretsiz görüntüler oluşturabilirler: bağlantı .



Dalle-mini'nin Çalışması Nedir?

Dalle-mini'nin arkasındaki ana fikir, sinir ağları olan transformatörlerin gücüdür. Metin veya resimler gibi sıralı verilerdeki uzun vadeli bağımlılıkları ve karmaşık kalıpları öğrenebilirler.





Transformatörler iki ana bölümden oluşur: bir kodlayıcı ve bir kod çözücü. İlk kısım bir girdi (bir metin açıklaması) alır ve onu gizli vektörlere dönüştürür. Bundan sonra, kod çözücü bunu alır ve girdiyle ilgili bir çıktı (görüntü) üretir.

Dalle-mini ve DALL-E arasındaki fark nedir?

Dalle-mini ve DALL-E, hem metin hem de görüntüler için paylaşılan bir kodlayıcı-kod çözücü mimarisi kullanır. Aynı ağı kullanarak her iki yöntemi de kodlayabilir ve kodunu çözebilirler. Bu, metin ve görüntüler arasındaki anlamsal ilişkiyi yakalayan ortak bir gizli alanı öğrenmelerini sağlar. Bundan sonra, metinden görüntü oluşturma veya tam tersi gibi modlar arası oluşturma gerçekleştirmelerini sağlar.



Dalle-mini Nasıl Çalışır?

Dalle-mini, bir metin açıklamasından bir görüntü oluşturmak için önce metni, sıklıklarına ve birlikte oluşlarına göre alt kelime birimlerine bölen bir bayt çifti kodlama (BPE) algoritması kullanarak metni simgeliyor:


Dalle-mini'nin iç işleyişinin ayrıntılarına geçelim:

Dalle-mini'nin Dahili Çalışması

Diyelim ki, ' sözü oynamak ”, “ olarak bölünebilir pla ' Ve ' ying ”. Jetonlar daha sonra 8192 jetonluk bir kelime dağarcığı kullanılarak sayısal kimliklere eşlenir. Kimlikler kodlayıcıya beslenir ve 256 x 64 boyutunda gizli bir temsil oluşturur:


Kod çözücü daha sonra gizli temsili alır ve 256 x 256 piksel boyutunda bir görüntü oluşturur. Kod çözücü, otoregresif bir süreç kullanır; bu, önceki piksellere ve gizli gösterime bağlı olarak her pikseli birer birer ürettiği anlamına gelir.

Dalle-mini Kullanarak Metin Açıklamasından Görüntü Nasıl Oluşturulur?

Dalle-mini kullanarak bir görüntüden bir metin açıklaması oluşturmak için metni bilgi istemi penceresine girin. Örneğin, ' yazın Rastgele çiçeklerden oluşan bir resim ” komut isteminde ve “ Koşmak ' düğme:


Çıktı, Dalle-mini'nin giriş metnine göre ilgili görüntüleri oluşturduğunu gösterir.

Çözüm

Dalle-mini, trafoların modlar arası üretim potansiyelini gösteren dikkate değer bir modeldir. Doğal dil açıklamalarından gerçekçi ve çeşitli görüntüler ve görüntülerden tutarlı ve ilgili metinler oluşturabilirler. Ayrıca, birden çok nesneyi veya niteliği tek bir görüntü veya metinde birleştirmek gibi karmaşık kompozisyonları da işleyebilirler. Bu makale Dalle-mini'yi ve çalışmasını ayrıntılı olarak açıklamaktadır.