Rengeteg képgenerátor program van, (Midjourney, Stable Diffusion, Leonardo, NightCafe, Starry AI, stb.) viszont az OpenAi egyben adja ezt is sok más szolgáltatásával együtt egy kezelőfelületen. Ez számomra fontos, hasznos és időt spórol meg.
A DALL·E 3 egy sor jelentős kutatási előrelépés eredménye, mely a részletgazdagabb és élesebb képek létrehozását teszi lehetővé. Kiemelkedően teljesít a bonyolult részletek, mint a kezek és arcok megjelenítésében. Különleges képessége, hogy kiterjedt, részletes utasításokra reagál, támogatva a különböző képarányokat, tovább erősítve a modell hatékonyságát.
A működése a már szokásosnak mondható, vagyis leírjuk szövegesen, hogy mit szeretnénk látni a képen és már generálja a képeket. Viszont, ami nagyon jó, hogy az általunk beírtakat átfogalmazza és kibővíti egy megfelelőbb képgeneráló promptra (szöveges parancsra). Ezért is jó, hogy egybe van gyúrva a GPT-4 nyelvi modellel, mert így kevesebb instrukcióból is elég jó képeket tud generálni.
Egy példa alap parancs
Prompt: Trópusi tengerpart, csónak, a háttérben szigetek, fekvő képet kérek.
Ez lett a képgeneráló prompt: A tropical beach scene with a small boat on the shore. In the background, there are several islands dotting the horizon. The sky is clear and the sun is setting, casting a warm, golden light over the scene. The water is calm and reflects the colors of the sunset. The beach is lined with palm trees and the sand is white and pristine. This image should capture the serene and peaceful atmosphere of a tropical paradise at sunset.
Magyarul: Trópusi tengerparti jelenet egy kis csónakkal a parton. A háttérben több sziget szegélyezi a horizontot. Az ég tiszta, a nap lenyugszik, meleg, arany fényt vetve a jelenetre. A víz nyugodt és a naplemente színeit tükrözi. A strandot pálmafák szegélyezik, a homok pedig fehér és érintetlen. Ennek a képnek egy trópusi paradicsom nyugodt és békés hangulatát kell megörökítenie naplementekor.
A képgenerátor modell felelősségteljes fejlesztése
A DALL·E 3 fejlesztése során kiemelt figyelmet fordítottak a biztonságra, korlátozva a potenciálisan káros képek készítését. A biztonsági ellenőrzések átfutják a felhasználói utasításokat és az eredményképeket, biztosítva a tartalmak megfelelőségét. A modell úgy lett kialakítva, hogy elutasítsa azokat a kéréseket, amelyek élő művészek stílusában kérnek képet, valamint lehetőséget biztosítunk a művészeknek, hogy kizárják műveiket a képgenerációs modellek képzéséből.
Bár ezek sokszor azt eredményezik, hogy a DALL-E nem akarja legenerálni a képeket mert ütközik a szabályzattal, de ezzel együtt lehet élni, meg kell tanulni mit fog engedni és mit kell elkerülni.
Származási osztályozó azonosítók bevezetése
A DALL·E 3 bevezetése részeként egy származási osztályozót is fejlesztettek, amely segít azonosítani a generált képeket. Ez az eszköz kritikus fontosságú a mesterséges intelligencia tartalmak megkülönböztetésében. Ezáltal egy már legenerált kép azonosítóját lekérdezve majd azt megadva tudunk hasonló képet generálni kisebb módosításokkal.Kérdezzük meg: "Az első képnek mi a SEED és GEN ID azonosítója?"
A DALL·E 3 képgenerátor összefoglalva általánosságban:
- Egyszerű beszélgetések alapján képes egyedi képeket generálni.
- Képes bonyolultabb részleteket, például szövegeket (bár ezen még kell fejleszteni), kezeket és arcokat élethűen ábrázolni. PL: közeli portré képek
- Kiterjedt, részletes utasításokra adott válaszok lehetővé teszik a személyre szabott képek létrehozását.
- Többszintű biztonsági rendszerrel korlátozza a káros tartalmak generálását.
- A felhasználói visszajelzések segítségével folyamatosan fejleszthető a rendszer.
- Eszköz a generált képek azonosítására ezáltal a stílus továbbvitelére.
- Korlátozza az élő művészek stílusában történő képkészítést és javítja a demográfiai reprezentációt.
Leírás: It also portrays the close-up, futurism style of a European child with a dirty face, set in a dark, dramatic setting with light focused on the child's eyes, and infused with 1980s synthwave and retro-futurism aesthetics.