DALL-E
ויקיפדיה האנציקלופדיה encyclopedia
DALL-E (מסוגנן כ-DALL·E; הלחם בסיסים של דאלי ושל וול-E)[1][2] היא תוכנת בינה מלאכותית שיוצרת תמונות מתיאורים טקסטואליים.
תמונה שיצרה DALL-E 2 על פי ההנחיה: "תמונה של יד רובוטית מציירת, אמנות דיגיטלית" ("A photo of a robot hand drawing, digital art") | |
מפתח | OpenAI |
---|---|
מחזור חיים | 5 בינואר 2021 – הווה |
labs |
התוכנה משתמשת בכ-12 מיליארד פרמטרים[2] בגרסה של מודל ה-GPT-3 כדי לפרש קלט טקסטואלי משפה טבעית (כמו "ארנק עור ירוק בצורת מחומש" או "תצוגה איזומטרית של קפיבארה מצויה עצובה") וליצור תמונות בהתאם.[1] היא יכולה ליצור דימויים של חפצים ריאליסטיים ("חלון ויטראז' עם תמונה של תות כחול") וגם של חפצים שאינם קיימים במציאות ("קובייה במרקם של דורבן").[3][4][5]
משנות ה-2000 ואילך רשתות עצביות מלאכותיות רבות הצליחו ליצור תמונות מציאותיות.[1] ייחודה של DALL-E בכך שהיא מסוגלת לייצר אותן על בסיס הנחיות בשפה טבעית, שאותן היא מיישמת לרוב ורק לעיתים נדירות נכשלת, וגם זאת לא באופן משמעותי.[1]
OpenAI לא פרסמה קוד מקור לאף אחד מהדגמים, אף על פי ש"בקר" של DALL-E זמין באתר האינטרנט של OpenAI, שבו ניתן לראות פלט ממבחר מוגבל של הנחיות לדוגמה.[2] חלופות קוד פתוח, שהוכשרו על כמויות קטנות יותר של נתונים, כמו DALL-E Mini, שוחררו על ידי אחרים.[6]
לפי "MIT Technology Review", אחת המטרות של OpenAI הייתה "לתת למודלי שפות תפיסה טובה יותר של המושגים היומיומיים שבני אדם משתמשים בהם כדי להבין דברים".[7]