دال ئی

مدل یادگیری عمیق تولید کننده تصویر

دال-ئی (به انگلیسی: DALL-E یا DALL·E) و دال-ئی ۲ مدل‌های یادگیری ماشینی از نوع زایا هستند که توسط اوپن‌ای‌آی برای تبدیل متن به تصویر دیجیتال ساخته شده‌اند. اوپن‌ای‌آی در ژانویه ۲۰۲۱ در یک پست وبلاگ برای اولین بار دال-ئی را معرفی کرد. دال-ئی از نسخه‌ای از جی‌پی‌تی-۳ استفاده می‌کند که برای تولید تصاویر اصلاح شده‌است. در آوریل ۲۰۲۲ دال-ئی ۲ معرفی شد که توانایی تولید تصاویر واقعی تر با وضوح بالاتر را دارد و «می‌تواند مفاهیم، ویژگی‌ها و سبک‌ها را ترکیب کند».[۱]

دال-ئی
نویسنده(های)
اصلی
اوپن‌ای‌آی
انتشار اولیه۵ ژانویه ۲۰۲۱
نوعترنسفورمر مدل زبانی
وبگاه
این تصاویر با وارد کردن متن زیر توسط دال-ئی تولید شده‌اند: «تصویر حرفه‌ای با کیفیت بالا از زرافه اژدها. زرافه که از اژدها تقلید می‌کند. زرافه ساخته شده از اژدها.»

نام این نرم‌افزار ترکیب نام ربات شخصیت کارتونی وال-ئی و هنرمند سوررئالیست اسپانیایی سالوادور دالی است.

فناوری

ویرایش

مدل ترسنفورمر تولیدگر از پیش آموزش دیده (GPT) در ابتدا توسط اوپن‌ای‌آی در سال ۲۰۱۸ با استفاده از ساختار ترنسفورمرها توسعه یافت. سپس در سال ۲۰۱۹ جی‌پی‌تی برای ساخت جی‌پی‌تی-۲ توسعه یافت. در سال ۲۰۲۰ مجدداً برای ساختجی‌پی‌تی-۳ با ۱۷۵ میلیارد پارامتر بزرگ شد. مدل دال-ئی یک پیاده‌سازی چندوجهی از جی‌پی‌تی-۳ با ۱۲ میلیارد پارامتر است که «متن را با پیکسل تعویض می‌کند»، که بر روی متن تصاویر در اینترنت آموزش داده شده‌است. دال-ئی ۲ از ۳/۵ میلیارد پارامتر استفاده می‌کند که عددی کمتر از مدل قبلی خود است.[۲]

توانایی‌ها

ویرایش
 
از دال ای خواسته شده است که نقش یک پاندا را به صورت لاته آرت ایجاد کند.

دال-ئی می‌تواند تصاویر را در چندین سبک، از جمله تصاویر فوتورئالیسم، نقاشی و ایموجی تولید کند.

دال-ئی می‌تواند تصاویری برای طیف گسترده‌ای از توصیفات دلخواه را از دیدهای گوناگون تولید کند.[۳] مارک ریدل، دانشیار دانشکده محاسبات تعاملی جورجیا، دریافت که دال-ئی می‌تواند مفاهیم را با هم ترکیب کند (که عنصر کلیدی خلاقیت انسان شناخته می‌شود).

نگرانی‌های اخلاقی

ویرایش

اتکای دال-ئی ۲ به مجموعه داده‌های عمومی بر نتایج آن تأثیر می‌گذارد و در برخی موارد منجر به سوگیری الگوریتمی می‌شود، مانند ایجاد تعداد بیشتری از مردان نسبت به زنان برای درخواست‌هایی که جنسیت را ذکر نمی‌کنند.[۴] داده‌های آموزشی دال-ئی ۲ برای حذف تصاویر خشونت‌آمیز و جنسی فیلتر شد، اما مشخص شد که در برخی موارد مانند کاهش دفعات تولید زنان، سوگیری را افزایش می‌دهد.[۵][۵]

احتمال انتشار دیپ فیک و سایر اشکال اطلاعات نادرست با استفاده از دال-ئی و مدل‌های مشابه آن سبب نگرانی شده‌است.[۶] برای کاهش این خطر، نرم‌افزار درخواست‌های مربوط به شخصیت‌های مشهور و آپلودهای حاوی چهره انسان را رد می‌کند.[۷][۸]

نگرانی دیگر در مورد دال-ئی و مدل‌های مشابه این است که به دلیل دقت و محبوبیت می‌توانند باعث بیکاری هنرمندان، عکاسان و طراحان گرافیک شوند.[۹][۱۰]

محدودیت‌های فنی

ویرایش

دال-ئی ۲ در درک زبان محدودیت‌هایی دارد. برای مثال گاهی نمی‌تواند یک کتاب زرد و یک گلدان قرمز را از یک کتاب قرمز و یک گلدان زرد یا "یک پاندا که لاته آرت درست می‌کند را از لاته آرت یک پاندا تشخیص دهد.[۱۱][۱۲]

استقبال

ویرایش

بیشتر پوشش خبری از دال-ئی بر روی بخش کوچکی از خروجی‌های سوررئال یا غیرعادی آن انجام می‌شود. خروجی دال-ئی برای «تصویری از یک بچه ترب که با سگ راه می‌رود» در بخش‌هایی از اینپوت، ان‌بی‌سی، نیچر، و سایر نشریات ذکر شد. خروجی آن برای «یک صندلی راحتی به شکل آووکادو» نیز به‌طور گسترده پوشش داده شد.

جایگزین متن باز

ویرایش

تلاش‌هایی برای ایجاد جایگزین منبع باز آن صورت گرفته‌است.[۱۳] کرایون که در سال ۲۰۲۲ در پلت فرم Hugging Face منتشر شد، (قبلاً دال-ئی مینی نام داشت تا اینکه اوپن‌ای‌آی در ژوئن ۲۰۲۲ درخواست تغییر نام آن را داد) یک مدل هوش مصنوعی بر پایه دال-ئی اصلی است که روی داده‌های فیلتر نشده اینترنت آموزش دیده بود. در اواسط سال ۲۰۲۲ به دلیل توانایی‌اش در تولید تصاویر طنز، توجه رسانه‌ها را به خود جلب کرد.

جستارهای وابسته

ویرایش

منابع

ویرایش
  1. "DALL·E 2". OpenAI (به انگلیسی). Retrieved 2022-07-06.
  2. Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (2022-04-12). "Hierarchical Text-Conditional Image Generation with CLIP Latents". arXiv:2204.06125. {{cite journal}}: Cite journal requires |journal= (help)
  3. A bot will complete this citation soon. Click here to jump the queue arXiv:[۱].
  4. STRICKLAND, ELIZA (2022-07-14). "DALL-E 2's Failures Are the Most Interesting Thing About It". IEEE Spectrum (به انگلیسی). Retrieved 2022-07-15.
  5. ۵٫۰ ۵٫۱ "DALL·E 2 Pre-Training Mitigations". OpenAI (به انگلیسی). 2022-06-28. Retrieved 2022-07-18.
  6. Taylor, Josh (18 June 2022). "From Trump Nevermind babies to deep fakes: DALL-E and the ethics of AI art". The Guardian. Retrieved 2 August 2022.
  7. Rose, Janus (24 June 2022). "DALL-E Is Now Generating Realistic Faces of Fake People". Vice. Retrieved 2 August 2022.
  8. OpenAI (19 June 2022). "DALL·E 2 Preview - Risks and Limitations". GitHub. Retrieved 2 August 2022.
  9. Goldman, Sharon (26 July 2022). "OpenAI: Will DALLE-2 kill creative careers?".
  10. Blain, Loz (29 July 2022). "DALL-E 2: A dream tool and an existential threat to visual artists".
  11. Saharia. "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". {{cite arxiv}}: |arxiv= required (help)
  12. Strickland, Eliza (2022-07-14). "DALL-E 2's Failures Are the Most Interesting Thing About It". IEEE Spectrum (به انگلیسی). Retrieved 2022-08-16.
  13. jina-ai/dalle-flow, Jina AI, 2022-06-17, retrieved 2022-06-17

پیوند به بیرون

ویرایش
  1. Nichele, Stefano (2021). "Tim Taylor and Alan Dorin: Rise of the self-replicators—early visions of machines, AI and robots that can reproduce and evolve". Genetic Programming and Evolvable Machines. 22: 141–145. doi:10.1007/s10710-021-09398-5. S2CID 231930573.
  2. Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). "Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models". arXiv:2102.02503 [cs.CL].
  3. Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 June 2018). "Improving Language Understanding by Generative Pre-Training" (PDF). OpenAI. p. 12. Archived (PDF) from the original on 26 January 2021. Retrieved 23 January 2021.
  4. Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 February 2019). "Language models are unsupervised multitask learners" (PDF). 1 (8). Archived (PDF) from the original on 6 February 2021. Retrieved 19 December 2020. {{cite journal}}: Cite journal requires |journal= (help)
  5. Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (July 22, 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL].
  6. Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (24 February 2021). "Zero-Shot Text-to-Image Generation". arXiv:2102.12092 [cs.LG].
  7. Coldewey, Devin (5 January 2021). "OpenAI's DALL-E creates plausible images of literally anything you ask it to". Archived from the original on 6 January 2021. Retrieved 5 January 2021.
  8. Johnson, Khari (5 January 2021). "OpenAI debuts DALL-E for generating images from text". VentureBeat. Archived from the original on 5 January 2021. Retrieved 5 January 2021.
  9. Heaven, Will Douglas (5 January 2021). "This avocado armchair could be the future of AI". MIT Technology Review. Retrieved 5 January 2021.
  10. Dunn, Thom (10 February 2021). "This AI neural network transforms text captions into art, like a jellyfish Pikachu". BoingBoing. Archived from the original on 22 February 2021. Retrieved 2 March 2021.
  11. Stove, Emma (5 February 2021). "Tardigrade circus and a tree of life — January's best science images". Nature. Archived from the original on 8 March 2021. Retrieved 2 March 2021.
  12. Macaulay, Thomas (6 January 2021). "Say hello to OpenAI's DALL-E, a GPT-3-powered bot that creates weird images from text". TheNextWeb. Archived from the original on 28 January 2021. Retrieved 2 March 2021.
  13. Whitwam, Ryan (6 January 2021). "OpenAI's 'DALL-E' Generates Images From Text Descriptions". ExtremeTech. Archived from the original on 28 January 2021. Retrieved 2 March 2021.
  14. Dent, Steve (6 January 2021). "OpenAI's DALL-E app generates images from just a description". Engadget. Archived from the original on 27 January 2021. Retrieved 2 March 2021.
  15. Kasana, Mehreen (7 January 2021). "This AI turns text into surreal, suggestion-driven art". Input. Archived from the original on 29 January 2021. Retrieved 2 March 2021.
  16. Shead, Sam (8 January 2021). "Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab". CNBC. Retrieved 2 March 2021.
  17. Andrei, Mihai (8 January 2021). "This AI module can create stunning images out of any text input". ZME Science. Archived from the original on 29 January 2021. Retrieved 2 March 2021.
  18. Markowitz, Dale (10 January 2021). "Here's how OpenAI's magical DALL-E image generator works". TheNextWeb. Archived from the original on 23 February 2021. Retrieved 2 March 2021.
  19. Grossman, Gary (16 January 2021). "OpenAI's text-to-image engine, DALL-E, is a powerful visual idea generator". VentureBeat. Archived from the original on 26 February 2021. Retrieved 2 March 2021.
  20. Toews, Rob (18 January 2021). "AI And Creativity: Why OpenAI's Latest Model Matters". Forbes. Archived from the original on 12 February 2021. Retrieved 2 March 2021.
  21. Ehrenkranz, Melanie (27 January 2021). "Here's DALL-E: An algorithm learned to draw anything you tell it". NBC News. Archived from the original on 20 February 2021. Retrieved 2 March 2021.
  22. Walsh, Bryan (5 January 2021). "A new AI model draws images from text". Axios. Retrieved 2 March 2021.
  23. "For Its Latest Trick, OpenAI's GPT-3 Generates Images From Text Captions". Synced. 5 January 2021. Archived from the original on 6 January 2021. Retrieved 2 March 2021.
  24. Wakefield, Jane (6 January 2021). "AI draws dog-walking baby radish in a tutu". British Broadcasting Corporation. Archived from the original on 2 March 2021. Retrieved 3 March 2021.
  25. Metz, Rachel (2 February 2021). "A radish in a tutu walking a dog? This AI can draw it really well". CNN. Retrieved 2 March 2021.
  26. Knight, Will (26 January 2021). "This AI Could Go From 'Art' to Steering a Self-Driving Car". Wired. Archived from the original on 21 February 2021. Retrieved 2 March 2021.
  27. Carson, Erin (14 June 2022). "Everything to Know About Dall-E Mini, the Mind-Bending AI Art Creator". CNET. Archived from the original on 15 June 2022. Retrieved 15 June 2022.
  28. Schroeder, Audra (9 June 2022). "AI program DALL-E mini prompts some truly cursed images". Daily Dot. Archived from the original on 10 June 2022. Retrieved 15 June 2022.
  29. Diaz, Ana (15 June 2022). "People are using DALL-E mini to make meme abominations — like pug Pikachu". Polygon. Archived from the original on 15 June 2022. Retrieved 15 June 2022.
  30. Sahar Mor, Stripe (16 April 2022). "How DALL-E 2 could solve major computer vision challenges". VentureBeat. Archived from the original on 24 May 2022. Retrieved 15 June 2022.