DALL·E 2 คืออะไร? คำอธิบายสำหรับผู้เริ่มต้นด้วยตัวอย่าง

Cto Takoe Dall E 2 Ob Asnenie Dla Nacinausih S Primerami



DALL·E 2 คืออะไร?

DALL·E 2 เป็นโปรแกรมปัญญาประดิษฐ์ที่สร้างรูปภาพจากคำอธิบายที่เป็นข้อความ ซึ่งเปิดเผยเมื่อวันพฤหัสบดีโดย OpenAI บริษัทวิจัย





ใช้รุ่นฝึกอบรมพารามิเตอร์ 12 พันล้านรุ่นของรุ่นหม้อแปลง GPT-3 เพื่อตีความอินพุตภาษาธรรมชาติและสร้างภาพที่สอดคล้องกัน ตัวอย่างเช่น เมื่อให้ประโยค 'ภาพขาวดำของสุนัขตัวเล็ก' ก็จะได้ภาพขาวดำของชิวาว่าอย่างถูกต้อง





ระบบไม่สมบูรณ์แบบ — บางครั้งสร้างภาพที่ยากต่อการตีความหรือผิดเพี้ยนไปโดยสิ้นเชิง ตัวอย่างเช่น เมื่อถูกขอให้สร้างภาพ 'คนขี่จักรยานล้อเดียวบนเชือกไต่เหนือภูเขาไฟ' ภาพดังกล่าวจะสร้างภาพ (ที่สวยงามในความคิดของฉัน) แต่ไม่เกี่ยวข้องกันโดยสิ้นเชิงของพระอาทิตย์ตกเหนือน้ำโดยมีร่างเล็กอยู่เบื้องหน้า .





ถึงกระนั้น ผลลัพธ์ก็น่าประทับใจ และ OpenAI กล่าวว่า DALL·E 2 'เป็นโมเดล AI รุ่นแรกที่สร้างภาพจากคำอธิบายที่เป็นข้อความซึ่งสามารถเทียบเคียงกับคุณภาพของศิลปินมืออาชีพที่เป็นมนุษย์ได้'



ระบบได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลคู่ข้อความ-รูปภาพ ซึ่งประกอบด้วยรูปภาพและคำบรรยายประมาณ 1.3 ล้านภาพจากอินเทอร์เน็ตที่ OpenAI คัดลอกและดูแล จากนั้นข้อมูลการฝึกอบรมจะถูกใช้เพื่อปรับแต่งโมเดล GPT-3 เพื่อให้สามารถสร้างรูปภาพจากคำอธิบายที่เป็นข้อความได้

OpenAI กล่าวว่าระบบสามารถสร้างภาพ 'คุณภาพสูง' จากคำอธิบายที่เป็นข้อความได้หลากหลาย รวมถึงภาพที่เป็นนามธรรม รูปธรรม หรือแม้แต่บทกวี

นอกจากตัวอย่างชิวาวาแล้ว ตัวอย่างอื่นๆ ของภาพที่ผลิตโดย DALL·E 2 ได้แก่ภาพเหมือนของอดอล์ฟ ฮิตเลอร์ที่แสดงผลอย่างถูกต้อง ภาพมังกรที่ทำจากผัก และภาพโมนาลิซาที่ทำจากขนมปังปิ้ง



ระบบยังสามารถสร้างภาพของสิ่งที่ไม่มีอยู่ เช่น 'ฟลอฟ' (สัตว์ที่ประดิษฐ์ขึ้น) หรือ 'ทัลปา' (รูปแบบความคิด)

โดยรวมแล้ว ผลลัพธ์นั้นน่าประทับใจ และ OpenAI กล่าวว่าระบบ 'เปิดโอกาสใหม่ๆ ในการสร้างรูปภาพจากคำอธิบายที่เป็นข้อความ'

จาก E 2 นี้ ระบบ CLIP แปลงข้อมูลข้อความเป็นข้อมูลภาพ นี่คือกระบวนทัศน์ตัวเข้ารหัส-ตัวถอดรหัส ซึ่งหมายความว่าเมื่อมีการป้อนข้อความ ข้อความจะถูกแปลงเป็นอินพุตของเครื่องก่อน จากนั้นจึงประมวลผลโดยระบบ และสุดท้ายส่งผ่านไปยังตัวถอดรหัส ซึ่งจะแปลงข้อมูลที่เข้ารหัสเป็นภาพ

DALL E 2 คืออะไร

DALL·E 2 คืออะไร?

นี่คือ DALL·E รุ่นล่าสุด ซึ่งเป็นโมเดลภาษาเชิงกำเนิดที่ใช้วลีเพื่อสร้างเอฟเฟ็กต์ภาพใหม่ทั้งหมด DALL E 2 เป็นรุ่น 3.5V ขนาดใหญ่ แม้ว่าจะไม่ใหญ่เท่า GPT-3 ที่น่าสนใจคือมันยังเบากว่ารุ่นก่อน (12B) ในแง่ของการจัดแนวคำอธิบายและความเหมือนจริงของภาพ DALL·E 2 ดีกว่า DALL·E 2 ถึง 70% แม้จะมีขนาดที่ใหญ่กว่าก็ตาม

DALL.E 2- คำอธิบายสำหรับผู้เริ่มต้นด้วยตัวอย่าง

โดยเฉพาะอย่างยิ่ง DALL·E 2 เป็นโมเดลการสังเคราะห์รูปภาพข้อความแบบมีเงื่อนไขแบบลำดับขั้นที่รวมการเรียนรู้เชิงลึกสำหรับการประมวลผลภาษาธรรมชาติเข้ากับการมองเห็นของคอมพิวเตอร์สำหรับการสร้างรูปภาพ เป้าหมายคือการฝึกโมเดล 2 แบบ และชุดการฝึกจะประกอบด้วยรูปภาพและคำอธิบายที่จับคู่กัน อย่างแรกคือลำดับความสำคัญที่สามารถฝึกให้สร้างภาพ CLIP ที่ฝังไว้ได้ จากนั้นเราจะมีตัวถอดรหัสที่เมื่อฝังภาพ CLIP (และคำอธิบายภาพ หากมี) จะสามารถสร้างภาพที่ฝึกได้

DALLE 2 ได้รับการฝึกโดยใช้ภาพถ่ายหลายร้อยล้านภาพพร้อมคำบรรยายจากอินเทอร์เน็ต และภาพเหล่านั้นบางภาพจะถูกลบออกและสับใหม่เพื่อเปลี่ยนแปลงสิ่งที่โมเดลเรียนรู้ มันเรียกตัวเลือกภาพหลาย ไฟล์แนบ CLIP แล้วใช้มัน ถอดรหัส ผ่านแต่ละรายการ จากนั้นจะสร้างส่วนผสมที่น่าสนใจของข้อมูลทั้งหมดที่ได้รับจากผู้ใช้

ตัวอย่าง DALL IS 2

มาเล่นเกมกันสักนิดเพื่อทำความเข้าใจกับ DALL·E เราจะแบ่งออกเป็นสามขั้นตอนถัดไป

  1. จินตนาการถึงสายรุ้ง ก้อนเมฆ และยูนิคอร์นที่โบยบินบนท้องฟ้าสีคราม ลองนึกดูว่าภาพในจินตนาการของคุณจะเป็นอย่างไร ผู้คนเป็นสิ่งที่ใกล้เคียงที่สุดที่เรามีกับอะนาล็อกที่สมบูรณ์แบบของการฝังรูปภาพ และภาพที่ผุดขึ้นมาในหัวของคุณเป็นตัวอย่างที่สมบูรณ์แบบของสิ่งนั้น คุณสามารถคาดเดาเกี่ยวกับผลิตภัณฑ์ขั้นสุดท้ายเท่านั้น แต่คุณมีความคิดที่ดีเกี่ยวกับสิ่งที่ควรรวมไว้ แบบจำลองเบื้องต้นนำผู้อ่านจากคำในวลีไปสู่ฉากในจินตนาการของเขาหรือเธอ
  2. ตอนนี้คุณสามารถเริ่มวาด สิ่งที่ unCLIP ทำคือแปลงภาพในจิตของคุณเป็นภาพร่างจริง ตอนนี้คุณสามารถสร้างตัวละครใหม่จากคำอธิบายเดียวกันได้อย่างแม่นยำ ด้วยสถิติพื้นฐานที่เหมือนกัน แต่ด้วยรูปแบบภาพใหม่ทั้งหมด DALL·E 2 ยังสามารถสร้างภาพที่ไม่ซ้ำใครจากภาพที่มีอยู่ซึ่งฝังด้วยวิธีนี้
  3. ให้ความสนใจกับภาพร่างที่คุณทำ นี่คือสิ่งที่เกิดขึ้นเมื่อคุณร่างคำอธิบายของ 'ยูนิคอร์นท่ามกลางหมู่เมฆ และสายรุ้งพุ่งขึ้นสู่ท้องฟ้า' ตอนนี้ตรวจสอบภาพและข้อความเพื่อพิจารณาว่าสิ่งใดที่แสดงถึงสิ่งอื่นได้ดีที่สุด (ดวงอาทิตย์ บ้าน ต้นไม้ ฯลฯ) และสิ่งใดที่อธิบายหัวข้อ สไตล์ สี ฯลฯ ได้ดีที่สุด สิ่งที่ CLIP ทำคือลักษณะการเข้ารหัส ข้อความและรูปภาพ

ตอนนี้เรารู้แล้วว่า DALL-E คืออะไร เรามาต่อกันที่ส่วนถัดไปและทำความเข้าใจกับคุณลักษณะของมันกัน

เคล็ดลับ: วิธีสร้างภาพที่เหมือนจริงด้วยบริการ DALL-E-2 AI

คุณสมบัติ DALL E 2

ด้านล่างนี้เป็นข้อมูลจำเพาะของ DALL·E 2

  1. รูปแบบต่างๆ
  2. ระบายสี
  3. ความแตกต่างของข้อความ

พูดคุยเกี่ยวกับพวกเขาในรายละเอียด

วิธีทำนามบัตรใน word 2010

1] รูปแบบต่างๆ

DALL·E 2 เป็นมากกว่าแค่การแปลประโยคเป็นภาพ OpenAI สามารถทดลองกับกระบวนการสร้าง สร้างผลลัพธ์ที่แตกต่างกันสำหรับลายเซ็นที่กำหนดด้วยการฝัง CLIP ที่มีประสิทธิภาพ สิ่งที่ CLIP 'เห็น' ใน 'ใจ' คือ สิ่งที่พิจารณาว่าสำคัญจากอินพุต (ยังคงเหมือนเดิมสำหรับทุกภาพ) และสิ่งที่สามารถแทนที่ได้ (ซึ่งเปลี่ยนไปสำหรับรูปภาพต่างๆ) เมื่อใดก็ตามที่เป็นไปได้ DALL·E 2 จะรักษาทั้ง 'ข้อมูลที่มีความหมาย...และแง่มุมที่สวยงาม'

2] การระบายสี

DALL·E 2 สามารถแก้ไขรูปภาพที่มีอยู่ด้วยการเติมอัตโนมัติ ในตัวอย่างต่อไปนี้ รูปภาพด้านซ้ายเป็นภาพต้นฉบับ และรูปภาพตรงกลางและด้านขวามีองค์ประกอบที่วาดในที่ต่างกัน DALL·E 2 จับคู่องค์ประกอบเพิ่มเติมกับ Picture Style นอกจากนี้ยังปรับปรุงพื้นผิวและแสงสะท้อนเพื่อสะท้อนถึงองค์ประกอบใหม่

อ่าน : คุณสามารถทำอะไรกับ ChatGPT

3] ความแตกต่างของข้อความ

DALL·E 2 แปลงรูปภาพโดยใช้ความแตกต่างของข้อความ DALL·E 2 ยังมีความสามารถในการแก้ไขขั้นสูงที่ช่วยให้คุณสามารถแก้ไขวัตถุได้ ผู้ใช้ Twitter รายหนึ่งสามารถ 'ทำให้ iPhone ของเขาไม่น่าเบื่อ' ได้ ทวิตเตอร์.คอม เพื่อตรวจสอบ

หากคุณชอบคุณสมบัติเหล่านี้ สิ่งที่คุณต้องทำคือไปที่ openai.com แล้วลงทะเบียน คุณสามารถสร้างบัญชีใหม่หรือใช้บัญชี Microsoft หรือ Google ที่มีอยู่เพื่อลงทะเบียน เมื่อคุณทำเช่นนั้น คุณจะได้รับเครดิตฟรี ถ้าคุณต้องการมากกว่านั้น คุณต้องจ่ายเงิน

นี่คือคุณสมบัติบางอย่างของ DALL·E 2 ซึ่งมีกรณีการใช้งานที่ยอดเยี่ยมมากมาย อย่างไรก็ตาม ขอแนะนำเสมอว่าอย่าพึ่งพาเครื่องมือ AI มากเกินไป ท้ายที่สุดแล้ว สิ่งเหล่านี้เป็นเพียงเครื่องมือที่ใช้ในการทำงานให้สำเร็จ พวกมันไม่สามารถแทนที่ความฉลาดทางอารมณ์ของบุคคลได้

อ่านเพิ่มเติม: แอพซอฟต์แวร์และเว็บไซต์ Deepfake ที่ดีที่สุด

DALL E 2 คืออะไร
โพสต์ยอดนิยม