เมื่อต้นสัปดาห์นี้นักวิจัยจาก Microsoft นำเสนอ Kosmos-1 ซึ่งเป็นโมเดลปัญญาประดิษฐ์หลายรูปแบบที่สามารถวิเคราะห์รูปภาพสำหรับเนื้อหา แก้ปริศนาภาพ ทำการจดจำข้อความด้วยภาพ ทำการทดสอบไอคิวด้วยภาพ และเข้าใจคำสั่งภาษาธรรมชาติ ตามที่นักวิจัยระบุว่า โมเดล AI ดังกล่าวเป็นก้าวแรกในการสร้างปัญญาประดิษฐ์ทั่วไป (AI) ที่สามารถปฏิบัติงานร่วมกันในระดับมนุษย์ได้ นั่นคือเทคโนโลยีนี้จะสามารถแทนที่บุคคลในงานทางปัญญาได้ และนี่คือเป้าหมายที่ระบุไว้ของ OpenAI ซึ่งเป็นพันธมิตรทางธุรกิจที่สำคัญ Microsoft ในด้านปัญญาประดิษฐ์
ในกรณีนี้ Kosmos-1 เป็นการพัฒนาส่วนบุคคลของบริษัทล้วนๆ Microsoft. นักวิจัยเรียกการสร้างของพวกเขาว่า "แบบจำลองภาษากว้างหลายรูปแบบ" (MLLM) เนื่องจากรากฐานของมันอยู่ที่การประมวลผลภาษาธรรมชาติแบบข้อความเท่านั้น เช่น LLM เช่น ChatGPT เพื่อให้แบบจำลองยอมรับภาพที่นำเข้า อันดับแรกนักวิจัยจะต้องแปลงภาพให้เป็นชุดโทเค็นพิเศษ (ส่วนใหญ่เป็นข้อความ) ที่ LLM สามารถเข้าใจได้
Kosmos-1 ได้รับการฝึกอบรมเกี่ยวกับฐานข้อมูลจากอินเทอร์เน็ต รวมถึงสารสกัดจาก The Pile (แหล่งข้อมูลข้อความภาษาอังกฤษขนาด 800 GB) และ Common Crawl จากนั้น แบบจำลองนี้ได้รับการทดสอบด้วยการทดสอบต่างๆ มากมายในด้านความเข้าใจคำพูด การสร้างคำพูด การจำแนกข้อความโดยไม่ใช้การรู้จำอักขระด้วยแสง คำบรรยายภาพ การตอบคำถามด้วยภาพ การตอบคำถามบนหน้าเว็บ และการจัดหมวดหมู่รูปภาพด้วยการแปลเป็นภาษาท้องถิ่น ตาม Microsoft, Kosmos-1 มีประสิทธิภาพเหนือกว่ารุ่นปัจจุบันในการทดสอบหลายรายการ
สิ่งที่น่าสนใจเป็นพิเศษคือแบบทดสอบ Progressive Reasoning ของ Raven ซึ่งวัด IQ ทางสายตาโดยนำเสนอลำดับของรูปร่างและขอให้ผู้ทดลองทำตามลำดับ Kosmos-1 สามารถให้คำตอบที่ถูกต้องใน 22% ของกรณี
ขั้นตอนแรกเหล่านี้ ซึ่งเมื่อมีการปรับให้เหมาะสมในอนาคต อาจให้ผลลัพธ์ที่สำคัญยิ่งขึ้น ทำให้โมเดล AI สามารถรับรู้และมีอิทธิพลต่อสื่อรูปแบบใดก็ได้ ซึ่งช่วยขยายขีดความสามารถของผู้ช่วยประดิษฐ์อย่างมาก
อ่าน: