นักวิจัย Apple ได้พัฒนาระบบปัญญาประดิษฐ์ที่เรียกว่า ReALM (Reference Resolution as Language Modeling) ซึ่งมีจุดมุ่งหมายเพื่อปรับปรุงวิธีที่ผู้ช่วยเสียงเข้าใจและตอบสนองต่อคำสั่งอย่างรุนแรง
ในงานวิจัยชิ้นหนึ่ง Apple อธิบายกรอบงานใหม่สำหรับวิธีที่โมเดลภาษาขนาดใหญ่จัดการกับปัญหาการแก้ไขการอ้างอิง ซึ่งรวมถึงการถอดรหัสการอ้างอิงที่ไม่ชัดเจนไปยังวัตถุบนหน้าจอ เช่นเดียวกับการทำความเข้าใจบริบทการสนทนาและพื้นหลัง เป็นผลให้ ReALM สามารถนำไปสู่การโต้ตอบกับอุปกรณ์ที่เป็นธรรมชาติและเป็นธรรมชาติยิ่งขึ้น
การจดจำการอ้างอิงเป็นส่วนสำคัญของการทำความเข้าใจภาษาธรรมชาติ ทำให้ผู้ใช้สามารถใช้สรรพนามและการอ้างอิงทางอ้อมอื่นๆ ในการสนทนาได้โดยไม่เกิดความสับสน สำหรับผู้ช่วยดิจิทัล ความสามารถนี้เป็นความท้าทายที่สำคัญในอดีต โดยถูกจำกัดโดยความจำเป็นในการตีความสัญญาณทางวาจาและข้อมูลภาพที่หลากหลาย ระบบ RealM จาก Apple มีจุดมุ่งหมายเพื่อแก้ไขปัญหานี้โดยเปลี่ยนกระบวนการที่ซับซ้อนของการจดจำการอ้างอิงให้กลายเป็นงานการสร้างแบบจำลองภาษาล้วนๆ ด้วยวิธีนี้ เธอสามารถเข้าใจการอ้างอิงถึงองค์ประกอบภาพที่แสดงบนหน้าจอ และรวมความเข้าใจนี้เข้ากับกระแสการสนทนา
ReALM สร้างโครงสร้างภาพของหน้าจอขึ้นมาใหม่โดยใช้การแสดงข้อความ ซึ่งรวมถึงการแยกวิเคราะห์วัตถุหน้าจอและการจัดเรียงเพื่อสร้างรูปแบบข้อความที่สะท้อนถึงเนื้อหาและโครงสร้างของหน้าจอ นักวิจัย Apple พบว่ากลยุทธ์นี้เมื่อรวมกับการปรับแต่งโมเดลภาษาแบบพิเศษสำหรับปัญหาการแก้ปัญหาเกณฑ์มาตรฐาน มีประสิทธิภาพเหนือกว่าวิธีการแบบเดิมอย่างมาก รวมถึงความสามารถ GPT-4 ของ OpenAI
RealM ช่วยให้ผู้ใช้สามารถโต้ตอบกับผู้ช่วยดิจิทัลได้อย่างมีประสิทธิภาพมากขึ้น โดยอิงจากสิ่งที่แสดงอยู่บนหน้าจอในปัจจุบัน โดยไม่ต้องใช้คำแนะนำโดยละเอียดและแม่นยำ สิ่งนี้อาจทำให้ผู้ช่วยแบบเสียงมีประโยชน์มากขึ้นในสถานการณ์ต่างๆ เช่น การช่วยให้ผู้ขับขี่นำทางระบบสาระบันเทิงในขณะขับรถ หรือช่วยเหลือผู้ใช้ที่มีความพิการด้วยการให้วิธีการโต้ตอบทางอ้อมที่ง่ายและแม่นยำยิ่งขึ้น
Apple ได้เผยแพร่งานวิจัยด้าน AI หลายฉบับแล้ว เมื่อเดือนที่แล้ว บริษัทได้เปิดตัววิธีการใหม่ในการเรียนรู้โมเดลภาษาขนาดใหญ่ที่บูรณาการทั้งข้อมูลที่เป็นข้อความและภาพได้อย่างราบรื่น เป็นที่คาดหวังเช่นนั้น Apple จะแนะนำฟีเจอร์ AI หลายอย่างในการประชุม WWDC ในเดือนมิถุนายน
อ่าน: