นักวิทยาศาสตร์ของ MIT ไขปริศนาของแมชชีนเลิร์นนิง

หลังจากปี 2010 การปรับปรุงอัลกอริธึมของซอฟต์แวร์อย่างจริงจังก็เริ่มขึ้น และสิ่งนี้เมื่อรวมกับคอมพิวเตอร์ที่ทรงพลัง ทำให้เกิดแรงผลักดันให้เกิดการพัฒนาอย่างรวดเร็วของโครงข่ายประสาทเทียม โมเดลซอฟต์แวร์ได้รับการฝึกฝนและฝึกฝนจากตัวอย่างนับพันเพื่อสร้างการกระทำของตนเองในภายหลัง วันนี้เครือข่ายประสาทที่มีชื่อเสียงที่สุดคือสิ่งนี้ โอเพ่นเอไอ GPT-3. นี่คือโมเดลแมชชีนเลิร์นนิงที่เรียนรู้ด้วยความช่วยเหลือจากข้อมูลอินเทอร์เน็ตจำนวนมาก สามารถรับข้อความขนาดเล็กและเพิ่มส่วนที่ไม่เพียงพอในระดับที่ค่อนข้างสูง และสิ่งนี้ไม่เพียงใช้กับข้อความบรรยายเท่านั้น แต่ยังรวมถึงบทกวี ตลอดจนบรรทัดของรหัสซอฟต์แวร์ด้วย

โครงข่ายประสาทเทียม

แต่นี่ไม่ใช่ทั้งหมดที่โมเดลของแผนนี้สามารถทำได้ นักวิจัยกำลังศึกษาปรากฏการณ์ที่น่าสนใจที่เรียกว่า "การเรียนรู้ในบริบท" ซึ่งแบบจำลองภาษาขนาดใหญ่เรียนรู้ที่จะทำงานหลังจากเห็นตัวอย่างเพียงไม่กี่ตัวอย่าง แม้ว่าจะไม่ได้รับการฝึกอบรมเกี่ยวกับงานก็ตาม

นักวิทยาศาสตร์จาก Massachusetts Institute of Technology, Google Research และ Stanford University กำลังพยายามไขปริศนานี้ ด้วยการเรียนรู้ตามบริบท พารามิเตอร์โมเดลจะไม่ได้รับการอัพเดต ดังนั้นดูเหมือนว่าโมเดลกำลังเรียนรู้งานใหม่โดยไม่ได้เรียนรู้อะไรเลย

โครงข่ายประสาทเทียม

ผลลัพธ์ทางทฤษฎีของนักวิจัยแสดงให้เห็นว่าโมเดลโครงข่ายประสาทเทียมขนาดมหึมาเหล่านี้สามารถบรรจุโมเดลเชิงเส้นที่เล็กกว่าและเรียบง่ายกว่าซ่อนอยู่ภายในโมเดลเหล่านั้นได้ จากนั้นโมเดลขนาดใหญ่สามารถใช้อัลกอริทึมอย่างง่ายเพื่อฝึกโมเดลเชิงเส้นที่เล็กกว่านี้เพื่อทำงานใหม่ โดยใช้เฉพาะข้อมูลที่มีอยู่แล้วในโมเดลที่ใหญ่กว่า

ด้วยความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับการเรียนรู้ตามบริบท นักวิทยาศาสตร์จะสามารถดำเนินการงานใหม่ด้วยแบบจำลองได้โดยไม่ต้องฝึกอบรมซ้ำราคาแพง นั่นคือ อันดับแรก สำหรับงานเฉพาะใด ๆ จำเป็นต้องรวบรวมข้อมูลจำนวนมากตามการฝึกอบรมที่จะเกิดขึ้น ดังนั้นจึงเป็นไปได้ที่จะจัดเตรียมโครงข่ายประสาทเทียมด้วยตัวอย่างเพียงเล็กน้อย ซึ่งต้องขอบคุณการฝึกอบรมที่จะเกิดขึ้น

"การเรียนรู้ตามบริบทเป็นปรากฏการณ์การเรียนรู้ที่มีประสิทธิภาพเกินสมควรซึ่งจำเป็นต้องเข้าใจ".

โครงข่ายประสาทเทียม

มีการตั้งสมมติฐานว่ามีโมเดลแมชชีนเลิร์นนิงที่เล็กกว่าในโมเดลโครงข่ายประสาทเทียมที่สามารถสอนโมเดลที่เก่ากว่าให้ทำงานใหม่ได้ เพื่อทดสอบทฤษฎีของพวกเขา นักวิทยาศาสตร์ใช้โมเดลโครงข่ายประสาทเทียมที่คล้ายกับ GPT-3 ในสถาปัตยกรรมมาก แต่สร้างขึ้นเพื่อการเรียนรู้ในบริบทโดยเฉพาะ นั่นคือภายในเลเยอร์ก่อนหน้านี้มีการใช้แบบจำลองซึ่งเกี่ยวข้องกับการเรียนรู้แบบจำลองเชิงเส้นโดยใช้อัลกอริธึมการเรียนรู้อย่างง่าย

"ผลลัพธ์เหล่านี้เป็นก้าวสำคัญในการทำความเข้าใจว่าโมเดลสามารถเรียนรู้งานที่ซับซ้อนมากขึ้นได้อย่างไร และจะช่วยให้นักวิจัยพัฒนาวิธีการที่มีประสิทธิภาพมากขึ้นสำหรับการฝึกโมเดลภาษาเพื่อปรับปรุงประสิทธิภาพให้ดียิ่งขึ้น".

อ่าน:

Dzherelocsail.mit.edu

ปิ๊ดปิซาติเซียน

0 ความคิดเห็น

บทวิจารณ์แบบฝัง

ดูความคิดเห็นทั้งหมด

บทความอื่นๆ

นักวิทยาศาสตร์จากสถาบันเทคโนโลยีแมสซาชูเซตส์ได้ไขปริศนาของแมชชีนเลิร์นนิงแล้ว

ความเห็นล่าสุด