เอไอใหม่ Microsoft สามารถเลียนแบบเสียงของบุคคลใดก็ได้

เมื่อวันพฤหัสบดีที่ผ่านมานักวิจัย Microsoft ประกาศโมเดลปัญญาประดิษฐ์ (AI) ใหม่ที่เรียกว่า VALL-E ที่สามารถเลียนแบบเสียงมนุษย์ได้อย่างแม่นยำเมื่อได้รับตัวอย่างเสียงสามวินาที เมื่อเรียนรู้เสียงใดเสียงหนึ่งแล้ว VALL-E จะสามารถสังเคราะห์เสียงของบุคคลนั้นที่พูดอะไรก็ได้ ขณะเดียวกันก็รักษาน้ำเสียงทางอารมณ์ของผู้พูดไว้

ผู้เขียนแนะนำว่า VALL-E สามารถใช้สำหรับการแปลงข้อความเป็นคำพูดคุณภาพสูง การแก้ไขคำพูด ซึ่งสามารถแก้ไขและเปลี่ยนแปลงการบันทึกของบุคคลจากการถอดความข้อความได้ (ทำให้พวกเขาพูดในสิ่งที่พวกเขาไม่ได้พูดไว้ในตอนแรก) และ สำหรับสร้างเนื้อหาเสียงรวมกับโมเดล AI กำเนิดอื่นๆ เช่น จีพีที-3.

Microsoft เรียก VALL-E ว่าเป็น "โมเดลภาษา Neural Codec" และใช้เทคโนโลยีที่เรียกว่า EnCodec ที่ Meta ประกาศในเดือนตุลาคม 2022 ซึ่งแตกต่างจากวิธีแปลงข้อความเป็นคำพูดอื่นๆ ซึ่งโดยทั่วไปจะสังเคราะห์คำพูดโดยการจัดการรูปคลื่น VALL- E สร้างเสียงที่ไม่ต่อเนื่อง รหัสโคเดกจากข้อความและเสียงแจ้ง โดยพื้นฐานแล้วมันจะวิเคราะห์ว่าบุคคลนั้นเสียงเป็นอย่างไร แบ่งข้อมูลนั้นออกเป็นองค์ประกอบแยกกัน (เรียกว่า "โทเค็น") ด้วย EnCodec และใช้ข้อมูลการฝึกอบรมเพื่อจับคู่สิ่งที่ "รู้" เกี่ยวกับเสียงนั้นจะเป็นอย่างไรหากพูดวลีอื่นภายนอก ของตัวอย่างสามวินาที

Microsoft ฝึกฝนความสามารถในการสังเคราะห์เสียงพูดของ VALL-E บนไลบรารีเสียงที่รวบรวมโดย Meta ที่เรียกว่า LibriLight ประกอบด้วยการออกอากาศภาษาอังกฤษความยาว 60 ชั่วโมงจากผู้ประกาศมากกว่า 7 ราย ซึ่งส่วนใหญ่นำมาจากหนังสือเสียง LibriVox ที่เผยแพร่ต่อสาธารณะ

นอกเหนือจากการรักษาเสียงต่ำและน้ำเสียงทางอารมณ์ของผู้ประกาศแล้ว VALL-E ยังสามารถจำลอง "สภาพแวดล้อมทางเสียง" ของตัวอย่างเสียงได้อีกด้วย ตัวอย่างเช่น หากได้ตัวอย่างมาจากการสนทนาทางโทรศัพท์ เอาต์พุตเสียงสังเคราะห์จะจำลองคุณสมบัติทางเสียงและความถี่ของการสนทนาทางโทรศัพท์ ตัวอย่างอีกด้วย Microsoft แสดงให้เห็นว่า VALL-E สามารถสร้างเสียงร้องที่หลากหลายได้

อาจเนื่องมาจากความสามารถของ VALL-E ในการอำนวยความสะดวกในการฉ้อโกงและการหลอกลวง Microsoft ยังไม่ได้ให้รหัส VALL-E ให้ผู้อื่นทำการทดลอง ดังนั้นเราจะไม่สามารถทดสอบความสามารถของมันได้ นักวิจัยดูเหมือนจะตระหนักถึงความเสียหายทางสังคมที่อาจเกิดขึ้นจากเทคโนโลยีนี้ พวกเขาเขียนไว้ตอนท้ายของบทความว่า:

“เนื่องจาก VALL-E สามารถสังเคราะห์เสียงพูดที่รักษาเอกลักษณ์ของผู้พูดได้ จึงอาจมีความเสี่ยงที่อาจเกิดขึ้นจากการใช้แบบจำลองในทางที่ผิด เช่น การปลอมแปลงการระบุเสียงหรือการเลียนแบบผู้พูดที่เฉพาะเจาะจง เพื่อลดความเสี่ยงดังกล่าว จะมีการสร้างแบบจำลองการรับรู้เพื่อแยกแยะว่าคลิปเสียงนั้นสังเคราะห์โดยใช้ VALL-E หรือไม่"

คุณสามารถช่วยยูเครนต่อสู้กับผู้รุกรานรัสเซีย วิธีที่ดีที่สุดคือบริจาคเงินให้กับกองทัพยูเครนผ่าน เซฟไลฟ์ หรือทางเพจอย่างเป็นทางการ NBU.

อ่าน:

DzhereloArsTechnica

ปิ๊ดปิซาติเซียน

0 ความคิดเห็น

บทวิจารณ์แบบฝัง

ดูความคิดเห็นทั้งหมด

บทความอื่นๆ

เอไอใหม่ Microsoft เลียนแบบเสียงของบุคคลใดๆ จากตัวอย่างเสียง 3 วินาที

ความเห็นล่าสุด