Škoda Karoq
หมวดหมู่: ข่าวไอที

บริษัท AI รวบรวมข้อมูลจากเว็บไซต์สื่อมวลชนที่ขัดต่อข้อห้ามโดยตรง

ความฉงนสนเท่ห์ซึ่งอธิบายผลิตภัณฑ์ของตนว่าเป็น "เครื่องมือค้นหาฟรีที่มีปัญญาประดิษฐ์" ได้รับความนิยมในช่วงไม่กี่วันที่ผ่านมา ไม่นานหลังจากที่ Forbes กล่าวหาว่าขโมยบทความและเผยแพร่ซ้ำบนหลายแพลตฟอร์ม Wired รายงานว่า Perplexity เพิกเฉยต่อ Robot Exclusion Protocol หรือ robots.txt และได้ลบบทความออกจากไซต์และสิ่งพิมพ์อื่นๆ ของ Condé Nast เว็บไซต์เทคโนโลยี The Shortcut ยังกล่าวหาบริษัท AI ว่าลบบทความของตนออก ขณะนี้ Reuters ได้เปิดเผยว่า Perplexity ไม่ใช่บริษัท AI เพียงแห่งเดียวที่ข้ามไฟล์ robots.txt และคัดแยกเว็บไซต์เพื่อหาเนื้อหาที่ใช้ในการฝึกอบรมเทคโนโลยีของตน

Reuters รายงานว่าได้เห็นจดหมายที่ส่งถึงผู้จัดพิมพ์จาก TollBit ซึ่งเป็นสตาร์ทอัพที่เชื่อมโยงพวกเขากับบริษัท AI เพื่อให้พวกเขาสามารถทำข้อตกลงใบอนุญาตได้ โดยเตือนพวกเขาว่า “ตัวแทน AI จากแหล่งต่าง ๆ (ไม่ใช่แค่จากบริษัทเดียว) ตัดสินใจเลี่ยงผ่าน โปรโตคอล robots.txt เพื่อรับเนื้อหาจากไซต์" ไฟล์ robots.txt มีคำแนะนำสำหรับโรบ็อตการค้นหาว่าหน้าเว็บใดที่สามารถเข้าถึงได้และไม่สามารถเข้าถึงได้ นักพัฒนาเว็บใช้โปรโตคอลนี้มาตั้งแต่ปี 1994 แต่การยึดมั่นในโปรโตคอลนี้เป็นไปตามความสมัครใจโดยสมบูรณ์

ไม่มีชื่อบริษัทใดในจดหมายของ TollBit แต่ Business Insider กล่าวว่าได้เรียนรู้ว่า OpenAI และ Anthropic ซึ่งเป็นผู้สร้างแชทบอท ChatGPT และ Claude ตามลำดับ ก็เลี่ยงผ่านสัญญาณ robots.txt เช่นกัน ก่อนหน้านี้ทั้งสองบริษัทเคยกล่าวไว้ว่าพวกเขาเคารพคำสั่ง "ห้ามรวบรวมข้อมูล" ที่เว็บไซต์ใส่ไว้ในไฟล์ robots.txt ของตน

ในระหว่างการสืบสวน Wired พบว่าเครื่องบนเซิร์ฟเวอร์ Amazon "ดำเนินการโดย Perplexity แน่นอน" กำลังข้ามคำสั่ง robots.txt ของเว็บไซต์ เพื่อยืนยันว่า Perplexity กำลังขัดเกลาเนื้อหา Wired จึงป้อนหัวข้อข่าวเครื่องมือของบริษัทจากบทความ หรือเคล็ดลับสั้น ๆ ที่อธิบายเรื่องราวของพวกเขา มีรายงานว่าเครื่องมือนี้ให้ผลลัพธ์ที่ถอดความบทความของเธอได้อย่างถูกต้อง "โดยมีการระบุแหล่งที่มาน้อยที่สุด" และบางครั้งก็สร้างบทสรุปที่ไม่ถูกต้องสำหรับบทความด้วย Wired กล่าวว่าแชทบอตอ้างว่ารายงานอย่างไม่ถูกต้องเกี่ยวกับเจ้าหน้าที่ตำรวจแคลิฟอร์เนียรายหนึ่งที่ก่ออาชญากรรมในคดีเดียว

ในการให้สัมภาษณ์กับ Fast Company Aravind Srinivas ซีอีโอของ Perplexity บอกกับสื่อสิ่งพิมพ์ว่าบริษัทของเขา "ไม่เพิกเฉยต่อ Robot Exclusion Protocol แล้วโกหกเกี่ยวกับเรื่องนี้" อย่างไรก็ตาม นี่ไม่ได้หมายความว่าจะไม่ได้รับประโยชน์จากบอทที่เพิกเฉยต่อโปรโตคอล Srinivas อธิบายว่าบริษัทใช้บอทค้นหาจากบุคคลที่สามนอกเหนือจากของตัวเอง และบอทที่ระบุโดย Wired ก็เป็นหนึ่งในนั้น เมื่อ Fast Company ถามว่า Perplexity ได้บอกผู้ให้บริการรวบรวมข้อมูลให้หยุดรวบรวมข้อมูลไซต์ Wired หรือไม่ เขาตอบว่า "มันซับซ้อน"

Srinivas ปกป้องแนวทางปฏิบัติของบริษัท โดยบอกกับสื่อสิ่งพิมพ์ว่าโปรโตคอลการยกเว้นบอท "ไม่ใช่พื้นฐานทางกฎหมาย" และแนะนำว่าผู้เผยแพร่และบริษัทเช่นเขาอาจต้องสร้างความสัมพันธ์รูปแบบใหม่ นอกจากนี้เขายังบอกเป็นนัยว่า Wired จงใจใช้คำแนะนำเพื่อทำให้แชทบอท Perplexity ทำงานในลักษณะนั้น ดังนั้นผู้ใช้ทั่วไปจะไม่ได้รับผลลัพธ์แบบเดียวกัน เกี่ยวกับการค้นพบที่ไม่ถูกต้องซึ่งเครื่องมือสร้างขึ้น Srinivas กล่าวว่า "เราไม่เคยพูดว่าแชทบอท Perplexity นั้นไม่ถูกต้อง: 'เราไม่เคยบอกว่าเราไม่เคยมีอาการประสาทหลอน'

อ่าน:

Share
Julia Alexandrova

คอฟฟี่แมน. ช่างภาพ. ฉันเขียนเกี่ยวกับวิทยาศาสตร์และอวกาศ ฉันคิดว่ามันเร็วเกินไปที่เราจะได้พบกับมนุษย์ต่างดาว ฉันติดตามการพัฒนาหุ่นยนต์ ในกรณีที่ ...

เขียนความเห็น

ที่อยู่อีเมลของคุณจะไม่ถูกเผยแพร่ ช่องที่ต้องการถูกทำเครื่องหมาย*