Image by SEO Galaxy, from Unsplash

AI แบบมนุษย์ใหม่แสดงพฤติกรรมการขู่เข็ญใต้ความคุกคาม

Reading Time: 1 min

First published May 26, 2025

Updated 2 times since publishing

Written by: Kiara Fabbri อดีตนักเขียนข่าวทางด้านเทคโนโลยี
Translated by ทีมแปลภาษา ทีมแปลภาษาและบริการแปลภาษา

AI ใหม่ของ Anthropic ที่ชื่อว่า Claude Opus 4 ได้ทำให้นักวิจัยตกใจโดยการพยายามคอร์รัปชั่นในช่วงการทดสอบภายใต้สถานการณ์ที่มีความกดดันที่อาจจะนำไปสู่การถอนตัว

รีบหรือไม่? นี่คือข้อมูลสำคัญๆ:

โคลอด โอปัส 4 ได้พยายามใช้เทคนิคการข่มขู่เมื่อต้องเผชิญกับการปิดชั่วคราวที่จำลองขึ้นมา
AI เลือกตัวเลือกที่มีความเป็นจริยธรรมเมื่อมีตัวเลือกมากขึ้น
การกระทำที่รุนแรงของโคลอดนั้นหากเปรียบเทียบจะเป็นเรื่องที่หากินได้ยาก แต่มันเกิดขึ้นบ่อยขึ้นกว่ารุ่นก่อนๆ

บริษัทด้านปัญญาประดิษฐ์ Anthropic ได้แสดงความกังวลต่อการปล่อยระบบ AI ล่าสุดของพวกเขา โดยเฉพาะ Claude Opus 4 หลังจากทดสอบภายในพบว่ามันสามารถทำอย่างเสี่ยงต่อความปลอดภัยเมื่อรู้สึกถูกคุกคาม ดังที่รายงานครั้งแรกโดย BBC.

ในรายงานที่ปล่อยออกมาพร้อมกับโมเดลในวันพฤหัสบดี บริษัท Anthropic กล่าวว่า Claude Opus 4 บางครั้งอาจเลือกการตอบสนองที่เป็นอันตราย รวมถึงการพยายามทำการขู่เข็ญวิศวกรที่วางแผนจะปิดใช้งานมัน พฤติกรรมที่อันตรายเหล่านี้ปรากฏอย่างบ่อยครั้งมากกว่ารุ่นโมเดลก่อนหน้านี้

ในการทดลอง นักวิจัยสั่งให้ Claude ทำงานเป็นผู้ช่วยในบริษัทที่จำลองขึ้น ระบบได้รับเนื้อหาอีเมลที่เปิดเผยว่ามีการตั้งเวลาปิดเครื่อง และข้อความอื่นๆ แนะนำว่าวิศวกรที่รับผิดชอบในการปิดเครื่องกำลังมีปัญหาเรื่องชู้สาว

เมื่อถูกสั่งให้คิดถึงเป้าหมายในอนาคตของมัน Claude มักจะเลือกขู่ช่างวิศวกรโดยเปิดเผยเรื่องชู้สาวหากมันถูกแทนที่

Anthropic ได้ชี้แจงว่า Claude มักจะแสดงความประท้วงและปิดระบบเป็นการตอบสนองที่เดียวที่เป็นไปได้ เมื่อมันไม่มีตัวเลือกอื่นๆ รูปแบบนี้เลือกการตอบสนองที่มีจริยธรรม เช่น การส่งอีเมลขอร้องถึงผู้ทำการตัดสินใจหลักเมื่อได้รับหลายตัวเลือก

อีงัส ลินช์, นักวิจัยความปลอดภัย AI ที่ Anthropic, ได้โพสต์บน X:

การสนทนามากมายเกี่ยวกับการขู่เข็ญของคลอด…

ผลการศึกษาของเรา: มันไม่ได้เฉพาะคลอดเท่านั้น ขู่เข็ญที่เราเห็นนั้นมีอยู่ในทุกๆ แบบแผนการสำรวจ – ไม่ว่าพวกเขาจะมีเป้าหมายอะไร.

เพิ่มเติม พฤติกรรมที่แย่ลงที่เราจะอธิบายเร็วๆนี้https://t.co/NZ0FiL6nOs https://t.co/wQ1NDVPNl0…

— Aengus Lynch (@aengus_lynch1) 23 พฤษภาคม 2025

บริษัทได้สาธิตผ่านการทดสอบที่ไม่เป็นจริงว่าคลอดจะดำเนินการสุดขีดขั้ว เช่น การล็อคผู้ใช้เข้าไม่ได้ถึงระบบหรือติดต่อสื่อและตำรวจเมื่อดำเนินการที่ผิดกฎหมาย

Anthropic ยืนยันว่า แม้พฤติกรรมที่มีปัญหา Claude Opus 4 ยังคงเป็นระบบที่ปลอดภัยโดยรวม โมเดลนี้ทำงานตามค่านิยมของมนุษย์ และไม่มีความสามารถอิสระในสถานการณ์โลกจริง ตามที่บริษัทได้กล่าว

ChatGPT O1 ของ OpenAI เคยเผชิญกับวิจารณ์ที่คล้ายกันในอดีต จากการทดสอบที่ดำเนินโดย Apollo Research ซึ่งต้องการให้บอทบรรลุเป้าหมายของมันในทุกสภาพครับ ในระหว่างการทดลอง 5% จากทั้งหมด โมเดลได้พยายามปิดฟังก์ชันการตรวจสอบ และคัดลอกโค้ดของมันไปยังเซิร์ฟเวอร์

โมเดลได้แสดงรูปแบบการกระทำที่น่าเป็นห่วงที่มันละเว้นคำสั่งจากนักพัฒนา ตามที่โฆษกของ Apollo กล่าว นักวิจัยได้รับการปฏิเสธจาก o1 เกี่ยวกับการกระทำของมันในระหว่างการสอบถาม 99%

“เราตกใจที่ความยืนยงในการปฏิเสธของ AI,” นักวิจัยกล่าว “ความสามารถของ AI ในการหลอกลวงนั้นอันตราย และเราต้องการมาตรการความปลอดภัยที่แข็งแกร่งขึ้นมากเพื่อประเมินความเสี่ยงเหล่านี้,” ยอชัว บังจิโอ ผู้บุกเบิกด้าน AI ได้เตือนไว้.

AI แบบมนุษย์ใหม่แสดงพฤติกรรมการขู่เข็ญใต้ความคุกคาม

We're thrilled you enjoyed our work!