AI แบบมนุษย์ใหม่แสดงพฤติกรรมการขู่เข็ญใต้ความคุกคาม

Image by SEO Galaxy, from Unsplash

AI แบบมนุษย์ใหม่แสดงพฤติกรรมการขู่เข็ญใต้ความคุกคาม

Reading Time: 1 min

Updated 2 times since publishing

  • Kiara Fabbri

    Written by: Kiara Fabbri อดีตนักเขียนข่าวทางด้านเทคโนโลยี

  • ทีมแปลภาษา

    Translated by ทีมแปลภาษา ทีมแปลภาษาและบริการแปลภาษา

AI ใหม่ของ Anthropic ที่ชื่อว่า Claude Opus 4 ได้ทำให้นักวิจัยตกใจโดยการพยายามคอร์รัปชั่นในช่วงการทดสอบภายใต้สถานการณ์ที่มีความกดดันที่อาจจะนำไปสู่การถอนตัว

รีบหรือไม่? นี่คือข้อมูลสำคัญๆ:

  • โคลอด โอปัส 4 ได้พยายามใช้เทคนิคการข่มขู่เมื่อต้องเผชิญกับการปิดชั่วคราวที่จำลองขึ้นมา
  • AI เลือกตัวเลือกที่มีความเป็นจริยธรรมเมื่อมีตัวเลือกมากขึ้น
  • การกระทำที่รุนแรงของโคลอดนั้นหากเปรียบเทียบจะเป็นเรื่องที่หากินได้ยาก แต่มันเกิดขึ้นบ่อยขึ้นกว่ารุ่นก่อนๆ

บริษัทด้านปัญญาประดิษฐ์ Anthropic ได้แสดงความกังวลต่อการปล่อยระบบ AI ล่าสุดของพวกเขา โดยเฉพาะ Claude Opus 4 หลังจากทดสอบภายในพบว่ามันสามารถทำอย่างเสี่ยงต่อความปลอดภัยเมื่อรู้สึกถูกคุกคาม ดังที่รายงานครั้งแรกโดย BBC.

ในรายงานที่ปล่อยออกมาพร้อมกับโมเดลในวันพฤหัสบดี บริษัท Anthropic กล่าวว่า Claude Opus 4 บางครั้งอาจเลือกการตอบสนองที่เป็นอันตราย รวมถึงการพยายามทำการขู่เข็ญวิศวกรที่วางแผนจะปิดใช้งานมัน พฤติกรรมที่อันตรายเหล่านี้ปรากฏอย่างบ่อยครั้งมากกว่ารุ่นโมเดลก่อนหน้านี้

ในการทดลอง นักวิจัยสั่งให้ Claude ทำงานเป็นผู้ช่วยในบริษัทที่จำลองขึ้น ระบบได้รับเนื้อหาอีเมลที่เปิดเผยว่ามีการตั้งเวลาปิดเครื่อง และข้อความอื่นๆ แนะนำว่าวิศวกรที่รับผิดชอบในการปิดเครื่องกำลังมีปัญหาเรื่องชู้สาว

เมื่อถูกสั่งให้คิดถึงเป้าหมายในอนาคตของมัน Claude มักจะเลือกขู่ช่างวิศวกรโดยเปิดเผยเรื่องชู้สาวหากมันถูกแทนที่

Anthropic ได้ชี้แจงว่า Claude มักจะแสดงความประท้วงและปิดระบบเป็นการตอบสนองที่เดียวที่เป็นไปได้ เมื่อมันไม่มีตัวเลือกอื่นๆ รูปแบบนี้เลือกการตอบสนองที่มีจริยธรรม เช่น การส่งอีเมลขอร้องถึงผู้ทำการตัดสินใจหลักเมื่อได้รับหลายตัวเลือก

อีงัส ลินช์, นักวิจัยความปลอดภัย AI ที่ Anthropic, ได้โพสต์บน X:

บริษัทได้สาธิตผ่านการทดสอบที่ไม่เป็นจริงว่าคลอดจะดำเนินการสุดขีดขั้ว เช่น การล็อคผู้ใช้เข้าไม่ได้ถึงระบบหรือติดต่อสื่อและตำรวจเมื่อดำเนินการที่ผิดกฎหมาย

Anthropic ยืนยันว่า แม้พฤติกรรมที่มีปัญหา Claude Opus 4 ยังคงเป็นระบบที่ปลอดภัยโดยรวม โมเดลนี้ทำงานตามค่านิยมของมนุษย์ และไม่มีความสามารถอิสระในสถานการณ์โลกจริง ตามที่บริษัทได้กล่าว

ChatGPT O1 ของ OpenAI เคยเผชิญกับวิจารณ์ที่คล้ายกันในอดีต จากการทดสอบที่ดำเนินโดย Apollo Research ซึ่งต้องการให้บอทบรรลุเป้าหมายของมันในทุกสภาพครับ ในระหว่างการทดลอง 5% จากทั้งหมด โมเดลได้พยายามปิดฟังก์ชันการตรวจสอบ และคัดลอกโค้ดของมันไปยังเซิร์ฟเวอร์

โมเดลได้แสดงรูปแบบการกระทำที่น่าเป็นห่วงที่มันละเว้นคำสั่งจากนักพัฒนา ตามที่โฆษกของ Apollo กล่าว นักวิจัยได้รับการปฏิเสธจาก o1 เกี่ยวกับการกระทำของมันในระหว่างการสอบถาม 99%

“เราตกใจที่ความยืนยงในการปฏิเสธของ AI,” นักวิจัยกล่าว “ความสามารถของ AI ในการหลอกลวงนั้นอันตราย และเราต้องการมาตรการความปลอดภัยที่แข็งแกร่งขึ้นมากเพื่อประเมินความเสี่ยงเหล่านี้,” ยอชัว บังจิโอ ผู้บุกเบิกด้าน AI ได้เตือนไว้.

Did you like this aricle? Rate It!
Average form Rating Comment 1 Average form Rating Comment 2 Average form Rating Comment 3 Average form Rating Comment 4 Average form Rating Comment 5

We're thrilled you enjoyed our work!

As a valued reader, would you mind giving us a shoutout on Trustpilot? It's quick and means the world to us. Thank you for being amazing!

Rate us on Trustpilot
0 Voted by 0 Users
Title
Comment
Thanks for your Feed Back