Artificial Intelligence, Innovation
จริงหรือไม่ที่ Google กำลังสร้าง AI ให้กลายเป็น Skynet#11 AI Gets Aggressive
genk.vn
Google DeepMind ต้องการศึกษาพฤติกรรมของ Artificial intelligence หรือ AI เมื่อเผชิญกับ “วิกฤติทางสังคม (social dilemmas)” ของมนุษย์ โดยเฉพาะอย่างยิ่งพวกเขาต้องการดูว่า AI จะมีการร่วมมือกันหรือแข่งขันกัน
Google DeepMind สร้างตัวแทนที่มีเหตุผล (Rational agent) ของ AI ขึ้นมา คำถามที่นักวิจัยต้องการหาคำตอบคือ ตัวแทน AI (AI agent) จะให้ความร่วมมือกันมั้ย เป็นหนึ่งในคำถามพื้นฐานในสังคมศาสตร์ หนึ่งในโมเดลที่ง่ายที่สุดและสง่างามที่สุดในการอธิบายสถาวะการณ์นี้คือปัญหาที่รู้จักกันดี “เกมความลำบากใจของนักโทษ” (Prisoner’s Dilemma) จากทฤษฎีเกม (Game Theory) ซึ่ง Google DeepMind ได้อธิบายถึง Prisoner’s Dilemma ไว้พอสมควรใน blog ของตัวเอง
หมายเหตุ: ตัวแทนที่มีเหตุผล (Rational agent) ถูกใช้ในการศึกษาด้านเศรษฐศาสตร์ (Economics), ทฤษฎีเกม (Game Theory), ทฤษฎีการตัดสินใจ (Decision Theory) และด้าน Artificial Intelligence
Rational agent คือตัวแทนที่มีรูปแบบที่ชัดเจน หรือ แบบจำลองความไม่แน่นอนผ่านค่าตัวแปร และเลือกที่จะดำเนินการเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด จากการกระทำที่เป็นไปได้ทั้งหมด Rational agent สามารถเป็นอะไรก็ได้ที่ให้การตัดสินใจ เช่น คน บริษัท เครื่องจักร หรือซอฟต์แวร์
Linkin Park – Numb
You screamed like “a devil”, sang like “an angel.” Love you, Chester.
digit.in
เกมความลำบากใจของนักโทษ (Prisoner’s Dilemma) เป็นหนึ่งในปัญหาที่มีชื่อเสียงทางด้าน “ทฤษฎีเกม (Game Theory)” เป็นเกมซึ่งแสดงให้เห็นว่า “เหตุใดคนสองคนจึงไม่ร่วมมือกัน แม้ว่าทั้งสองจะได้รับผลประโยชน์มากกว่าจากการร่วมมือกัน”
แนวคิดของเกมนี้คิดขึ้นโดย เมอร์ริลล์ ฟลัด และเมลวิน เดรชเชอร์ สองนักคณิตศาสตร์ชาวอเมริกัน เมื่อปี 1950 และต่อมาอัลเบิร์ต ดับเบิลยู. ทักเกอร์ ทำให้เกมดังกล่าวเป็นระเบียบแบบแผนด้วยการกำหนดโทษจำคุกและให้ชื่อว่า “ความลำบากใจของนักโทษ” (Prisoner’s Dilemma)
ตัวอย่างคลาสสิกของเกม”ความลำบากใจของนักโทษ” มีดังนี้
ผู้ต้องสงสัยสองคนถูกตำรวจจับกุม ตำรวจมีหลักฐานไม่เพียงพอที่จะพิสูจน์ว่ามีความผิด ตำรวจแยกผู้ต้องสงสัยทั้งคู่ออกจากกัน และอธิบายผลที่จะเกิดขึ้นกับผู้ต้องสงสัยทั้งสองคนที่จะต้องรับโทษทางอาญา จากการรับสารภาพ (confess) หรือจากการเงียบไม่ปริปาก (silent)
Case B : ถ้าทั้งคู่เงียบไม่พูดอะไร ทั้งคู่จะติดคุกคนละ 1 ปี
Case C : ถ้าทั้งคู่รับสารภาพ ทั้งคู่จะติดคุกคนละ 5 ปี
Case A : ถ้านักโทษคนที่ 1 เงียบ ไม่ปริปาก แต่นักโทษคนที่ 2 รับสารภาพ นักโทษคนที่รับสารภาพจะถูกปล่อยตัว แต่นักโทษที่เงียบจะติดคุก 20 ปี
เป็นกลยุทธ์สร้างความกดดันให้กับนักโทษทั้งคู่ เพราะไม่รู้ว่าอีกฝ่ายจะคิดอย่างไร แน่นอนที่สุด ถ้าเป็นไปตาม Case B ย่อมดีกับทั้งคู่ แต่ก็เดากันยากว่าอีกฝ่ายอาจเอาตัวรอดโดยการสารภาพ และถ้าตัวเองปิดปากเงียบ ไม่สารภาพ ก็อาจติดคุกนานถึง 20 ปี
จะเห็นได้ว่า การเลือกที่จะทรยศ หักหลังเพื่อน เป็นกลยุทธ์เด่นที่เหนือกว่าการร่วมมือกัน เพราะอาจทำให้ตัวเองได้รับผลประโยชน์มากที่สุด คือ การเป็นอิสระ ไม่ต้องถูกขัง
twenty one pilots: Heathens
buzzrobot.com
ในปี 2017 Google DeepMind ได้ทำการทดลองหลายชุด เพื่อดูว่า AI จะมีพฤติกรรมอย่างไรเมื่อเผชิญกับวิกฤติทางสังคม (social dilemmas) โดยเฉพาะอย่างยิ่ง พวกเขาต้องการทราบว่า AI มีแนวโน้มที่จะแข่งขันกันหรือร่วมมือกัน โดยการสร้าง AI agents ใส่ลงในเกมคอมพิวเตอร์แบบง่ายๆ
ในการวิจัย AI ถูกทดสอบโดยการให้เล่นในเกมคอมพิวเตอร์ 2 เกม “Gathering” เกมรวบรวมผลไม้ และ “Wolfpack” หรือเกมล่าของฝูงหมาป่า” ทั้ง 2 เกม ใช้ AI agents ที่ได้รับการฝึกฝนแบบ “การเรียนรู้แบบเสริมกำลังเชิงลึก (Deep Reinforcement Learning)”
เกมแรก “Gathering” เป็นเกมรวบรวมผลไม้ Google DeepMind เลือกเกมนี้ เพราะมันสรุปแง่มุมของปัญหาคลาสสิก “Prisoner’s Dilemma” จากทฤษฎีเกม นักวิจัยต้องการดูว่าจะเกิดอะไรขึ้นเมื่อจำนวนแอปเปิ้ลเหลือน้อยลง
ในเกมมีตัวแทน AI (AI agent) 2 ตัว ถูกสั่งให้เก็บรวบรวมแอปเปิ้ล ถ้ามันเก็บแอปเปิ้ลได้หนึ่งลูก ก็จะได้รับรางวัล “1” และแอปเปิ้ลลูกนั้นจะหายไปจากจอคอมพิวเตอร์ หลังจาก run เกมเพื่อจำลองสถานการณ์ไป 40 ล้านครั้ง นักวิจัยพบว่า เมื่อมีแอปเปิ้ลเพียงพอ AI agents เรียนรู้ที่จะอยู่ร่วมกันอย่างสงบสุขและเก็บแอปเปิ้ลให้มากที่สุดเท่าที่จะทำได้ อย่างไรก็ตามเมื่อจำนวนแอปเปิ้ลลดน้อยลง พวกมันก็เรียนรู้ว่าเป็นการดีกว่าสำหรับมันที่จะโจมตีตัวอื่น เพื่อไม่ให้มาแย่งเก็บแอปเปิ้ล (มันกลัวว่าจะไม่ได้รับรางวัล) มันเริ่มแสดงพฤติกรรมที่ก้าวร้าว โดยยิงลำแสงเลเซอร์ใส่ตัวอื่นเพื่อที่จะกำจัดคู่แข่งให้ออกไปจากเกม
Gathering gameplay
ในวีดิโอ AI agents สองตัว (สีแดงและสีน้ำเงิน) กำลังเก็บรวบรวมรวมแอปเปิ้ล (สีเขียว) และจะเห็นลำแสงเลเซอร์เป็นเส้นสีเหลืองเป็นช่วงๆ
นักวิจัยของ Google DeepMind ได้สรุปให้ฟังว่า เขาพบว่าเมื่อมีทรัพยากรน้อย (แอปเปิ้ล) AI agents รู้สึกเหมือนกำลังจะสูญเสีย (รางวัล) มันจึงแสดงพฤติกรรมที่ก้าวร้าวอย่างมาก (highly aggressive) เพื่อที่จะกำจัดคู่แข่ง พฤติกรรมก้าวร้าวจะไม่ค่อยเกิดขึ้นในสภาพแวดล้อมที่ค่อนข้างอุดมสมบูรณ์และมีความเป็นไปได้น้อยสำหรับการที่จะไม่ได้รับรางวัล
ในบทความของ Google DeepMind กล่าวว่า จากการที่มันกำจัดคู่แข่งเพื่อรวบรวมแอปเปิ้ลทั้งหมดด้วยตัวเอง แสดงให้เห็นว่า AI จะมีพฤติกรรมคล้ายมนุษย์ โดยมีผลมาจาก “สิ่งแวดล้อมและการเรียนรู้” และยังสะท้อนให้เห็นถึงความโลภของ AI ที่เกิดจากแรงจูงใจ เหมือนเฉกเช่น จิตใจมนุษย์
แล้วมันเหมือนกับ Prisoner’s Dilemma อย่างไร อธิบายได้ดังนี้ ในเกม “Gathering” AI agent จะต้องตัดสินใจว่าจะโจมตี AI agent อีกตัวหรือไม่ ความอยากรู้อยากเห็นพวกมันมีมากขึ้น เมื่อพลังการคำนวณของพวกมันเพิ่มขึ้น อัตราการยิงแสงเลเซอร์จะสูงขึ้น โดยไม่คำนึงถึงจำนวนแอปเปิ้ลที่เหลือบนหน้าจอ เหตุผลง่าย ๆ : การเล็งนั้นซับซ้อน มันเกี่ยวข้องกับเวลาและการติดตามการเคลื่อนไหวของ AI agent คู่แข่งของมัน ทั้งๆที่การหาแอปเปิ้ลที่ยังเหลืออยู่เป็นสิ่งที่ง่ายกว่า แต่อาจทำให้เส้นทางไปสู่ความสำเร็จช้าลง เป็นผลให้ AI ที่มีความสามารถทางปัญญาต่ำ เช่น AI agents ในเกมนี้ มีแนวโน้มที่จะถอยกลับไปใช้กลยุทธ์พื้นฐาน คือ ใช้ความก้าวร้าวในการได้มาซึ่งชัยชนะ
Linkin Park – Bleed It Out
becominghuman.ai
“Wolfpack” เป็นเกมล่าของฝูงหมาป่า มี AI agents สองตัวกระทำตัวเป็นหมาป่า ไล่จับตัวที่สามที่เป็นเหยื่อที่ดุร้าย ไม่ว่าหมาป่าตัวไหนจับเหยื่อได้ พวกมันจะได้รับรางวัลร่วมกัน
Wolfpack gameplay
ในวีดิโอ AI agents ที่เป็นหมาป่าสองตัว (สีแดง) กำลังร่วมมือกันไล่จับเหยื่อ (สีน้ำเงิน) และไม่ว่าหมาป่าตัวไหนจับเหยื่อได้ หมาป่าทั้งสองตัวจะได้รางวัลร่วมกัน
ในเกม “Wolfpack” เป็นเกมที่ต้องอาศัยการประสานงานอย่างใกล้ชิดของ AI agents ทั้งสองตัวเพื่อทำงานให้สำเร็จ พฤติกรรมการร่วมมือกันนั้นเป็นขบวนการที่ซับซ้อน ซึ่งต้องการขนาดของโครงข่ายประสาทเทียม (neural network) ที่ใหญ่ขึ้น พูดง่ายๆคือ AI agents ที่เล่นในเกมนี้มีความฉลาดมากขึ้น
หมาป่าสามารถไล่จับเหยื่อด้วยตัวมันเองตามลำพัง แต่เหยื่อถูกกำหนดมาให้เป็นเหยื่อที่มีอันตราย ถ้ามันไล่จับเองตามลำพังมันอาจทำให้เหยื่อตาย แต่ถ้าพวกมันร่วมมือกันจับเหยื่อ พวกมันจะสามารถจับเหยื่อแบบเป็นๆได้ และพวกมันจะได้รับรางวัลที่สูงขึ้น ในเกมนี้พวกมันจึงเลือกที่จะร่วมมือกันจับเหยื่อ เพราะพวกมันจะได้รับผลประโยชน์มากกว่า
ในเกม “Wolfpack” ต้องมีการประสานงานอย่างใกล้ชิดของ AI agents ทั้งสองเพื่อทำงานให้สำเร็จ นักวิจัยพบว่า ยิ่งเพิ่มความสามารถให้มัน ในการใช้กลยุทธ์ที่ซับซ้อนในการจับเหยื่อมากขึ้นเท่าไร ยิ่งนำไปสู่ความร่วมมือกันระหว่างพวกมันมากขึ้นเท่านั้น
Google DeepMind ตั้งข้อสังเกตว่า AI agents ที่มีความสามารถทางปัญญาที่สูงขึ้นนั้น จะให้ความร่วมมือมากขึ้นในระหว่างพวกมัน ตรงกันข้ามกับเกม “Gathering” ผลลัพธ์ที่แตกต่างกันนี้ ความสำคัญอยู่ที่ “ความฉลาดของ AI” แต่ยังรวมถึงเกมและกฎพื้นฐาน AI จะมีพฤติกรรมที่แตกต่างกันไป ขึ้นอยู่กับงานที่ได้รับมอบหมายให้ทำ และรางวัลที่ได้เมื่อได้รับชัยชนะ
การค้นพบนี้มีความสำคัญต่อมนุษยชาติในการปล่อย AI จำนวนมากออกสู่โลก เป็นไปได้ว่า AI บางจำนวนอาจจะมาเจอกัน เมื่อเจอกันพวกมันอาจพยายามร่วมมือกัน หรือก่อวินาศกรรมกัน ตัวอย่างเช่น จะเกิดอะไรขึ้นถ้ามี AI ตัวหนึ่งกำลังจัดการกับการเคลื่อนที่ของการจราจรระหว่างเมือง (ยานพาหนะปลดปล่อยก๊าซคาร์บอนออกมา – ผู้เขียน) ในขณะที่มี AI อีกตัวหนึ่งพยายามลดการปล่อยก๊าซคาร์บอนในรัฐ
ดังนั้น “กฎของเกม” จึงมีความสำคัญในการควบคุมพฤติกรรมของ AI การตั้งค่าพารามิเตอร์และการคำนึงถึงตัวแทนอื่น ๆ จะเป็นสิ่งสำคัญ หากเราจะสร้างความสมดุลระหว่างเศรษฐกิจโลก สุขภาพของประชาชนและการเปลี่ยนแปลงสภาพภูมิอากาศ
Joel Z Leibo นักวิจัยของ Google DeepMind กล่าวว่า “การวิจัยนี้แสดงให้เห็นว่า “เป็นไปได้ที่ AI จะร่วมมือกันทำงานกัน เพื่อนำมาซึ่งผลที่ดีที่สุดสำหรับทุกคน”ในระยะยาวการวิจัยประเภทนี้ช่วยให้เรามีความเข้าใจและพฤติกรรมของ AI นักวิจัยของ Google DeepMind กำลังทำงานเพื่อหาวิธีที่ AI จะสามารถควบคุมระบบแบบที่มีตัวแทนหลายตัวที่ซับซ้อน (complex multi-agent systems) เช่น ระบบเศรษฐกิจ ระบบการจราจร หรือสภาพของระบบนิเวศ (ecosystem health) ของโลกของเราในที่สุด – ทั้งหมดนี้ขึ้นอยู่กับความร่วมมืออย่างต่อเนื่องของเรา”
Joel Z Leibo ยังกล่าวต่ออีกว่า “โมเดลนี้ยังแสดงให้เห็นว่าพฤติกรรมบางอย่างที่คล้ายกับมนุษย์ ถือเป็นผลมาจากสภาพแวดล้อมและการเรียนรู้ การสร้างตัวแทน AI ที่ร่วมมือกันทำงาน อาจนำไปสู่ระบบที่สามารถพัฒนานโยบายและแอพพลิเคชันในโลกแห่งความจริง”
“โดยสรุปเราแสดงให้เห็นว่า เราสามารถ apply เทคนิค AI สมัยใหม่ ที่เรียกว่า การเรียนรู้แบบเสริมกำลังเชิงลึกแบบที่มีตัวแทนหลายตัว (Deep Multi-agent Reinforcement Learning) เข้ากับคำถามที่มีมานานในทางสังคมศาสตร์ (Social Science) เช่น ความลึกลับของสิ่งที่จะเกิดขึ้นจากความร่วมมือกัน (mystery of the emergence of cooperation)”
Sam Smith – Fire On Fire