ไพ่บาคาร่า

USC ในการประชุม ICML ’22 – USC Viterbi

การประชุมระหว่างประเทศเกี่ยวกับการเรียนรู้ของเครื่อง (ICML) ซึ่งเป็นสวรรค์สำหรับนวัตกรรมในการเรียนรู้ของเครื่อง ภาพถ่าย/iStock.

นักศึกษาและคณาจารย์ของ USC กำลังนำเสนอผลงานวิจัยล่าสุดของพวกเขาในการประชุมนานาชาติเรื่องการเรียนรู้ของเครื่อง (ICML) วันที่ 17-21 กรกฎาคม สวรรค์สำหรับนวัตกรรมในการเรียนรู้ของเครื่องและการประชุมวิชาการชั้นนำในสาขานี้ ทุกปี การประชุมจะดึงดูดสิ่งตีพิมพ์จากนักวิจัยทั้งในระดับอุตสาหกรรมและระดับวิทยาลัยในสาขาปัญญาประดิษฐ์นี้โดยเฉพาะ ซึ่งครอบคลุมการใช้งานที่มีศักยภาพในทุกสิ่งตั้งแต่ชีววิทยาไปจนถึงวิทยาการหุ่นยนต์

งานในปีนี้ที่เมืองบัลติมอร์ถือเป็น ICML ครั้งที่ 39 และจะมีบทความเก้าฉบับที่ร่วมเขียนโดยนักศึกษาหรืออาจารย์ของ USC โดยร่วมมือกับบริษัทต่างๆ เช่น Google, Amazon และ Facebook เอกสารนี้มีหัวข้อที่หลากหลาย เช่น ทฤษฎีเกม การเรียนรู้ภาษา และการทำแผนที่เครือข่ายประสาท

เราขอให้ผู้เขียนสรุปงานวิจัยและผลกระทบที่อาจเกิดขึ้น (คำตอบได้รับการแก้ไขเพื่อความชัดเจน)

Kernelized Multiplicative Weights สำหรับเกม 0/1-Polyhedral: เชื่อมช่องว่างระหว่างการเรียนรู้ในรูปแบบที่กว้างขวางและเกมรูปแบบปกติ

Gabriele Farina (มหาวิทยาลัย Carnegie Mellon) · Chung-Wei Lee (มหาวิทยาลัย Southern California) · Haipeng Luo (มหาวิทยาลัย Southern California) · Christian Kroer (มหาวิทยาลัยโคลัมเบีย)

“เราพิจารณาแก้ปัญหาเกมที่มีรูปแบบครอบคลุม (EFG) ซึ่งเป็นเฟรมเวิร์กทั่วไปที่สร้างโมเดลเกมกลยุทธ์มากมาย รวมถึงเกมไพ่ เช่น Texas Hold ’em หรือ Blackjack และเกมกระดาน เช่น Monopoly หรือ Chess แอปพลิเคชั่นหลักคือการสร้าง AI ให้ดีขึ้นด้วยการเล่นเกมเหล่านี้ ในบทความนี้ เราขอเสนอ Kernelized Optimistic Multiplicative Weights Update (KOMWU) ซึ่งเป็นอัลกอริธึมแรกที่มีการรับประกันตามทฤษฎีที่สำคัญไปพร้อม ๆ กัน รวมถึงการบรรจบกันที่ดีขึ้น การพึ่งพาขนาดของเกมน้อยลง และ ‘เสียใจ’ ที่เกือบจะเหมาะสมที่สุดแล้ว” Chung- เว่ย.

การเรียนรู้กระบวนการตัดสินใจมาร์คอฟรางวัลเฉลี่ยขอบฟ้าไม่มีที่สิ้นสุดด้วยข้อจำกัด

Liyu Chen (มหาวิทยาลัย Southern California) · Rahul Jain (มหาวิทยาลัย Southern California) · Haipeng Luo (มหาวิทยาลัย Southern California)

“บทความนี้ศึกษาวิธีการเรียนรู้นโยบายที่ให้ผลตอบแทนเฉลี่ยระยะยาวสูงสุดในขณะที่ตอบสนองข้อจำกัดบางประการด้วย Reinforcement Learning (RL) ตัวอย่างเช่น ในการจัดการลอจิสติกส์ คุณต้องการลดต้นทุนการขนส่งในขณะที่ปฏิบัติตามกฎจราจรและตรงตามกำหนดเวลาทั้งหมด เราขอเสนออัลกอริธึมใหม่ที่บรรลุผลการเรียนรู้ที่ดีขึ้นเมื่อเทียบกับงานที่มีอยู่ (วัดจากแนวคิดที่เรียกว่าความเสียใจ) นอกจากนี้เรายังเป็นคนแรกที่ศึกษาการตั้งค่าทั่วไปที่เรียกว่าสมมติฐานการสื่อสารที่อ่อนแอในทิศทางนี้ และเสนอชุดอัลกอริธึมชุดแรกสำหรับการตั้งค่าทั่วไปมากกว่านี้” หลิว เฉิน

ปรับปรุงอัลกอริทึม No-Regret สำหรับเส้นทาง Stochastic Shortest ด้วย Linear MDP

Liyu Chen (มหาวิทยาลัย Southern California) · Rahul Jain (มหาวิทยาลัย Southern California) · Haipeng Luo (มหาวิทยาลัย Southern California)

“บทความนี้ศึกษาวิธีแก้ปัญหางานที่บรรลุเป้าหมาย เช่น ระบบนำทางในรถยนต์หรือการจัดการหุ่นยนต์ด้วย Reinforcement Learning (RL) เมื่อมีการกำหนดโครงสร้างเชิงเส้นบางประเภทกับสิ่งแวดล้อม เป้าหมายคือการใช้ประโยชน์จากโครงสร้างนี้เพื่อให้การเรียนรู้เป็นไปได้ การศึกษาการตั้งค่านี้เป็นขั้นตอนสำคัญในการทำความเข้าใจการเรียนรู้การเสริมแรงด้วยการประมาณฟังก์ชัน (เช่น โครงข่ายประสาทส่วนลึก) เราเสนออัลกอริธึมสามประการในทิศทางนี้ อัลกอริธึมแรกบรรลุประสิทธิภาพการเรียนรู้ที่ล้ำสมัย (วัดโดยแนวคิดที่เรียกว่าความเสียใจ) และมีประสิทธิภาพในการคำนวณ อัลกอริธึมที่สองและสามให้การรับประกันความเสียใจในรูปแบบอื่นซึ่งเป็นที่ต้องการสำหรับบางงาน หลิว เฉิน

การศึกษาอย่างเข้มงวดของวิธีการไล่ระดับแบบบูรณาการและการขยายไปยังการระบุแหล่งที่มาของเซลล์ประสาทภายใน

Daniel Lundstrom (มหาวิทยาลัย Southern California) · Tianjian Huang (มหาวิทยาลัย Southern California) · Meisam Razaviyayn (มหาวิทยาลัย Southern California, ISE)

“โครงข่ายประสาทลึกเป็นเครื่องมือที่มีประสิทธิภาพมากในการทำนาย ตัวอย่างเช่น พวกเขาสามารถช่วยให้แพทย์อ่านภาพสแกนทางการแพทย์หรือช่วยให้รถยนต์ที่ขับด้วยตนเองสามารถตีความสิ่งที่กล้องภายนอกมองเห็นได้ การทำงานภายในของโมเดลเหล่านี้ซับซ้อนมากจนผู้เชี่ยวชาญอธิบายได้ยาก และเครื่องมือต่างๆ ได้รับการพัฒนาเพื่ออธิบายวิธีการทำงานของโครงข่ายประสาทเทียม บทความของเราเป็นการวิเคราะห์เชิงลึกของวิธีการที่เป็นที่นิยมอย่าง Integrated Gradients ซึ่งเป็นตัวอธิบายแบบจำลองที่อ้างว่าเป็นวิธีเดียวที่จะตอบสนองชุดคุณสมบัติที่ต้องการ

เราแสดงให้เห็นว่าการสร้างเอกลักษณ์ของ Integrated Gradients นั้นยากกว่าที่คาดไว้ก่อนหน้านี้ และพยายามสร้างมันขึ้นมาโดยแนะนำคุณสมบัติหลักอื่น จากนั้นพิสูจน์ผลลัพธ์หลักด้วยคุณสมบัตินั้น นอกจากนี้เรายังแนะนำอัลกอริทึมเพื่อช่วยให้ผู้เชี่ยวชาญตีความบทบาทของส่วนประกอบภายในหรือเซลล์ประสาท ด้วยอัลกอริธึมนี้ ผู้เชี่ยวชาญสามารถเข้าใจได้ว่าส่วนใดของโมเดลตอบสนองต่อล้อเมื่อโมเดลระบุภาพของรถยนต์ เป็นต้น” แดเนียล ลุนด์สตรอม

การเรียนรู้ที่ไม่เสียใจในเกมผลรวมศูนย์ที่เปลี่ยนแปลงตามเวลา

Mengxiao Zhang (มหาวิทยาลัย Southern California) · Peng Zhao (มหาวิทยาลัยหนานจิง) · Haipeng Luo (มหาวิทยาลัย Southern California) · Zhi-Hua Zhou (มหาวิทยาลัยหนานจิง

“การเรียนรู้จากการเล่นซ้ำในเกมผลรวมศูนย์สำหรับผู้เล่นสองคนที่ตายตัวเป็นปัญหาคลาสสิกในทฤษฎีเกมและการเรียนรู้ออนไลน์ อย่างไรก็ตาม ในทางปฏิบัติ เกมนี้ไม่ได้รับการแก้ไขแต่จะเปลี่ยนแปลงไปตามกาลเวลาเนื่องจากสภาพแวดล้อมที่เปลี่ยนแปลงและกลยุทธ์ของผู้เล่นเปลี่ยนไป ด้วยแรงจูงใจจากสิ่งนี้ เราจึงมุ่งเน้นไปที่รูปแบบที่เป็นธรรมชาติ แต่ยังไม่ได้รับการสำรวจของปัญหานี้ ซึ่งเมทริกซ์ผลตอบแทนของเกมจะเปลี่ยนแปลงไปตามกาลเวลา อาจเป็นในลักษณะที่เป็นปฏิปักษ์

ก่อนอื่นเราจะหารือกันถึงมาตรการประสิทธิภาพที่เหมาะสมสำหรับการเรียนรู้ในเกมที่ไม่อยู่กับที่ และเสนอมาตรการที่เป็นธรรมชาติและสมเหตุสมผล 3 ประการสำหรับปัญหานี้ จากนั้น เราออกแบบอัลกอริธึมที่ปราศจากพารามิเตอร์ใหม่ที่รับประกันผลดีพร้อมๆ กันภายใต้มาตรการประสิทธิภาพที่แตกต่างกันสามแบบ การค้ำประกันเหล่านี้สามารถปรับให้เข้ากับการวัดค่าที่ไม่คงที่ของเมทริกซ์ผลตอบแทน และที่สำคัญ กู้คืนผลลัพธ์ที่รู้จักกันดีที่สุดเมื่อเมทริกซ์ผลตอบแทนได้รับการแก้ไข ผลลัพธ์เชิงประจักษ์ช่วยตรวจสอบประสิทธิภาพของอัลกอริทึมของเราเพิ่มเติม เหมิงเซียว จาง

UniREx: กรอบการเรียนรู้แบบครบวงจรสำหรับการดึงเหตุผลแบบจำลองภาษา

Aaron Chan (มหาวิทยาลัยเซาเทิร์นแคลิฟอร์เนีย) · Maziar Sanjabi (Meta AI) · Lambert Mathias (Facebook) · Liang Tan (Facebook) · Shaoliang Nie (Facebook) · Xiaochang Peng · Xiang Ren (มหาวิทยาลัย Southern California) · Hamed Firooz (Facebook ) )

“แบบจำลองภาษาประสาท (NLM) ซึ่งทำการตัดสินใจที่ซับซ้อนโดยอิงจากข้อความภาษาธรรมชาติ เป็นกระดูกสันหลังของระบบ AI สมัยใหม่จำนวนมาก อย่างไรก็ตาม กระบวนการให้เหตุผลของ NLM นั้นไม่ชัดเจน ทำให้ยากต่อการอธิบายการตัดสินใจของ NLM ต่อมนุษย์ การขาดความสามารถในการอธิบายนี้ยังทำให้มนุษย์สามารถดีบักระบบ AI ได้ยากเมื่อพวกมันทำงานที่มีปัญหา เพื่อแก้ไขปัญหานี้ เอกสาร ICML ของเราได้เสนอ UNIREX ซึ่งเป็นกรอบการทำงานแบบรวมศูนย์สำหรับการดึงเหตุผลที่มาจากข้อมูล ซึ่งอธิบายการตัดสินใจของ NLM สำหรับข้อความอินพุตที่กำหนดโดยเน้นคำที่มีอิทธิพลต่อการตัดสินใจมากที่สุด

การศึกษาเชิงประจักษ์ที่กว้างขวางของเราแสดงให้เห็นว่า UNIREX มีประสิทธิภาพเหนือกว่าวิธีการสกัดแบบใช้เหตุผลอื่นๆ อย่างมาก ในการสร้างสมดุลระหว่างความเที่ยงตรง ความน่าเชื่อถือ และประสิทธิภาพของงาน น่าแปลกที่ UNIREX ยังคงมีประสิทธิภาพในสถานการณ์จริงด้วยข้อมูลที่มีป้ายกำกับจำกัด ซึ่งสามารถบรรลุความสามารถในการอธิบายได้สูงเมื่อฝึกอบรมด้วยเหตุผลที่มีคำอธิบายประกอบเพียงเล็กน้อย นอกจากนี้ ความสามารถในการอธิบายของตัวแยกเหตุผล UNIREX ยังสามารถสรุปถึงชุดข้อมูลและงานที่มองไม่เห็นอย่างสมบูรณ์ในระหว่างการฝึกอบรม!” เซียงเหริน

การไล่ระดับนโยบายอิสระสำหรับเกมที่มีศักยภาพของ Markov ขนาดใหญ่: อัตราที่คมชัดกว่า การประมาณฟังก์ชัน และการบรรจบกันของเกมที่ไม่เชื่อเรื่องพระเจ้า

Dongsheng Ding (มหาวิทยาลัย Southern California) · Chen-Yu Wei (มหาวิทยาลัย Southern California) · Mihailo Jovanovic (มหาวิทยาลัย Southern California) · Kaiqing Zhang (MIT)

“ตัวแทนอิสระจำนวนมากสามารถเรียนรู้นโยบายที่ดีได้หรือไม่? นี่เป็นคำถามที่น่าสนใจสำหรับระบบในโลกแห่งความเป็นจริงที่มีตัวแทนหลายคน ตั้งแต่ผู้เล่นในวิดีโอเกมและหุ่นยนต์ในการเฝ้าระวัง ไปจนถึงผู้เสนอราคาในการเสนอราคาแบบเรียลไทม์ การค้นหานโยบายโดยตัวแทนหลายคนควบคู่กันโดยใช้เทคนิคการเรียนรู้เสริมกำลัง (RL) ได้บรรลุประสิทธิภาพเชิงประจักษ์ที่ยอดเยี่ยมในการเล่นวิดีโอเกม เช่น StarCraft อย่างไรก็ตาม จำเป็นต้องขยายขนาดวิธีการ RL ที่มีอยู่ในจำนวนตัวแทนและขนาดของพื้นที่ของรัฐ เนื่องจากมีขนาดใหญ่มากสำหรับระบบหลายตัวแทนในโลกแห่งความเป็นจริง

เราสร้างวิธีการที่ง่ายและเป็นธรรมชาติที่แก้ปัญหาขนาดใหญ่ใน RL แบบหลายตัวแทน ไม่ว่าจำนวนตัวแทนและขนาดของพื้นที่ของรัฐจะมีมากน้อยเพียงใด ตัวแทนก็สามารถให้รางวัลส่วนตัวสูงสุดด้วยสายตาสั้นโดยการค้นหานโยบายที่ดีขึ้นอย่างอิสระโดยไม่ต้องสื่อสารกันเอง สิ่งนี้ช่วยพัฒนา RL ที่ล้ำสมัยอย่างมากสำหรับระบบหลายเอเจนต์ โดยทั่วไปมากขึ้นในด้าน AI แบบร่วมมือ นอกเหนือจากการเป็นอิสระจากตัวแทนรายอื่นแล้ว เราพบว่าเจ้าหน้าที่สามารถเรียนรู้นโยบายที่ดีได้โดยไม่ต้องรู้ถึงประเภทของเกมที่กำลังเล่น ทำให้วิธีการของเราใช้งานง่ายทั้งในระบบ AI แบบร่วมมือหรือแบบแข่งขัน” ตงเซิงติง

Personalization ปรับปรุงความเป็นส่วนตัว-ความแม่นยำ Tradeoffs ใน Federated Optimization

Alberto Bietti (NYU) · Chen-Yu Wei (มหาวิทยาลัยเซาเทิร์นแคลิฟอร์เนีย) · Miro Dudik (Microsoft Research) · John Langford (Microsoft Research) · Steven Wu (มหาวิทยาลัย Carnegie Mellon)

“เรามักจะพึ่งพาระบบการแนะนำในการตัดสินใจ ตัวอย่างเช่น เพื่อช่วยเราเลือกร้านอาหาร ภาพยนตร์ เพลง ข่าว ช้อปปิ้ง และอื่นๆ ระบบการแนะนำจำเป็นต้องรวบรวมคำติชมจากผู้ใช้และสร้างแบบจำลองโดยรวม เนื่องจากผู้ใช้ทุกคนมีความชอบของตัวเอง ระบบจึงอาจต้องการ ‘โมเดลส่วนบุคคล’ เพิ่มเติม แม้ว่าเป้าหมายหลักคือการให้คำแนะนำที่ดี ระบบดังกล่าวอยู่ภายใต้ข้อจำกัดด้านความเป็นส่วนตัว กล่าวคือ ผู้ใช้อาจไม่ต้องการเปิดเผยข้อมูลที่ชัดเจน เช่น ตำแหน่งและข้อมูลธุรกรรม โดยธรรมชาติ ยิ่งข้อมูลที่ผู้ใช้ต้องการแชร์น้อยลงเท่าใด โมเดลก็จะยิ่งแม่นยำน้อยลงเท่านั้น เราจะสร้างระบบที่ดีภายใต้ข้อจำกัดความเป็นส่วนตัวได้อย่างไร?

นี่เป็นคำถามที่เกี่ยวข้องในด้าน ‘การเรียนรู้แบบสหพันธรัฐเฉพาะบุคคล’ เราเสนอโครงสร้างระบบที่ใช้ประโยชน์จากแบบจำลองส่วนบุคคลเพื่อให้สอดคล้องกับข้อกำหนดความเป็นส่วนตัวของผู้ใช้ โมเดลส่วนบุคคลสามารถเก็บไว้ที่ด้านผู้ใช้ และการฝึกอบรมจะไม่ทำให้เกิดการรั่วไหลของความเป็นส่วนตัว ในทางกลับกัน ความแม่นยำของโมเดลทั่วโลกนั้นขึ้นอยู่กับว่าผู้ใช้ต้องการแชร์ข้อมูลมากเพียงใด ดังนั้น เพื่อให้เกิดความสมดุลระหว่างความเป็นส่วนตัวและความถูกต้อง เราจึงควบคุมน้ำหนักที่สัมพันธ์กันระหว่างแบบจำลองทั่วโลกและแบบจำลองส่วนบุคคล เราแสดงให้เห็นในทางทฤษฎีและการทดลองว่าด้วยการปรับอัตราการเรียนรู้ที่เกี่ยวข้องระหว่างแบบจำลองทั่วโลกและแบบจำลองส่วนบุคคลอย่างเหมาะสม ระบบสามารถบรรลุความแม่นยำที่ดีขึ้นภายใต้ข้อจำกัดความเป็นส่วนตัวคงที่” เฉินหยูเว่ย

เผยแพร่เมื่อ กรกฎาคม 21st, 2022

ปรับปรุงล่าสุดเมื่อ 21 กรกฎาคม 2022