למידת חיזוק מרובת סוכנים

למידת חיזוק מרובה סוכנים (באנגלית: Multi-Agent Reinforcement Learning (MARL)) היא תת-תחום של למידת חיזוק, ונמצאת על קו התפר בין בינה מלאכותית למערכות מרובות סוכנים (אנ'). מחקר בתחום מתמקד בהתנהגותם של סוכנים המתקיימים במקביל בסביבה משותפת. כל סוכן עושה פעולות לקידום האינטרסים שלו; בסביבות מסוימות אינטרסים אלו מנוגדים לאינטרסים של סוכנים אחרים, וכיוצא מכך נוצרת דינמיקה קבוצתית מורכבת.

Thumb image — שני צוותים יריבים של סוכנים מתמודדים בניסוי MARL

למידת חיזוק רב-סוכנים קשורה קשר הדוק לתורת המשחקים ובמיוחד לתת-תחום של משחקים חוזרים. המחקר בתחום משלב את השאיפה למציאת אלגוריתמים אידיאליים שממקסמים את התגמולים עם מערכת מושגים סוציולוגית. בעוד מחקר בלמידת חיזוק של סוכן יחיד עוסק במציאת האלגוריתם שמקבל את מספר הנקודות הגדול ביותר עבור סוכן אחד, מחקר בלמידת חיזוק מרובת סוכנים מעריך ומכמת מדדים חברתיים, כגון שיתוף פעולה,^[1] הדדיות,^[2] שוויון,^[3] השפעה חברתית,^[4] שפה^[5] ואפליה.^[6]

[1]

[2]

[3]

[4]

[5]

[6]