EITC/AI/ARL Advanced Reinforcement Learning היא תוכנית הסמכת IT האירופית על הגישה של DeepMind ללמידת חיזוק בבינה מלאכותית.
תכנית הלימודים של EITC/AI/ARL למידת חיזוק מתקדמת מתמקדת בהיבטים תיאורטיים ומיומנויות מעשיות בטכניקות למידת חיזוק מנקודת המבט של DeepMind המאורגנת בתוך המבנה הבא, וכוללת תוכן דידקטי וידאו מקיף כהתייחסות להסמכת EITC זו.
למידת חיזוק (RL) הוא תחום של למידת מכונה העוסק בכיצד גורמים אינטליגנטים צריכים לנקוט בפעולות בסביבה על מנת למקסם את הרעיון של תגמול מצטבר. למידת חיזוק היא אחת משלוש פרדיגמות בסיסיות של למידת מכונה, לצד למידה מפוקחת ולמידה ללא פיקוח.
למידת חיזוק שונה מלמידה בפיקוח בכך שלא צריך להציג זוגות קלט/פלט שכותרתו, ובאי צורך לתקן במפורש פעולות לא אופטימליות. במקום זאת המיקוד הוא במציאת איזון בין חקירה (של שטח לא ידוע) וניצול (של ידע עדכני).
הסביבה נקבעת בדרך כלל בצורה של החלטת מרקוב (MDP), מכיוון שאלגוריתמים רבים של למידת חיזוק בהקשר זה משתמשים בטכניקות תכנות דינמיות. ההבדל העיקרי בין שיטות התכנות הדינמיות הקלאסיות לבין אלגוריתמי הלמידה לחיזוק הוא שהאחרונים אינם מניחים ידע על מודל מתמטי מדויק של ה- MDP והם מכוונים ל- MDP גדול כאשר השיטות המדויקות הופכות לבלתי אפשריות.
בשל כלליותו, למידת חיזוק נלמדת בתחומים רבים, כגון תורת המשחקים, תורת הבקרה, מחקר התפעול, תורת המידע, אופטימיזציה מבוססת סימולציה, מערכות רב-סוכניות, מודיעין נחילים וסטטיסטיקה. בספרות מחקר ובקרה של פעולות, למידת חיזוק נקראת תכנות דינמי משוער, או תכנות נוירו-דינמי. בעיות העניין בלמידת חיזוק נחקרו גם בתורת השליטה האופטימלית, אשר עוסקת בעיקר בקיומם ובאפיונם של פתרונות אופטימליים, ואלגוריתמים לחישוב המדויק שלהם, ופחות בלמידה או בקירוב, במיוחד בהיעדר מודל מתמטי של הסביבה. בכלכלה ובתורת המשחקים, ניתן להשתמש בלמידת חיזוק כדי להסביר כיצד שיווי משקל עשוי להיווצר תחת רציונליות מוגבלת.
חיזוק בסיסי מעוצב כתהליך החלטת מרקוב (MDP). במתמטיקה, תהליך החלטת מרקוב (MDP) הוא תהליך בקרה סטוכסטי בזמן דיסקרטי. הוא מספק מסגרת מתמטית לדגום קבלת החלטות במצבים בהם התוצאות הן חלקיות אקראיות וחלקן בשליטתו של מקבל החלטות. MDPs שימושיים ללימוד בעיות אופטימיזציה שנפתרו באמצעות תכנות דינמי. MDP היו ידועים לפחות בשנות החמישים. גוף מרכזי של מחקר על תהליכי החלטה של מרקוב נבע מספרו של רונלד הווארד משנת 1950, תכנות דינמי ותהליכי מרקוב. הם משמשים בתחומים רבים, כולל רובוטיקה, שליטה אוטומטית, כלכלה וייצור. שמם של MDPs מגיע מהמתמטיקאי הרוסי אנדריי מרקוב מכיוון שהם הרחבה של רשתות מרקוב.
בכל שלב בזמן, התהליך נמצא במצב S כלשהו, ומקבל ההחלטות רשאי לבחור בכל פעולה שתהיה זמינה במצב S. התהליך מגיב בשלב הבא על ידי מעבר אקראי למצב חדש S ', ומתן מקבל ההחלטה תגמול מקביל Ra (S, S ').
ההסתברות שהתהליך עובר למצבו החדש S 'מושפעת מהפעולה שנבחרה a. באופן ספציפי, הוא ניתן על ידי פונקציית המעבר של המדינה Pa (S, S '). לפיכך, המדינה הבאה S 'תלויה במצב S הנוכחי ובפעולה של מקבל ההחלטות א. אך בהינתן S ו- a, הוא תלוי בתנאי מכל המדינות והפעולות הקודמות. במילים אחרות, מעברי המדינה של MDP מספקים את הנכס מרקוב.
תהליכי החלטה של מרקוב הם הרחבה של רשתות מרקוב; ההבדל הוא תוספת של פעולות (מתן אפשרות בחירה) ותגמולים (מתן מוטיבציה). לעומת זאת, אם קיימת רק פעולה אחת לכל מדינה (למשל "המתן") וכל התגמולים זהים (למשל "אפס"), תהליך ההחלטה של מרקוב מצטמצם לשרשרת מרקוב.
סוכן למידת חיזוק מקיים אינטראקציה עם סביבתו בשלבי זמן נפרדים. בכל פעם t, הסוכן מקבל את המצב הנוכחי S (t) ותגמול r (t). לאחר מכן היא בוחרת בפעולה a (t) מתוך מכלול הפעולות הזמינות, אשר נשלחת לאחר מכן לסביבה. הסביבה עוברת למצב חדש S (t + 1) והתגמול r (t + 1) הקשור למעבר נקבע. מטרתו של סוכן למידה לחיזוק היא ללמוד מדיניות הממקסמת את התגמול המצטבר הצפוי.
ניסוח הבעיה כ- MDP מניח שהסוכן צופה ישירות במצב הסביבתי הנוכחי. במקרה זה נאמר שהבעיה ניתנת לצפייה מלאה. אם לסוכן יש גישה רק לקבוצת משנה של מדינות, או אם המצבים שנצפו מושחתים מרעש, נאמר כי הסוכן הוא בעל תצפית חלקית, ובאופן רשמי יש לנסח את הבעיה כתהליך החלטת מרקוב הנצפה חלקית. בשני המקרים, ניתן להגביל את מערך הפעולות העומד לרשות הסוכן. לדוגמא, ניתן להגביל את מצב יתרת החשבון להיות חיובי; אם הערך הנוכחי של המדינה הוא 3 ומעבר המדינה מנסה להפחית את הערך ב- 4, המעבר לא יתאפשר.
כאשר משווים את ביצועי הסוכן לזו של סוכן הפועל בצורה אופטימלית, ההבדל בביצועים מוליד את מושג החרטה. על מנת לפעול כמעט בצורה אופטימלית, על הסוכן לנמק לגבי ההשלכות ארוכות הטווח של פעולותיו (כלומר למקסם הכנסה עתידית), אם כי התגמול המיידי הקשור לכך עשוי להיות שלילי.
לפיכך, למידת חיזוק מתאימה במיוחד לבעיות הכוללות פיצוי גמול לטווח ארוך לעומת קצר. הוא הוחל בהצלחה על בעיות שונות, כולל בקרת רובוטים, תזמון מעליות, טלקומוניקציה, שש-בש, דמקה ו- Go (AlphaGo).
שני אלמנטים הופכים את למידת החיזוק לעוצמתית: שימוש בדוגמאות לייעול ביצועים ושימוש בקירוב פונקציות להתמודדות עם סביבות גדולות. הודות לשני מרכיבי המפתח הללו, ניתן להשתמש בלמידת חיזוק בסביבות גדולות במצבים הבאים:
- מודל של הסביבה ידוע, אך פתרון אנליטי אינו זמין.
- ניתן רק מודל סימולציה של הסביבה (נושא האופטימיזציה מבוססת סימולציה).
- הדרך היחידה לאסוף מידע על הסביבה היא לתקשר איתה.
שתי הבעיות הראשונות יכולות להיחשב כבעיות תכנון (מכיוון שקיים צורה כלשהי של מודל), ואילו האחרונה יכולה להיחשב כבעיית למידה אמיתית. עם זאת, למידת חיזוק ממירה את שתי בעיות התכנון לבעיות למידה במכונה.
פיתרון החיפושים לעומת הניצול נחקר באופן היסודי ביותר באמצעות בעיית השודדים מרובי הזרועות ובאמצעות MDPs סופיים בחלל הממלכתי בברנטאס וקייטאקיס (1997).
למידת חיזוק דורשת מנגנוני חקירה חכמים; בחירה אקראית של פעולות, ללא התייחסות לחלוקת ההסתברות המשוערת, מראה ביצועים ירודים. המקרה של תהליכי החלטה מרוקוביים (קטנים) סופיים מובן יחסית. עם זאת, בגלל היעדר אלגוריתמים המתאימים היטב עם מספר המצבים (או מתרחבים לבעיות במרחבי מצב אינסופיים), שיטות חיפושים פשוטות הן המעשיות ביותר.
גם אם לא מתעלמים מסוגיית החקר וגם אם ניתן היה לצפות במדינה, הבעיה נותרה להשתמש בניסיון העבר כדי לגלות אילו פעולות מובילות לתגמולים מצטברים גבוהים יותר.
כדי להכיר את עצמכם באופן מפורט עם תכנית הלימודים להסמכה תוכלו להרחיב ולנתח את הטבלה שלהלן.
תכנית הלימודים של EITC/AI/ARL Advanced Reinforcement Learning Certification מתייחסת לחומרים דידקטיים בגישה פתוחה בטופס וידאו. תהליך הלמידה מחולק למבנה שלב אחר שלב (תוכניות -> שיעורים -> נושאים) המכסה חלקים רלוונטיים בתכנית הלימודים. ניתן גם ייעוץ ללא הגבלה עם מומחי תחום.
לפרטים על הליך ההסמכה בדוק איך זה עובד?.
משאבי עזר לתכניות הלימודים
שליטה ברמה האנושית באמצעות פרסום למידת חיזוק עמוק
https://deepmind.com/research/publications/human-level-control-through-deep-reinforcement-learning
קורס גישה פתוחה על למידת חיזוק עמוק באוניברסיטת ברקלי
http://rail.eecs.berkeley.edu/deeprlcourse/
RL הוחל על בעיית שודד K-armbed מ- Manifold.ai
https://www.manifold.ai/exploration-vs-exploitation-in-reinforcement-learning
הורד את חומרי ההכנה המלאים ללמידה עצמית לא מקוונת לתוכנית EITC/AI/ARL Advanced Reinforcement Learning בקובץ PDF