מהי בעיית השיפוע הנעלם?

by בריאן באקלי / יום שני, 14 אוגוסט 2023 / פורסם ב בינה מלאכותית, EITC/AI/GCML Google Cloud Machine Learning, השלבים הראשונים בלימוד מכונה, רשתות ואומדנים עצביים עמוקים

בעיית השיפוע הנעלם היא אתגר שמתעורר באימון של רשתות עצביות עמוקות, במיוחד בהקשר של אלגוריתמי אופטימיזציה מבוססי שיפוע. זה מתייחס לנושא של ירידה אקספוננציאלית של גרדיאנטים כשהם מתפשטים לאחור דרך השכבות של רשת עמוקה במהלך תהליך הלמידה. תופעה זו עלולה לעכב באופן משמעותי את התכנסות הרשת ולבלום את יכולתה ללמוד דפוסים וייצוגים מורכבים.

כדי להבין את בעיית השיפוע הנעלם, בואו נדון תחילה באלגוריתם ההפצה לאחור, המשמש בדרך כלל לאימון רשתות עצביות עמוקות. במהלך העברה קדימה, נתוני קלט מוזנים דרך הרשת, והפעלות מחושבות ברציפות בכל שכבה. לאחר מכן משווים את הפלט המתקבל לתפוקה הרצויה, ומחושבת שגיאה. במעבר אחורה שלאחר מכן, השגיאה מופצת לאחור דרך השכבות, והדרגות מחושבות ביחס לפרמטרי הרשת באמצעות כלל השרשרת של החשבון.

הגרדיאנטים מייצגים את הכיוון והגודל של השינויים שיש לבצע בפרמטרי הרשת על מנת לצמצם את השגיאה. הם משמשים לעדכון הפרמטרים באמצעות אלגוריתם אופטימיזציה כגון ירידה בדרגה סטוכסטית (SGD). עם זאת, ברשתות עמוקות, הגרדיאנטים יכולים להיות קטנים מאוד שכן הם מוכפלים במשקלים ומועברים דרך פונקציות ההפעלה בכל שכבה במהלך תהליך ההפצה לאחור.

בעיית שיפוע הנעלם מתרחשת כאשר השיפועים נעשים קטנים במיוחד, ומתקרבים לאפס, כשהם מתפשטים לאחור דרך הרשת. זה קורה בגלל שהשיפועים מוכפלים במשקלים של כל שכבה, ואם משקלים אלה הם פחות מאחד, ההדרגות מתכווצות באופן אקספוננציאלי עם כל שכבה. כתוצאה מכך, העדכונים של הפרמטרים הופכים זניחים, והרשת לא מצליחה ללמוד ייצוגים משמעותיים.

כדי להמחיש בעיה זו, שקול רשת עצבית עמוקה עם רבדים רבים. ככל שהשיפועים מתפשטים לאחור, הם עשויים להיות כל כך קטנים עד שהם נעלמים למעשה לפני שהם מגיעים לשכבות המוקדמות יותר. כתוצאה מכך, השכבות המוקדמות יותר מקבלים מעט מידע על השגיאה, והפרמטרים שלהן נותרים ללא שינוי. זה מגביל את היכולת של הרשת ללכוד תלות והיררכיות מורכבות בנתונים.

בעיית שיפוע הנעלם בעייתית במיוחד ברשתות עצביות עמוקות עם חיבורים חוזרים, כגון רשתות עצביות חוזרות (RNNs) או רשתות זיכרון לטווח קצר (LSTM). לרשתות אלו יש קשרי משוב המאפשרים אחסון והפצת מידע לאורך זמן. עם זאת, השיפועים הנעלמים יכולים לגרום לרשתות להיאבק בלמידה של תלות ארוכת טווח, מכיוון שהשיפועים פוחתים במהירות עם שלבי הזמן.

מספר טכניקות פותחו כדי להפחית את בעיית השיפוע הנעלם. גישה אחת היא להשתמש בפונקציות הפעלה שאינן סובלות מרוויה, כמו היחידה הלינארית המיושרת (ReLU). ל-ReLU יש שיפוע קבוע עבור תשומות חיוביות, מה שעוזר להקל על בעיית השיפוע הנעלם. טכניקה נוספת היא שימוש בחיבורי דילוג, כמו ברשתות שיוריות (ResNets), המאפשרות לשיפועים לעקוף שכבות מסוימות ולזרום בקלות רבה יותר דרך הרשת.

בנוסף, ניתן ליישם גזירת שיפוע כדי למנוע מהשיפועים להפוך גדולים מדי או קטנים מדי. זה כרוך בהגדרת סף ושינוי קנה מידה של השיפועים אם הם חורגים מסף זה. על ידי הגבלת גודל השיפועים, גזירת שיפוע יכולה לעזור להקל על בעיית השיפוע הנעלם.

בעיית השיפוע הנעלם היא אתגר שמתעורר באימון של רשתות עצביות עמוקות. זה מתרחש כאשר ההדרגות פוחתות באופן אקספוננציאלי כשהן מתפשטות לאחור דרך שכבות הרשת, מה שמוביל להתכנסות איטית ולקשיים בלימוד דפוסים וייצוגים מורכבים. ניתן להשתמש בטכניקות שונות, כגון שימוש בפונקציות הפעלה שאינן רוויות, חיבורי דילוג וגזירת שיפוע, כדי להקל על בעיה זו.

שאלות ותשובות אחרונות אחרות בנושא רשתות ואומדנים עצביים עמוקים:

הצג עוד שאלות ותשובות ברשתות עצביות עמוקות ואומדנים

עוד שאלות ותשובות:

שדה: בינה מלאכותית
תכנית: EITC/AI/GCML Google Cloud Machine Learning (ללכת לתוכנית ההסמכה)
שיעור: השלבים הראשונים בלימוד מכונה (עבור לשיעור בנושא)
נושא: רשתות ואומדנים עצביים עמוקים (עבור לנושא קשור)

מתויג תחת: פונקציות הפעלה, בינה מלאכותית, ריבוי גב, למידה עמוקה, ירידת שיפוע, נעלמת בבעיית מעבר צבע

אקדמיה של אית"א

מהי בעיית השיפוע הנעלם?

שאלות ותשובות אחרונות אחרות בנושא רשתות ואומדנים עצביים עמוקים:

עוד שאלות ותשובות:

אקדמיית EITCA היא חלק ממסגרת הסמכת ה-IT האירופית

זכאות לתמיכת סבסוד של EITCA Academy 80% EITCI DSJC

אקדמיה של אית"א

היכנס לחשבונך על ידי שם המשתמש או כתובת הדואר האלקטרוני שלך

שכחת את הפרטים שלך?

צור חשבון

מהי בעיית השיפוע הנעלם?

שאלות ותשובות אחרונות אחרות בנושא רשתות ואומדנים עצביים עמוקים:

עוד שאלות ותשובות:

זכאות לתמיכת סבסוד של EITCA Academy 80% EITCI DSJC