בתחום למידת מכונה, במיוחד בעת שימוש בפלטפורמות כגון Google Cloud Machine Learning, הבנת היפרפרמטרים חשובה לפיתוח ואופטימיזציה של מודלים. היפרפרמטרים הם הגדרות או תצורות חיצוניות למודל המכתיבות את תהליך הלמידה ומשפיעות על הביצועים של אלגוריתמי למידת המכונה. בניגוד לפרמטרים של מודל, הנלמדים מהנתונים במהלך תהליך האימון, הפרמטרים היפר נקבעים לפני תחילת האימון ונשארים קבועים לאורך כל הדרך.
ניתן לסווג את הפרמטרים ההיפר למספר סוגים על סמך תפקידם ותפקודם בצינור למידת המכונה. קטגוריות אלו כוללות היפרפרמטרים של מודל, היפרפרמטרים של אופטימיזציה והיפרפרמטרים לעיבוד נתונים. כל סוג ממלא תפקיד מובהק בעיצוב האופן שבו מודל לומד מנתונים ומכליל לנתונים חדשים, בלתי נראים.
היפרפרמטרים של דגם
1. ארכיטקטורה היפרפרמטרים: אלה מגדירים את מבנה המודל. ברשתות עצביות, למשל, היפרפרמטרים של ארכיטקטורה כוללים את מספר השכבות, מספר הצמתים לשכבה וסוג פונקציות ההפעלה בהן נעשה שימוש. לדוגמה, רשת עצבית עמוקה עשויה לכלול היפרפרמטרים המציינים שלוש שכבות נסתרות עם 128, 64 ו-32 צמתים בהתאמה, ו-ReLU (יחידה לינארית מתוקנת) כפונקציית ההפעלה.
2. היפרפרמטרים של רגוליזציה: טכניקות רגוליזציה משמשות למניעת התאמת יתר, המתרחשת כאשר דגם לומד רעש בנתוני האימון ולא בתבנית הבסיסית. היפרפרמטרים נפוצים של רגוליזציה כוללים את מקדמי הסדרת L1 ו-L2. מקדמים אלה שולטים בעונש המופעל על משקלים גדולים במודל. לדוגמה, קביעת מקדם הסדרת L2 גבוה יותר תעניש משקלים גדולים יותר, ובכך תעודד את המודל לשמור על משקלים קטנים יותר ולשפר את ההכללה.
3. קצב נשירה: ברשתות עצביות, נשירה היא טכניקת רגוליזציה שבה מתעלמים מהנוירונים שנבחרו באקראי במהלך האימון. שיעור הנשירה הוא היפרפרמטר המציין את חלק הנוירונים שיירד במהלך כל איטרציה של אימון. שיעור נשירה של 0.5 פירושו ש-50% מהנוירונים נופלים באופן אקראי בכל איטרציה, מה שעוזר בהפחתת התאמת יתר.
אופטימיזציה היפרפרמטרים
1. שיעור למידה: זהו אולי אחד מפרמטרי ההיפר הקריטיים ביותר באימון רשתות עצביות. קצב הלמידה קובע את גודל הצעדים הננקטים לקראת המינימום של פונקציית ההפסד. קצב למידה גבוה עלול לגרום למודל להתכנס מהר מדי לפתרון לא אופטימלי, בעוד שקצב למידה נמוך עלול לגרום לתהליך האימון לאט מדי או להיתקע במינימום מקומי.
2. גודל אצווה: היפרפרמטר זה מגדיר את מספר דגימות האימון המשמשות באיטרציה אחת של תהליך האימון. גדלי אצווה קטנים יותר יכולים להוביל לאומדן מדויק יותר של השיפוע אך יכולים להגדיל את הזמן הנדרש להשלמת עידן. לעומת זאת, גדלי אצווה גדולים יותר יכולים להאיץ את האימון אך עלולים להוביל לדגמים פחות מדויקים.
3. מומנטום: בשימוש באלגוריתמי אופטימיזציה כגון ירידה בדרגה סטוקהסטית עם מומנטום, ההיפרפרמטר הזה עוזר להאיץ את וקטורי הגרדיאנט בכיוון הנכון, ובכך מוביל להתכנסות מהירה יותר. זה עוזר בהחלקת התנודות בנתיב האופטימיזציה.
4. מספר תקופות: היפרפרמטר זה מגדיר את מספר המעברים השלמים דרך מערך ההדרכה. מספר גדול יותר של תקופות בדרך כלל מאפשר למודל יותר הזדמנות ללמוד מהנתונים, אבל זה יכול גם להגביר את הסיכון להתאמת יתר.
היפרפרמטרים לעיבוד נתונים
1. גודל קנה מידה: לפני אימון דוגמנית, לעתים קרובות יש להתאים את התכונות. היפרפרמטרים הקשורים לשינוי קנה מידה כוללים את הבחירה בשיטת קנה המידה, כגון קנה מידה Min-Max או Standardization. בחירה זו יכולה להשפיע באופן משמעותי על ביצועי המודל, במיוחד עבור אלגוריתמים הרגישים לשינוי קנה מידה של תכונות כמו Support Vector Machines ו-K-Means clustering.
2. פרמטרים של הגדלת נתונים: במשימות עיבוד תמונה, הגדלת נתונים משמשת להרחבה מלאכותית של גודל מערך הדרכה על ידי יצירת גרסאות משתנות של תמונות במערך הנתונים. היפרפרמטרים כאן כוללים את סוגי הטרנספורמציות שהוחלו, כגון סיבוב, תרגום, היפוך והתקרבות, וההסתברות של כל טרנספורמציה שתופעל.
3. שיטות דגימה: במקרים שבהם הנתונים אינם מאוזנים, ניתן להשתמש בטכניקות כגון דגימת יתר של מחלקת המיעוט או תת דגימה של מחלקת הרוב. ההיפרפרמטרים כאן כוללים את היחס בין דגימות מחלקות מיעוט לרוב.
כוונון היפר-פרמטר
תהליך בחירת ההיפרפרמטרים האופטימליים מכונה כוונון היפרפרמטרים. זהו שלב קריטי שכן בחירת הפרמטרים ההיפר יכולה להשפיע באופן משמעותי על ביצועי המודל. שיטות נפוצות לכוונון היפרפרמטר כוללות:
1. חיפוש רשת: שיטה זו כוללת הגדרת רשת של ערכי היפרפרמטר וניסיון ממצה של כל שילוב. אמנם פשוט, חיפוש רשת עשוי להיות יקר מבחינה חישובית, במיוחד עם מספר רב של היפרפרמטרים.
2. חיפוש אקראי: במקום לנסות כל שילוב אפשרי, חיפוש אקראי בוחר שילובים אקראיים של היפרפרמטרים. גישה זו היא לרוב יעילה יותר מחיפוש ברשת ויכולה להוביל לתוצאות טובות יותר, במיוחד כאשר רק מספר היפרפרמטרים משפיעים.
3. אופטימיזציה בייסית: זוהי גישה מתוחכמת יותר המדגלת את הביצועים של הפרמטרים ההיפר כפונקציה הסתברותית ומבקשת למצוא את קבוצת ההיפרפרמטרים הטובה ביותר על ידי איזון חקירה וניצול.
4. למידת מכונה אוטומטית (AutoML): פלטפורמות כמו Google Cloud AutoML משתמשות באלגוריתמים מתקדמים כדי לחפש אוטומטית את ההיפרפרמטרים הטובים ביותר. זה יכול לחסוך זמן ומשאבים, במיוחד עבור מתרגלים שאולי אין להם מומחיות עמוקה בלמידת מכונה.
דוגמאות מעשיות
שקול תרחיש שבו מאמן רשת עצבית קונבולוציונית (CNN) לסיווג תמונות באמצעות Google Cloud Machine Learning. הפרמטרים ההיפר עשויים לכלול:
- מספר שכבות קונבולוציוניות וגדלי המסנן המתאימים שלהן, שהם היפרפרמטרים של ארכיטקטורה.
- קצב למידה וגודל אצווה, שהם היפרפרמטרים של אופטימיזציה.
– טכניקות הגדלת נתונים כגון סיבוב והיפוך, שהם היפרפרמטרים לעיבוד נתונים.
על ידי כוונון שיטתי של ההיפרפרמטרים הללו, ניתן לשפר משמעותית את יכולות הדיוק וההכללה של המודל.
בדוגמה אחרת, בעת שימוש במסווג עץ החלטה, היפרפרמטרים עשויים לכלול את העומק המרבי של העץ, את מספר הדגימות המינימלי הנדרש לפיצול צומת ואת הקריטריון המשמש לפיצול. כל אחד מפרמטרים אלו יכול להשפיע על מורכבות המודל ועל יכולתו להכליל.
למעשה, הפרמטרים היפר הם הבסיס לתהליך למידת מכונה, ומשפיעים הן על היעילות והן על האפקטיביות של אימון המודל. הבחירה והכוונון המדוקדקים שלהם יכולים להוביל למודלים שלא רק מבצעים ביצועים טובים בנתוני אימון אלא גם מכלילים ביעילות לנתונים חדשים שלא נראים.
שאלות ותשובות אחרונות אחרות בנושא EITC/AI/GCML Google Cloud Machine Learning:
- אם אדם משתמש במודל של גוגל ומאמן אותו במופע שלו, האם גוגל שומרת על השיפורים שנעשו מנתוני ההדרכה?
- איך יודעים באיזה מודל ML להשתמש, לפני הכשרתו?
- מהי משימת רגרסיה?
- כיצד ניתן לעבור בין טבלאות Vertex AI ו-AutoML?
- האם ניתן להשתמש ב-Kaggle כדי להעלות נתונים פיננסיים ולבצע ניתוח סטטיסטי וחיזוי באמצעות מודלים אקונומטריים כגון R-squared, ARIMA או GARCH?
- האם למידת מכונה יכולה לשמש לניבוי סיכון למחלת לב כלילית?
- מהם השינויים בפועל עקב מיתוג מחדש של Google Cloud Machine Learning כ-Vertex AI?
- מהם מדדי הערכת הביצועים של מודל?
- מהי רגרסיה לינארית?
- האם ניתן לשלב מודלים שונים של ML ולבנות AI מאסטר?
הצג שאלות ותשובות נוספות ב-EITC/AI/GCML Google Cloud Machine Learning
עוד שאלות ותשובות:
- שדה: בינה מלאכותית
- תכנית: EITC/AI/GCML Google Cloud Machine Learning (ללכת לתוכנית ההסמכה)
- שיעור: מבוא (עבור לשיעור בנושא)
- נושא: מהי למידת מכונה (עבור לנושא קשור)