הארכיטקטורה של הרשת העצבית המשמשת בדוגמה היא רשת עצבית הזנה קדימה עם שלוש שכבות: שכבת קלט, שכבה נסתרת ושכבת פלט. שכבת הקלט מורכבת מ-784 יחידות, התואמות למספר הפיקסלים בתמונת הקלט. כל יחידה בשכבת הקלט מייצגת את ערך העוצמה של פיקסל בתמונה.
השכבה הנסתרת מורכבת מ-128 יחידות, המחוברות במלואן לשכבת הקלט. כל יחידה בשכבה הנסתרת מחשבת סכום משוקלל של התשומות משכבת הקלט ומחילה פונקציית הפעלה כדי לייצר פלט. בדוגמה זו, פונקציית ההפעלה המשמשת בשכבה הנסתרת היא פונקציית היחידה ליניארית מתוקנת (ReLU). הפונקציה ReLU מוגדרת כ-f(x) = max(0, x), כאשר x הוא הסכום המשוקלל של התשומות ליחידה. הפונקציה ReLU מציגה חוסר-לינאריות לרשת, ומאפשרת לה ללמוד דפוסים ויחסים מורכבים בנתונים.
שכבת הפלט מורכבת מ-10 יחידות, כל אחת מייצגת את אחת המחלקות האפשריות בבעיית הסיווג. גם היחידות בשכבת הפלט מחוברות במלואן ליחידות בשכבה הנסתרת. בדומה לשכבה הנסתרת, כל יחידה בשכבת הפלט מחשבת סכום משוקלל של התשומות מהשכבה הנסתרת ומחילה פונקציית הפעלה. בדוגמה זו, פונקציית ההפעלה המשמשת בשכבת הפלט היא פונקציית softmax. הפונקציה softmax ממירה את הסכום המשוקלל של התשומות להתפלגות הסתברות על פני המחלקות, כאשר סכום ההסתברויות שווה ל-1. היחידה בעלת ההסתברות הגבוהה ביותר מייצגת את המחלקה החזויה של תמונת הקלט.
לסיכום, ארכיטקטורת הרשת העצבית המשמשת בדוגמה מורכבת משכבת קלט עם 784 יחידות, שכבה נסתרת עם 128 יחידות באמצעות פונקציית ההפעלה של ReLU, ושכבת פלט עם 10 יחידות באמצעות פונקציית ההפעלה של softmax.
שאלות ותשובות אחרונות אחרות בנושא בניית רשת עצבית לביצוע סיווג:
- האם יש צורך להשתמש בפונקציית למידה אסינכרונית עבור מודלים של למידת מכונה הפועלים ב- TensorFlow.js?
- איך המודל מורכב ומאומן ב-TensorFlow.js, ומה תפקידה של פונקציית אובדן חוצה אנטרופיה קטגורית?
- מהי המשמעות של קצב הלמידה ומספר העידנים בתהליך למידת מכונה?
- כיצד מתחלקים נתוני האימון לקבוצות אימון ומבחנים ב-TensorFlow.js?
- מהי המטרה של TensorFlow.js בבניית רשת עצבית למשימות סיווג?