כשלימדתי AI בשחר השני של הבינה המלאכותית – 2016 לערך, הקוריקולום הגדיר שני סוגי AI:
👈 הראשון היה למידה מונחת דוגמאות (Supervised learning) – אוספים הרבה (יחסית) דאטה ומתייגים אותו, מאמנים את ה-AI על התיוגים ע”מ שיוכל לחזות את התיוגים על דאטה חדש. לדוגמה תיוג חומרת התרעות אבטחת מידע שימש לדירוג התרעות חדשות. בבסיסם גם תהליכים של LLM כמו ChatGPT מבוססים על התהליך הזה רק על קורפוסים מאוד גדולים של טקסט שמשמש לחיזוי המילה הבאה “בזרם התודעה” של המודל.
👈 השני היה למידה עצמאית (Unsupervised learning) – בה מבצעים זיהוי של תבניות ללא הנחיה או תיוג מראש. לדוגמה חלוקה של קבוצת הלקוחות של הארגון לפי מאפיינים.
👈 שתי השיטות מצריכות יחסית הרבה דאטה וכשלא ברורה פונקצית המטרה בלמידה עצמאית צריך לנסות להבין מה המשמעות של החלוקות. אבל מידע טקטואלי יש בשפע, ולכן ChatGPT התניע תהליך שכמעט השכיח את הצורך בשיטות אחרות.
👈 בינואר 2025 סטארטאפ סיני הפיל את המניות של Nvidia ע”י שימוש במשהו שנקרא למידה חיזוקית (Reinforcement learning) בדיוק בתחום הפעילות של LLM. החידוש היה הפעלה של למידה חיזוקית בתחום של LLM במקום במקומות הרגילים שבהם הפעילו את השיטה – בדרך כלל ברובוטיקה.
👈 הרעיון של למידה חיזוקית נוצר במאמר של גוגל ב-2015 שבו סוכן AI למד לשחק משחקי מחשב ללא הדרכה כלל. השיטה היתה פשוט תרגול של הסוכן במאות אלפי משחקים בהתבסס על שכר ועונש, דהיינו הסוכן למד עצמאית אסטרטגיות של זכיה במשחקים מכיוון שהוא נבנה להעדיף זכיה על הפסד. במקום להתבסס על דאטה קיים, הסוכן סרק את מרחב האפשרויות של המשחק והגיע לאסטרטגיה אופטימלית.
👈 שנה לאחר מכן ב-2016 AlphaGO נצחה את אלוף העולם ב-GO באותה טכנולוגיה וכיום אותה שיטה משמשת בביולוגיה לתחזיות מבנה פרוטאינים.
👈 למה העתיד נמצא בלמידה חיזוקית – מכמה סיבות:
- 🎓 הדאטה ללימוד המודלים הגיע לרוויה, ברמה כזו שמייצרים דאטה סינטטי כדי לאמן מודלים גדולים.
- 🎓 במודלים הפועלים על מרחב אפשרויות קטן יחסית התהליך החישובי בלמידה חיזוקית יותר יעיל משיטות מבוססות דאטה.
- 🎓 במקומות בהם קל יותר להגדיר אילוצים התהליך מאפשר למידה מהירה – למשל חישובי תנועה ברובוטיקה שמתבססים על פיזיקה מכאנית.
- 🎓 חשיבה מחוץ לקופסא – מיפוי של מרחב הפתרונות מאפשר חריגה מדפוסי הפעילות האנושיים שמתבטאים בדאטה לאימון מונחה דוגמאות. לי סדול שהפסיד ב-GO ל-AI, אמר לאחר מכן, שהמהלכים לניצחון היו מקוריים ולא אנושיים!