אז מה זה בעצם אמבדינג ווקטורים?
מודלים של שפה לא מבינים שפה כמו בני אדם. במקום זאת, הם ממירים מילים וחלקי מילים (טוקנים) לייצוגים מתמטיים שנקראים וקטורים.
- וקטור = מערך של מספרים במרחב רב-ממדי.
- כל מילה מומרת לוקטור שמייצג אותה גם מבחינת משמעות וגם מבחינת הקשר תחבירי.
- תהליך ההמרה הזה נקרא אמבדינג (Embedding).
דוגמה חיה – מה קורה כשיש טעות כתיב?
בעקבות שאלה מעולה שעלתה בתגובות שקיבלתי לפוסט שכתבתי
נניח:
כתבת בטעות “חןרף” במקום “חורף”
האם המודל יתבלבל? לא בהכרח.
בגלל שמילת השגיאה נמצאת קרוב במרחב הווקטורי למילה הנכונה – המודל מבין את הכוונה.
למה?
✔ שגיאת כתיב קלה ← וקטור דומה
✔ הקשר המשפט ← מסייע לחיזוי הנכון
לדוגמה:
“בחןרף יורד גשם”
⤶ המודל מזהה את הדפוס “חורף + גשם”
⤶ ומנחש שהתכוונת ל”חורף”
ומה זה מלמד אותנו?
היכולת הזו של המודל להתמודד עם טעות, לא נובעת מהבנה –
אלא מיכולת לזהות תבניות סטטיסטיות ודמיון וקטורי.
המודל לא “מבין”.
הוא מזהה קשרים שהופיעו המון פעמים בטקסטים עליהם הוא אומן.
מסר לסיום :💡
כדי להשתמש נכון ב־GPT או כל מודל מתקדם,
צריך לזכור:
זו לא הבנה. זו סטטיסטיקה.
וכשמבינים את זה – יודעים גם לשאול, גם לבדוק, וגם לבנות פרומפטים טובים יותר.מדריך להבנת טוקנים, וקטורים ואמבדינגים ב־LLMs by shlomi oved