ניתן לחשוב על טוקן כחלקיק מידע קטן שהמודל מפרק מתוך טקסט כדי לבצע חיזויים.
איך זה עובד?
כאשר אנו מזינים טקסט למודל,
הוא לא רואה מילים שלמות,
אלא מחלק את הטקסט לטוקנים.
טוקן יכול להיות:
☑️מילה שלמה (למשל, המילה “חתול”).
☑️חלק ממילה (למשל, “חתו” ו-“ל”).
☑️סימן פיסוק או רווח (“!”, “.”, ” “).
דוגמה: אם נזין למודל את המשפט:
“שלום, איך אתה מרגיש?”
הוא עשוי לפרק את זה לטוקנים כך:
“שלום”
“,”
“איך”
“אתה”
“מרגיש”
“?”
למה?
כי המודל מתייחס לכל חלק רלוונטי בנפרד
כדי לבצע חיזוי מדויק יותר.
למה טוקנים חשובים?
☑️כך המודל מעבד טקסט – הוא לא מבין מילים כמו בני אדם, אלא מתבסס על טוקנים כדי לזהות דפוסים.
☑️עלות חישובית – כל שאילתה שאתה שולח למודל עולה מבחינת עיבוד, כי כל טוקן דורש חישוב.
☑️הגבלת טוקנים – לכל מודל יש גבול של כמות הטוקנים שהוא יכול לעבד בו-זמנית (למשל, 4,096 טוקנים ב-GPT4).
איך טוקנים קשורים לאורך טקסט?
☑️משפט קצר של 5-10 מילים עשוי להכיל 15-20 טוקנים.
☑️פסקה שלמה עשויה להיות 50-100 טוקנים.
☑️מאמר ארוך יכול להגיע ל-1000+ טוקנים.
לכן, כשמשתמשים במודלים של AI,
כדאי לזכור שהכנסת טקסטים ארוכים יותר
צורכת יותר משאבי חישוב.
בקיצור, טוקנים הם יחידות השפה הבסיסיות שמודל AI משתמש בהן כדי “לקרוא” ולהגיב לטקסטים,
אבל הוא לא מבין את המילים כמו בני אדם – הוא פשוט מזהה תבניות סטטיסטיות.
מודלים לא “מבינים” מידע – הם מנבאים את המילים הבאות.