בכנס הבינלאומי ללמידת מכונה (ICML) שנערך בוונקובר, חשפו חוקרים מאינטל לאבס וממכון ויצמן למדע שיטה חדשה ומהפכנית להאצת מודלים של בינה מלאכותית באמצעות טכניקת Speculative Decoding.
מדובר בפריצת דרך שמאפשרת לכל מודל קטן ("מודל טיוטה") להאיץ כל מודל שפה גדול (LLM), ללא תלות בהבדלים במילון או ביצרן.
"פתרנו בעיה מהותית בתחום הבינה המלאכותית הגנרטיבית," אמר אורן פרג, חוקר בכיר מקבוצת עיבוד שפה טבעית באינטל לאבס. "הפיתוח שלנו הופך את ההאצה הספקולטיבית לכלי אוניברסלי, שכבר עוזר למפתחים לבנות יישומים חכמים ומהירים יותר."
מה זה Speculative Decoding?
מדובר בטכניקת אופטימיזציה לחיזוי טקסטים, שבה מודל קטן ומהיר מציע באופן ראשוני רצף של מילים (כמו: "פריז, עיר מפורסמת...") – ואז מודל גדול ומדויק מאשר או מתקן את ההצעה. זה שונה מהשיטה המסורתית שבה כל מילה נוצרת בנפרד, שלב אחר שלב, תוך שימוש יקר במשאבים.
החדשנות של החוקרים טמונה בכך שהשיטה אינה דורשת התאמה בין המילונים של המודלים – כלומר, אפשר להשתמש במודלים שונים שנבנו על ידי חברות שונות, ללא צורך באימון משותף או קוד מותאם אישית.
הישגים מרשימים: מהירות גבוהה פי 2.8 – ללא פגיעה באיכות
על פי הנתונים שהוצגו, השיטה מאפשרת האצה של עד פי 2.8 בזמני תגובה של מודלי שפה, ללא ירידה באיכות הפלט. היא גם תואמת לעבודה בענן או בקצה (Edge), ומהווה פתרון חסכוני ופתוח עבור מפתחים, ארגונים וחוקרים כאחד.
"עכשיו כולם יכולים ליהנות מיתרונות שהיו זמינים רק לחברות גדולות עם מודלים ייעודיים," הסביר נדב תימור, דוקטורנט בקבוצת המחקר של פרופ' דוד הארל ממכון ויצמן.
קוד פתוח, גמיש ומוכן לשימוש
האלגוריתמים שפיתחו אינטל ומכון ויצמן כבר שולבו בספריית הקוד הפתוח הפופולרית Hugging Face Transformers, מה שמאפשר למיליוני מפתחים ברחבי העולם ליישם את השיטה בקלות, ללא צורך בשורות קוד מותאמות.
סיכום
בזמן שהעולם עובר יותר ויותר לשימוש בבינה מלאכותית, הפיתוח של אינטל ומכון ויצמן מספק פתרון משמעותי לאחת הבעיות המרכזיות בתחום: כיצד להריץ מודלים גדולים – מהר יותר, בזול יותר, ובאופן פתוח ואוניברסלי.
המקור: אינטל בקישור הזה.