הצטרפו לקבוצות שלנו לקבלת עדכונים מרוכזים פעם בשבוע:

ווטסאפ:
http://wa.dwh.co.il
טלגרם:
http://telegram.dwh.co.il

Overfit - מתמקדים בהתאמת-יתר

More
14 years 7 months ago - 14 years 7 months ago #6736 by Edith Ohri
Overfit - התאמת יתר, היא הקללה של כריית הנתונים האוטומטית.
מקור הקללה הוא בגורו הראשון שאמר שאם נבצע אינסוף נסיונות לקלוע למטרה, אמנם נקלע.



יש ברעיון הנ"ל משהו מפתה, צריך להודות, אפילו מבחינה מתמטית: כאשר מרחב הפתרון קטן יותר ממספר הנסיונות, הרי שהם מכסים את כל האפשרויות ובתוכן האפשרות הנכונה. אז מה לא בסדר כאן?
- הכל לא בסדר.

ראשית כל, מרחב הפתרון המיוצג ע"י סט נתונים, הוא חלקי למציאות.
שנית, במציאות קימים גורמים סמויים שלא נלקחו בחשבון ואינם מוגדרים כלל.
לכן, לא ניתן להתיחס לכריית נתונים כלניתוח מספר סופי של אפשרויות או של מישתנים. אף פעם!

אבל את זה אי אפשר להסביר לאנליסט שבידיו מערכת עם כוח מיחשוב אימתני ובאפו ריח פסגות משכר. לכן מוצאים כל כך הרבה אנליסטים שעשו את הדרך של מיצוי כל האפשרויות, הגיעו לתוצאה מדויקת כביכול. רק מה, פתאום בעיה, כושר הניבוי של הנוסחאות שהפיקו בעמל וכסף רבים, לא עומד במבחן הניסוי.

אז מה נשאר לעשות, איך לצאת בכבוד מכשלון במבחן הניסוי? פשוט, ממציאים שם של בעיה חדשה, מדעית כאילו, סוגייה תיאורטית מהספרים.
קחו למשל, דוגמא יוצאת מהכלל, התאמת יתר.
מצלצל ממש טוב. אבל אגיד לכם מה מסתתר מתחתיו... מתחת למונח המצוחצח תמצאו הרבה אמונה בכח, שחצנות, וחוסר הבנה, שמאפשרים לקבל את הרעיון, שאם רק נאפשר למחשב ללהג מספיק זמן, הוא יצליח לחבר יצירה של שקספיר!

לי נראה, שהתאמת יתר היא העונש הטבעי לכל מי שמנסים לעקוף את המתמטיקה בעזרת brute force, ומגיע להם.



מי שמתענין בשאלה, מוזמן לקרוא את התחרות החדשה של Kaggel באתר www.heritagehealthprize.com/c/hhp
שכותרתה: Don't Overfit!


בברכה
אדית
Last edit: 14 years 7 months ago by Edith Ohri. Reason: הפונצקיה של קישור לא פועלת. וגם תיקונים מילוליים

Please התחברות to join the conversation.

Moderators: Edith Ohri
Time to create page: 0.217 seconds