כמי שעיסוקו כריית נתונים, התעוררה אצלי מייד תגובה אוטומטית לחקור ולמצוא מהם מאפיני ה-ד"ז, אבל איך?!
אפשרויות כריית נתונים
מטעמי חסיות נתונים, הרשימה הוצגה ללא פרטי שדות מתארים (attributes). כל מה שניתן בה הוא שמות, כתובות, והתאריך בו הוכרזו בתור ד"ז. בנוסף, טווח התאריכים מוגבל לשנה בלבד, מה שמפריע לאיתור תופעות עונתיות ומגמות, והרשימה כוללת רק ד"ז ללא רשומות תקינות, כך שלא ניתן להסיק ממנה בבירור על מאפיני התנהגות חריגה.
הבעיה העקרונית היא, שבלי שדות מתארים ומגוון מלא של רשומות, לא ניתן לפענח דפוסי התנהגות!
ובכן לא בדיוק כך.
המתבונן יווכח, שבתוך השדות המילוליים מסתתר מידע מוצפן, שניתן להפרדה ולשימוש. לדוגמא: שם משתמש מכיל לפעמים מספר מילים, ספרות, משפטי פרסום, ומילים אינדוקטיביות כגון "buy" או "sell". אפשר להפריד את המידע הזה לשדות מתארים ספציפיים. כך עשיתי, תוך מעבר בשבע עיניים על כל פרט גם בכתובת הדואל והתאריך, ובסיכומו של דבר הגעתי ל-20 שדות מתארים... אמנם השדות תלויים ביניהם במידת מה, אך הדבר לא מפריע למנגנון כריית נתונים GT שבו אשתמש. המיוחד ב-GT לצרכינו הוא, גילוי קשרים סמויים בתוך הנתונים.
ובכן, עם 20 שדות וקרוב לאלף שורות ברשימה, כבר ניתן לעשות משהו. כעת אפשר להתחיל.
הערה: אם מישהו חולק על קביעה כלשהי, אתיחס ברצון, ובינתיים אמשיך בתיאור המקרה במקוצר.
מסקנות לגבי דפוסי התנהגות Spam - ספאם
נחשפות כ-8 קבוצות (clusters) של רשומות, ובהן קבוצה בעלת סיכון גבוה וקבוצה בעלת סיכון נמוך יחסית.
קבוצת ד"ז בסיכון גבוה הם משתמשי gmail, בעלי שם קצר, ושם-משתמש שמכיל ספרות רבות.
לעומת זאת, קבוצת ד"ז בסיכון נמוך הם משתמשים מכל האתרים, והמכנה המשותף היחיד שלהם הוא תאריך סוף שנה.
הסתכלות על מאפיני הקבוצות הקיצוניות, תמיד מלמדת הרבה.
מסקנות גורמי מפתח
האתר שממנו נשלח ד"ז, הוא ברב הקבוצות הגורם הבולט לחומרת סיכוני SPAM. במספר קבוצות נמצאו גורמים-משולבים פרטניים, כגון: מספר המילים בשם השולח, היום בשבוע, מספר הספרות והאותיות בשם-משתמש ועוד סמנים שקל לזהותם, ובאמצעותם לזהות משתמשים חשודים עוד לפני שעשו צעד אחד.
מבחן התוצאות של GT
לצורך מבחן התוצאות שהן במקרה זה "ניבוי רמת הסיכון", השארתי בצד מראש מחצית מהרשומות שאותן בחרתי באקראיות. עכשיו משתמשים בהן.
ראשית כל, GT מזהה את השיוך של כל רשומה לאחת מ-8 הקבוצות או דפוסי ההתנהגות.
לאחר מכן, הוא מפעיל על כל רשומה את נוסחת הניבוי שלה שהוגדרה קודם.
את תוצאת הניבוי של דרגת סיכון ה-ד"ז משווים לדרגת הסיכון בפועל, ומחשבים את הסטייה.
הערה: זהו תהליך סטנדרטי של מבחן השערות סטטיסטי. בנקודה זו GT מתחבר עם הזרם המרכזי של ניתוח נתונים בכל השיטות, בספקו השערות מגובשות שניתן לבדוק אותן בכלים סטנדרטיים.
הסטייה אמנם מתכווצת ב-4.2% בממוצע, שהוא הישג לא קטן בהתחשב במגבלות סט הנתונים ובמגוון הרחב של תופעת ה-SPAM.
תועלת נוספת
אחרי הפקת תרשימי GT, מתבררת תועלת נוספת. בדיקה מראה שהדיוק לא אחיד, ולמעשה הניבוי בקבוצת הסיכון הגבוה הינו יעיל/מדויק יותר. ראו בתרשים המצורף את גרף הסיכון-הגבוה (באדום) קרוב ל-45°, כלומר הניבוי כמעט זהה בממוצע לתוצאת האמת. לשם השוואה, ראו את קבוצת הסיכון הנמוך, שבה הניבוי מתרחק מקו 45°, כלומר יעילותו נמוכה.
זה ממצא חשוב שמוכיח רגישות להתראות במקרים של סיכון גבוה והפחתת התראות שווא הקשורות בד"כ למקרים של סיכון נמוך.