הצטרפו לקבוצות שלנו לקבלת עדכונים מרוכזים פעם בשבוע:

ווטסאפ:
http://wa.dwh.co.il
טלגרם:
http://telegram.dwh.co.il

קידוד וסיווג

More
18 years 6 months ago #956 by Edith Ohri
כמו זה שלא ידע שהוא כותב פרוזה... רבים משתמשים בטכניקה של קידוד וסיווג - Coding & Classification, C&C בלי לדעת שזה שמה. זוהי אחת הטכניקות העתיקות והכי טבעיות לשימוש.
היא בנוייה על הרעיון של חיתוך הנתונים על פי מישתנים מוגדרים. לדוגמא, חיתוך של נתוני מכירות לפי תאריך, גובה הקנייה, אמצעי תשלום, שמות מוצרים, וכד'.

החסרון של שיטת C&C הוא ברגישות הגבוהה שלה לאיכות הנתונים. אם נניח יש שדה שגוי, הרשומה שלו תעוף מהחיפוש. חסרון נוסף הוא התלות שלה בהגדרות הקבועות של השדות. לדוגמא, מכירות מוצרים במבצע שקבלו קוד זמני לצורך המבצע, עלולים להישמט מדוח המכירות. אפשר לפתור את הבעיה הזאת ע"י קידוד מסודר, אבל ערפל נתונים מסוים תמיד קים בכל ארגון, כולל ארגוני התקינה בכבודם ובעצמם  :-X  ככה זה, העולם הוא כבר לא מה שהיה פעם - קטן, היררכי ופשוט לשליטה. בעולם של היום, עדיין מקבלים ב-C&C דוחות יפים, כמו דוח המכירות דלעיל שמתיחס רק לחלק מהנתונים, אבל השד יודע מה הם אומרים. 

לפני משהו כמו 15 שנים הכניסו לשימוש את המושג fuzzy logics, כדי לתת "גמישות" לערכי השדות, ולהתגבר על הרעש בנתונים. אבל פאזי-לוג'יקס לא ממש סיפק את הסחורה, למיטב ידיעתי, אם לשפוט לפי מיעוט היישומים שלו.

נזכרתי בכל זה, כי עצי החלטות, SQL, ומנגנוני השאילתות כולם, בנויים למעשה על הרעיון של C&C, של סיווג הנתונים על פי ערכים דטרמינסטיים. החולשה בפתרון מסוג זה היא הרגישות לרעש בנתונים, והיא עולה ביוקר. הארגונים משקיעים בפרויקטים אדירים, כדי לספק את דרישות הקדם לנתונים איכותיים וחד-משמעיים שאין בהם רעש. לא עדיף בהרבה להגמיש את ההגדרות ולהתפטר מדרישות קדם כאלה?





בברכה
אדית

Please התחברות to join the conversation.

Moderators: Edith Ohri
Time to create page: 0.228 seconds