ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: חוק מס' 19 במדע הנתונים החדש –לכלול רשומות חלקיות

חוק מס' 19 במדע הנתונים החדש –לכלול רשומות חלקיות 2 months 16 hours ago #8500

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 340
  • קרמה: 0
חוק מס' 19 במדע הנתונים החדש
יש לכלול בקלט רשומות חלקיות (שחסרים בהן שדות).
העדרם של ערכי שדות ברשומה עשוי להיות בעל משמעות, במיוחד כשהמשימה היא לפענח תופעות נדירות או חריגות.

הערה: הדרישה לכלול רשומות חלקיות נסמכת על העקרון הראשון של מדע הנתונים הדן באיסור ניקוי נתונים.

דוגמא א': איתור אינדיקטורים מוקדמים לסרטן צואר הרחם.
בבדיקות מעבדה שנערכו בבית חולים איכילוב, בנשים שהיה אצלן חשד להתפתחות סרטן צואר הרחם, חסרו בחלק מהרשומות פרטים על המטופל וסיכום חו"ד הרופא.
המדגם היה קטן מדי (פחות מ-200 רשומות) ורב-משתנים, והצטמצם עוד יותר עקב הדרישה הסטטיסטית להוציא רשומות חלקיות. בסיכומו של דבר, ניתוח הנתונים הסטטיסטי לא הניב מסקנות כלשהן.
מאוחר יותר המדגם התגלגל לידי. ניתוח עם GT כולל רשומות חלקיות. התברר כי רוב הרשומות האלה שיכות לדפוס של "סיכון אפסי עד נמוך" ויש להניח שהרופא לא טרח למלא פרטים כי לא ראה סיכון ממשי. איתור הדפוס והכללת הרשומות שלו בניתוח, איפשרו לאבחן את השלב הראשוני של התפתחות המחלה, להגדיר את מאפיני ההתחלה שלה, ומתוכם - את הוירוסים האופיניים שמהווים אינדיקטורים מוקדמים. הוירוסים שאותרו הושוו ונמצאו מתאימים לוירוסים ידועים בקהילה הרפואית (זה היה לפני אישור בדיקת HPV לשימוש בניטור סרטן צואר הרחם). אחד הוירוסים שנחשבים למסוכנים, נמצא בניתוח זה כטיפוסי להתחלה בלבד ושפיר בהמשכה. בנוסף לאינדיקטורים הופקו תובנות להמשך מחקר. תבנה אחת חשובה התיחסה לוירוסים מיוחדים שייתכן וקימים בישראל ואינם כלולים בבדיקת HPV.

דוגמא ב': מחקר נפילות קשישים.
ממדגם מחקר נפילות קשישים שנערך בבי"ח מאיר בכפר-סבא, סולקו הרשומות החלקיות של מטופלים שנפטרו במהלך המחקר. סילוק הרשומות החלקיות, גרם לטשטוש התוצאות והטיה שלהן עד כדי אבסורד! בין היתר, התקבלה תוצאה סטטיסטית בלתי הגיונית, לפיה יש כביכול קשר הפוך בין גיל לחומרת סיכון נפילה של מבוגרים (הסבר: המקרים הקשים שמסתימים במוות סולקו מהמדגם ואיתם הרשומות הקיצוניות של גילים גבוהים ונפילות מסוכנות, כך שסטטיסטית נראה כאילו בגיל גבוה פוחתת חומרת הנפילה...).
ניתוח באמצעות GT העלה ממצאים מענינים לגבי גורמי סיכון שלא כאן המקום להעמיק בהם, ואף סיפק הסבר לממצא הסטטיסטי בדבר קשר הפוך כביכול בין גיל לסיכון נפילה. התברר ב drill-down שבכל הקבוצות מלבד אחת המאופינת בגיל גבוה ומחלות קשות, קימת החמרת הסיכון עם הגיל, ורק בקבוצה החריגה הקשר בין גיל לסיכוני נפילה הינו הפוך, אך זאת יש להניח בגלל הוצאת הרשומות של מקרי מוות המתרכזים בעיקר בקבוצה זו...

בברכה
אדית
עריכה אחרונה: 1 month 3 days ago  ע''י Edith Ohri. סיבה: ניסוח
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 19 במדע הנתונים החדש –לכלול רשומות חלקיות 1 month 3 days ago #8502

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 340
  • קרמה: 0
בהמשך לדוגמא ב' שבה ניתוח סטטיסטי הוביל לתוצאה, כאילו יש קשר יורד בין הסיכון לנפילות לגיל של מטופלים מבוגרים -
זו תוצאה שגויה שמקורה יש לשער הוא ברשומות הנפטרים שהוצאו מהמדגם בגלל היותן חלקיות. הנפטרים הם ברובם מבוגרים בסיכון גבוה, ואילו נכללו בניתוח היו "מושכים" את העקומה כלפי מעלה (והופכים את הקשר לעולה).
טעות זו ממחישה את האבסורד של ההנחה הסטטיסטית IID - "הפיזור הבלתי תלוי והאחיד" של ערכי משתנים במדגם.
למותר לצין, שאי קיום הנחה כה בסיסית כמו ה-IID בניתוח הסטטיסטי המוצג באיצטלה מתמטית מדויקת, משבש את המסקנות המתקבלות ואת היכולת לתקן אותן.
עוד בנושא gtdatamining.blogspot.com/2016/09/the-la...ails-in-big.html?m=0

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.305 שניות

הדף שלנו בפייסבוק

מעניין? שתפו דף זה באמצעות הטלפון הנייד

אירועים קרובים

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning