התחברות

התחברות
x
או
x
הרשמה
x

או

קליק אחד ואתם מחוברים. מהיר .קל .מאובטח.

מעניין? שתפו דף זה באמצעות הטלפון הנייד

אירועים קרובים

מאמרים

מגמות של ביג דאטה בעולם הביטוח
CA Technologies
SSIS - Buffer Size Optimization
קטגוריה ראשית
בדיקות BI ו-DWH לעומת הבדיקות בתחומים אחרים
קטגוריה ראשית
איסוף דרישות לפרויקטי BI
קטגוריה ראשית
כח המידע במיקוד
קטגוריה ראשית
0

הדף שלנו בפייסבוק

ברוך הבא, אורח
שם משתמש: סיסמא: זכור אותי

דיון: חוק מס' 14 במדע הנתונים- פעימה לסירוגין של הגורמים

חוק מס' 14 במדע הנתונים- פעימה לסירוגין של הגורמים 3 months 3 weeks ago #8468

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 320
  • קרמה: 0
חוק מס' 14 במדע הנתונים - פעימה לסירוגין של גורמים משפיעים (או חוקים) בהיררכיה

הגורמים המשפיעים בדפוס לא יופיעו בתת-דפוסים (תת הקבוצות) ממדרגה ראשונה, ועשויים לחזור ולהופיע בפירוק לתת-קבוצות המפרטות אותן, ממדרגה שנייה ומעלה. החוק נקרא חוק הפעימה, עקב הופעת גורמים משפיעים לסירוגין בקבוצה ובתת-קבוצות שלה.

הסבר החוק נמצא באופן החישוב וההגדרה של תת קבוצות: ההגדרה ממצה את הסיבתיות של הקבוצה העליונה, ומחלקת ע"י כך את הנתונים בהתאם לגורמים בדיוק. כתוצאה, נוצרות תת-קבוצות אחידות-סטוכסטית מבחינת הגורמים של חוקי הקבוצה העליונה, ולכן אדישות לגורמים אלה. בהמשך הפירוק של תת-הקבוצות לרזולוציה גבוהה יותר, הגורמים עשויים להופיע שוב, עקב תכונת הסטוכסטיות.

לדוגמא:
נניח שבמחקר נמצא שמשקלם של אנשים מושפע מהגורמים - גיל, גובה, השכלה, ומצב כלכלי ומשפחתי.
נניח שבמחקר הוגדרו דפוסי התנהגות המשקל דלהלן (שם הדפוס ניתן לפי התכונה הבולטת שלו):
י*ילדים למשפחות חד הוריות, * חילים וסטודנטים, *הורים שעובדים במספר משרות, *קשישים בודדים, *בעלי נכסים בשווי מיליון שקל ומעלה, *נתמכים, *עובדים בשכר גדול מפי 3 של המינימום במשק.
אם נסתכל בדפוס (קבוצה) של החילים והסטודנטים, לא נמצא בתוכה קשר בין גיל למשקל, מאחר והדפוס אחיד פחות או יותר מבחינת הגיל. אך אם נמשיך לפרק את הדפוס הזה לתת-הקבוצות שלו, ייתכן שיהיו בינהן תת-קבוצות עם גילים מגוונים כגון "עולים חדשים שהתגיסו לשירות" או "סטודנטים לתארים גבוהים". מגוון הגילאים בתת-קבוצות אלה מאפשר למשתנה הגיל להופיע שוב (זו הפעימה) כמשתנה משפיע על המשקל.


פרויקט מדע הנתונים מתבסס על
GT data mining - כל הזכויות שמורות

בברכה
אדית
עריכה אחרונה: 3 months 2 weeks ago  ע''י Edith Ohri. סיבה: הדיון נעלם, שחזרתי אותו, ואז הופיע מחדש בכפילות. מחקתי את המיותר.
הנהלת האתר ביטלה גישת כתיבה ציבורית.

חוק מס' 14 במדע הנתונים- פעימה לסירוגין של הגורמים 3 months 3 weeks ago #8469

  • Edith Ohri
  • Edith Ohri's Avatar
  • Offline
  • Moderator
  • הודעות: 320
  • קרמה: 0
צירוף המילים "אחידות-סטוכסטית" מתכוון להגיד שהדפוס אחיד פחות או יותר מבחינת המשתנה הנבדק, לא אחיד במובן הדטרמיניסטי.
בסטטיסטיקה מניחים שהנתונים הם IDD - identically distributed data, שהם בלתי תלויים זה בזה ומפוזרים באופן אקראי במרחב הפתרון שמשתקף במדגם.
יש על כך הרבה השגות במדע הנתונים החדש. אחת מהן בהקשר זה היא, שההנחה הנכונה צריכה להיות, שהנתונים מתקבצים לדפוסים (על פי חוקים שיש לגלותם). מאחר והם מתקבצים הם לא מפוזרים שווה במדגם וייתכן למצוא אותם מרוכזים בדפוסים נבדלים ובאזורים מסוימים בתוכם.
חשוב לצין בנוסף - ייתכן שאותו גורם ישפיע אחרת בערכים שונים שלו. לפיכך יש לבחון כל קשר שנמצא ביחס לקונטקסט שבו הוא מופיע. משמעות המשפט האחרון היא שחלקי משתנים עשויים להופיע כמשתנים נפרדים, ולפיכך קימים הרבה יותר משתנים ממה שהחוקרים סבורים, ותיאורטית - אינסוף משתנים.

בברכה
אדית
הנהלת האתר ביטלה גישת כתיבה ציבורית.
מנהלים: Edith Ohri
זמן יצירת העמוד: 0.164 שניות

Microsoft

Oracle

IBM

Informatica

Sap

SAS

Qlikview

Cloudera

Machine Learning