הצטרפו לקבוצות שלנו לקבלת עדכונים מרוכזים פעם בשבוע:

ווטסאפ:
http://wa.dwh.co.il
טלגרם:
http://telegram.dwh.co.il

עקרונות מדע הנתונים החדש

More
9 years 2 months ago - 5 years 9 months ago #8399 by Edith Ohri
העקרונות החדשים של מדע הנתונים*
*לפי תפיסת GT data mining

  1. אין לנקות נתונים! אין להניח דבר מראש, אלא אם כן המודל מאפשר לבדוק את אמיתותו;
  2. מדגם חיב לכלול תופעות נוספות לזו שבמוקד הענין, ובנתונים לא-מפוקחים - גם את המטה-דטה. הערה: מדגם אינו חיב להיות מיצג;
  3. כל המשתנים נחשבים לתלויים הדדית כנקודת מוצא;
  4. צעד ראשון באבחון נתונים הוא חלוקתם לקבוצות היררכיות;
  5. תוצאות ניתוח הנתונים חיבות להיות מוסברות, או להוביל לתבנות חדשות. הערה: תבנה היא סוג של אינדוקציה שנובע מהכללת מסקנות או מהיסק לוגי על בסיס חוקים קימים;
  6. מטרת ניתוח ביג דטה היא ליצר השערות (לא רק לבחון השערות);
  7. השערה טובה מובילה להגדלת השליטה בתחום הנבדק.

פורסם במקור באתר ResearchGate:
www.researchgate.net/project/Philosophy-...9f53b53d2f46c7eb4c57


בברכה
אדית
Last edit: 5 years 9 months ago by Edith Ohri. Reason: תיקון

Please התחברות to join the conversation.

More
9 years 1 month ago #8402 by Edith Ohri
העקרונות המתוארים בדיון זה, הם הרחבה של ניתוח הנתונים למקרה כללי (שהוא ביג דטה), שבו בגלל הכמויות העצומות ותערובת התופעות הלא מוגדרות, לא ניתן לנקות נתונים ואי אפשר להניח מראש דבר – אפילו לא את המטרה. במקרה הכללי, כל ההגדרות חופשיות בהתחלת הלימוד. לפנינו למעשה בעיה של "הביצה והתרנגולת". שמציבה שאלות קשות -- איך להתחיל ללמוד? איך לחפש כשלא יודעים מה הדבר שמחפשים?! שאלות כאלה מחיבות מענה, לפני שמאמצים מודל חישובי כלשהו. העקרונות משקפים את המענה של GT ומאפשרים את מודל הפתרון שלו.

שלושת העקרונות הראשונים מקבלים את תיאור המציאות של ביג דטה כנקודת מוצא. במציאות הזאת, אי אפשר או לא כדאי לנקות את הנתונים, וחיבים לקחת בחשבון את הסביבות שבהן נוצרים נתונים. כ"כ, צריך להודות שהידע ההתחלתי בנוגע לקשרים בין משתנים הוא זעיר, ולפיכך עדיף להניח ש"הכל קשור להכל".
הערה: אפשר להסתדר גם בלי 3 העקרונות האלה, בעיקר במצבים מסוימים שבהם יש מידע מוקדם, אך צריך להבין שזה בא על חשבון האפקטיביות של התוצאות וטווח החיזוי שלהן.

העקרונות הרביעי והחמישי מחליפים את עקרון ה"חזרתיות" הסטטיסטי באימות תוצאות ניתוח נתונים. במקומו אני מציעה בתפיסת GT לבדוק השערות לפי סוג של מבחן התוצאה, או ליתר דיוק - מבחן שימושיות התוצאה להסבר נתונים לא מבוקרים. זה מבחן קשה יותר מהסטטיסטי, כי יש לו קצה פתוח, הוא צריך לעמוד גם בתנאים שלא נלמדו. אבל אין מה לעשות, החיים קשים וזה המבחן האמיתי שצרכני המידע מצפים לו, שהתוצאות יהיו רלוונטיות בטווח גדול של מצבים, גם אם לא אמרו זאת בכל כך הרבה מילים :)

העקרונות השישי והשביעי מחליפים את הגדרת המטרה הידועה מראש, וקובעים רק את התכונות הרצויות במטרה. כל דבר שמקיים את ההגדרה מתאים, כולל מטרות שמנוסחות בצורה לא כמותית, או מטרות שיש להן מספר מימדים, שזו צרה-צרורה בסטטיסטיקה אך לא כאן. איך נדע שהשגנו את המטרה בתוך כל זה? פשוט נראה אם מצאנו לפחות השערה חדשה אחת שניתנת לבחינה, או תבנה שמסיעת להגיע לשליטה נמדדת בנושא הנבדק.
על תבנות שווה לכתוב בנפרד. רק אקדים ואומר שהן יצירתיות ויש שרואים בהן אומנות, אך בעברית אומנות עם חולם ואומנות עם מפיק זה כמעט אותו דבר. גם באנגלית Artist ו- Artisan. עד לפה להפעם.

אדית
Home of GT data mining


בברכה
אדית

Please התחברות to join the conversation.

More
1 month 5 days ago #8565 by Edith Ohri
האקסיומות של הפרדיגמה החדשה, הנוסח שפורסם בלינקדאין Eng

Moving Beyond Statistics: The Axioms of New Data Science

Data Science is more than just a sophisticated collection of analytical tools; it is a new paradigm for data utilization. It empowers independent researchers and users to derive value directly from raw data, bypassing the rigid mathematical constraints of traditional statistics.
By shifting the focus from "cleaning data" to "respecting reality," the GT Method introduces a rigorous framework for discovery in an unsupervised world of data.
I am proud to present, the fundamental axioms of this new theory:

The Axioms of New Data Science (The GT Method)
Goal: The objective of analyzing unsupervised data is to generate hypotheses and explanations that can be tested and falsified (rather than merely testing unchecked hypotheses).

1. The Axiom of Authenticity and Inclusion (Input)
· No Data Cleaning: Do not clean or filter data; reality must be studied as it is.
· Zero Preconceptions: Assume nothing in advance unless the model itself can validate it (no independence of variables, no distribution patterns, no representativeness, no predefined correlations, etc.).
· Sample Inclusion: The sample must include events outside the primary focus as well as metadata, to enable the model to identify group boundaries and pre-conditions.
Notes: (a) A sample does not have to be representative; (b) The sample is divided into a Training set and a Testing set.

2. The Axiom of Hierarchy and Interpretation (Process)
· Clustering First: Diagnosis begins with the classification of records from the Training set into groups.
· Structural Properties: By definition, these groups are hierarchical, relatively homogeneous, and possess unique individual group characteristics.
· Logical Analysis: These groups serve as the basis for logical comparison, leading to the formation of hypotheses, explanations, and insights.
*Definition: Insight. An unproven discovery (due to data limitations) derived through induction, extension of conclusions, or analogy to established laws.

3. The Axiom of Hypothesis Validation (Outcome)
· Out-of-Sample Validation: Validation of a hypothesis is achieved through the prediction of target events taken from the Testing set. The validation method can be statistical, logical, or heuristic.
· Ultimate Effectivity: The proof of the model lies in its ability to generate conclusions that demonstrably increase certainty and control over the subject matter.

© All Rights Reserved.

www.linkedin.com/feed/update/urn:li:share:7429551744306663424/


בברכה
אדית

Please התחברות to join the conversation.

Moderators: Edith Ohri
Time to create page: 0.281 seconds