For faster navigation, this Iframe is preloading the Wikiwand page for מודל (סטטיסטיקה).

מודל (סטטיסטיקה)

בסטטיסטיקהמודל הוא תיאור מתמטי של תהליך הסתברותי שממנו התקבל מדגם, המגלם בתוכו אוסף של הנחות לגבי התהליך. במקרים רבים, המודל הסטטיסטי מייצג את התהליך שייצר את הנתונים במידה ניכרת של הפשטה.

המודל הסטטיסטי מורכב ממשפחה של התפלגויות הסתברות התואמות להנחות המגולמות בו, מתוך הנחה שלפחות חלק מההתפלגויות דומות מספיק להתפלגות שממנה נדגמו הנתונים. התפלגויות ההסתברות הכרוכות במודלים סטטיסטיים הן מה שמבדיל בין מודלים סטטיסטיים לבין מודלים מתמטיים אחרים, שאינם סטטיסטיים.

המודל הסטטיסטי מוגדר בדרך כלל על ידי משוואות מתמטיות שמעורב בהם משתנה מקרי אחד או יותר ואולי גם משתנים שאינם מקריים. מתוך כך אומרים לפעמים כי המודל הסטטיסטי הוא "ייצוג פורמלי של תאוריה"[1]

מודל סטטיסטי עומד בבסיסה של כל בדיקת השערות וכל אמידה סטטיסטית. באופן כללי יותר, מודלים סטטיסטיים הם אחד מיסודותיה של ההסקה הסטטיסטית.

הגדרה

באופן פורמלי, מקובל להגדיר מודל כזוג הסדור , כאשר הוא מרחב כל התצפיות האפשריות (או: מרחב הנתונים), ו- הוא אוסף התפלגויות הסתברות על .[2] בהקשרים מסוימים, עשויים לוותר על הציון המפורש של , וקוראים מודל סטטיסטי לאוסף .

ניתן להבין הגדרה זו, תחת ההנחה שיש התפלגות הסתברות "אמיתית" המשויכת לתהליך שיצר את הנתונים שהתקבלו. במקרה זה, מסמנים ב- קבוצה (של התפלגויות) אשר מכילה התפלגות שהיא קירוב מספיק טוב של ההתפלגות האמיתית.  לא חייבת בהכרח להכיל את ההתפלגות האמיתית, ובפועל היא מכילה אותה רק לעיתים נדירות. אכן, כפי שטענו ברנהם ואנדרסון, "מודל הוא הפשטה או קירוב של המציאות, ולכן איננו משקף את כלל המציאות"[3] – ומכאן מגיעה גם האמרה: "כל המודלים שגויים".

לקבוצה  כמעט תמיד יש פרמטר סטטיסטי שמשמש לה כאינדקס: . הקבוצה  מגדירה את הפרמטרים האפשריים של המודל. בדרך כלל, דורשים מהפרמטריזציה של שתהיה חד-חד-ערכית: כל זוג פרמטרים השונים זה מזה מהווים אינדקס להתפלגויות שונות. כלומר, בהכרח . במקרה כזה אומרים שהמודל ניתן לזיהוי.

דוגמה

נניח אוכלוסייה של תלמידי בית ספר, כך שגילם של הילדים באוכלוסייה מתפלג באופן אחיד. גובהו של כל ילד קשור באופן סטוכסטי לגילו: למשל, אם ילד הוא בן 7, זה משפיע על הסיכוי של הגובה שלו להיות מטר וחצי. ניתן להציג את מערכת היחסים הזו בצורת מודל רגרסיה ליניארית, למשל:

כאשר הוא גובהו של התלמיד ה-,‏ הוא גילו,  הוא החיתוך של קו הרגרסיה עם הציר האנכי (הקו )‏, הוא פרמטר שיש להכפיל בו את הגיל כדי לקבל תחזית לגובה, ו- הוא איבר שגיאה. המודל מניח שניתן לנבא את גובהו של תלמיד על ידי גילו, עד כדי שגיאה כלשהי.

מודל קביל חייב להיות עקבי עם כל הנתונים. לפיכך, הקו ישר () לא יכול להיות המשוואה עבור מודל הנתונים, כי הוא אינו מתאים בדיוק לכל הנתונים – התאמה תתקיים רק אם כל הנתונים נמצאים בדיוק על הקו. לכן, כדי שהמודל יהיה תואם לכל הנתונים, משוואת המודל כוללת גם איבר שגיאה .

כדי לבצע הסקה סטטיסטית, יש קודם כל להניח לאיזו משפחה של התפלגויות הסתברות שייך איבר השגיאה . למשל, ניתן (ולפעמים מקובל) להניח כי  הם משתנים מקריים נורמליים שווי-התפלגות בלתי-תלויים (לשם הקיצור: ש"ה ב"ת), בעלי תוחלת 0. במקרה זה, למודל יש 3 פרמטרים: , , והשונות של ההתפלגות הנורמלית ().

ניתן להגדיר את המודל באופן רשמי בצורה כדלקמן: מרחב הנתונים של המודל, , הוא קבוצת כל הזוגות (גיל, גובה) האפשריים. כל ערך אפשרי של  קובע התפלגות על ; נסמן את התפלגות זו ב-. אם היא קבוצת כל הערכים האפשריים של , אז . קל לבדוק שפרמטריזציה כזו היא ניתנת לזיהוי.

המודל נקבע על ידי: (א) קביעה של , (ב) קביעת כמה הנחות רלוונטיות עבור . בדוגמה לעיל, מניחים כי ניתן לקרב את הגובה כפונקציה ליניארית של הגיל וכי השגיאות של הקירוב מתפלגות נורמלית ללא תלות הדדית. הנחות אלו מספיקות כדי לקבוע את , כנדרש.

ממדי המודל

נניח מודל סטטיסטי ונסמן . נאמר כי המודל הוא פרמטרי אם הממד של  סופי. באופן פורמלי, מסמנים , כאשר k הוא מספר חיובי ( מציין את שדה המספרים הממשיים; באופן עקרוני, ניתן להשתמש גם בקבוצות אחרות במקומו). כאן, k נקרא הממד של המודל.

למשל, אם נניח כי הנתונים מגיעים מהתפלגות גאוסית חד ממדית, אז אנו מניחים כי

.

בדוגמה זו, הממד k שווה ל-2.

כדוגמה נוספת, נניח כי הנתונים הם אוסף של נקודות (x, y), אנחנו מניחים שההתפלגות שלהם מתוארת על ידי קו ישר עם סטיות נורמליות שוות-התפלגות בלתי-תלויות (עם תוחלת אפס). במקרה כזה, הממד של המודל הסטטיסטי הוא 3: נקודת החיתוך של הקו, השיפוע של הקו, והשונות של הסטיות.

אם הממד של אינו סופי, אומרים שהמודל הוא לא-פרמטרי או א-פרמטרי. למשל, במודל שמניח שלנתונים יש צפיפות הסתברות רציפה על קטע , אז היא קבוצת כל הפונקציות הרציפות על הקטע (), שהיא בעלת ממד אינסופי.

סטטיסטי מספיק

Postscript-viewer-blue.svg ערך מורחב – סטטיסטי מספיק

כל פונקציה של המדגם שאינה תלויה בפרמטר נקראת סטטיסטי. אומרים שסטטיסטי הוא מספיק, אם ההתפלגות המותנית של הנתונים בסטטיסטי היא קבועה ביחס לפרמטרים של המודל.

אינטואיטיבית, סטטיסטי הוא מספיק עבור מודל, אם הערך של הסטטיסטי מכיל את כל המידע לגבי ההתפלגות שממנה נלקח המדגם.

משפחות מודלים

מודלים מעריכיים

Postscript-viewer-blue.svg ערך מורחב – משפחה מעריכית

מודלים רבים ניתן לכתוב בצורה

ובכלל זה, מודלים שמבוססים על הרבה התפלגויות "מפורסמות", כמו ההתפלגות הנורמלית והתפלגות פואסון.

מודל רגרסיה

מודל שמטרתו לזהות יחס בין קבוצת משתנים ("מסבירים") למשתנה אחר ("מוסבר") נקרא מודל רגרסיה. לרגרסיה צורות רבות, אבל הנפוצה והמפורסמת מביניהן היא רגרסיה ליניארית (ראו דוגמה לעיל), שמניחה שהמשתנה המוסבר הוא פונקציה ליניארית של המשתנים המסבירים.

מקורות

  • Adèr, H.J. (2008), "Modelling", in Adèr, H.J.; Mellenbergh, G.J. (eds.), Advising on Research Methods: a consultant's companion, Huizen, The Netherlands: Johannes van Kessel Publishing, pp. 271–304
  • Burnham, K. P.; Anderson, D. R. (2002), Model Selection and Multimodel Inference (2nd ed.), Springer-Verlag, ISBN 0-387-95364-7
  • McCullagh, P. (2002), "What is a statistical model?" (PDF), Annals of Statistics, 30: 1225–1310, doi:10.1214/aos/1035844977

לקריאה נוספת

  • Davison A.C. (2008), Statistical Models, Cambridge University Press.
  • Freedman D.A. (2009), Statistical Models, Cambridge University Press.
  • Helland I.S. (2010), Steps Towards a Unified Basis for Scientific Models and Methods, World Scientific.
  • Kroese D.P., Chan J.C.C. (2014), Statistical Modeling and Computation, Springer.
  • Stapleton J.H. (2007), Models for Probability and Statistical Inference, Wiley-Interscience.

קישורים חיצוניים

ויקישיתוף מדיה וקבצים בנושא מודל בוויקישיתוף

הערות שוליים

  1. ^ קנת בולן (Kenneth A. Bollen), לפי ציטוט של הרמן אדר [Herman J. Adèr]).‏(Adèr 2008, p. 280)
  2. ^ McCullagh 2002.
  3. ^ Burnham & Anderson 2002, §1.2.5
{{bottomLinkPreText}} {{bottomLinkText}}
מודל (סטטיסטיקה)
Listen to this article

This browser is not supported by Wikiwand :(
Wikiwand requires a browser with modern capabilities in order to provide you with the best reading experience.
Please download and use one of the following browsers:

This article was just edited, click to reload
This article has been deleted on Wikipedia (Why?)

Back to homepage

Please click Add in the dialog above
Please click Allow in the top-left corner,
then click Install Now in the dialog
Please click Open in the download dialog,
then click Install
Please click the "Downloads" icon in the Safari toolbar, open the first download in the list,
then click Install
{{::$root.activation.text}}

Install Wikiwand

Install on Chrome Install on Firefox
Don't forget to rate us

Tell your friends about Wikiwand!

Gmail Facebook Twitter Link

Enjoying Wikiwand?

Tell your friends and spread the love:
Share on Gmail Share on Facebook Share on Twitter Share on Buffer

Our magic isn't perfect

You can help our automatic cover photo selection by reporting an unsuitable photo.

This photo is visually disturbing This photo is not a good choice

Thank you for helping!


Your input will affect cover photo selection, along with input from other users.