רגרסיה (אנליזה)
ויקיפדיה האנציקלופדיה encyclopedia
בסטטיסטיקה, ניתוח רגרסיה הוא שם כולל למשפחה של מודלים סטטיסטיים להערכת הקשרים בין משתנים. המשותף לכל המודלים הוא קיומם של משתנה מוסבר (המכונה לעיתים בשם המשתנה התלוי) ומשתנה מסביר אחד או יותר (המכונים לעיתים בשם המשתנים הבלתי תלויים או המשתנים המנבאים)[1]. בעזרת מודל רגרסיה ניתן ללמוד כיצד ערכו של המשתנה המוסבר משתנה כאשר חל שינוי בערכו של אחד המשתנים המסבירים, וערכי שאר המשתנים המסבירים נשארים קבועים. עם זאת, אין בכך די כדי להסיק סיבתיות: השינוי בערכו של המשתנה המסביר לא בהכרח גורם לשינוי בערכו של המשתנה המוסבר.
מבחינה הסתברותית, מודל הרגרסיה אומד בדרך כלל את התוחלת המותנית של המשתנה המוסבר בהינתן המשתנים המסבירים. עם זאת קיימים מודלים האומדים פרמטרי מיקום אחרים של המשתנה המוסבר, או פונקציה של התוחלת, מותנה במשתנים מסבירים.
מודלים של רגרסיה משמשים לעיתים קרובות לצורך חיזוי ערכים של המשתנה המוסבר במצבים שונים הנקבעים על ידי ערכי המשתנים המסבירים. ישנם מודלים שמאפשרים סיווג של המשתנה המוסבר למספר קבוצות (למשל, בהינתן תוצאות של בדיקות רפואיות, תוצאת המודל היא קביעה האם האדם הוא בריא או חולה). כאן יש חפיפה רבה בין המודלים הסטטיסטיים ובין התחום של למידת מכונה. שימוש נפוץ נוסף למודלים של רגרסיה הוא לבחון את מהות הקשרים בין המשתנים המסבירים (או חלקם) ובין המשתנה המוסבר. במקרים מסוימים ניתן להשתמש במודלים של רגרסיה לצורך הסקה סיבתית מהמשתנים המסבירים אל המשתנה המוסבר, אך יש לבחון היטב את ההנחות עליהן מתבססת הסקת הסיבתיות.
כמו מודלים סטטיסטיים אחרים, גם מודלים של רגרסיה מבוססים על התהליך שבו נוצרו הנתונים של המשתנה המוסבר. מאחר שבדרך כלל פרטי התהליך אינם ידועים, המודלים נשענים על הנחות, שלא כולן בהכרח ניתנות לבדיקה. הרגישות של המודל להפרת ההנחות שונה ממודל למודל, ואף תלויה בתכלית שלשמה המודל מיועד (למשל, כאשר רמת הדיוק הנדרשת מהתחזיות אינה גבוהה מאוד).