فرایندهای تصمیم‌گیری مارکوف

فرایندهای تصمیم‌گیری مارکوف (به انگلیسی: Markov decision process) (به اختصار: MDPs) یک چارچوب ریاضی است برای مدل‌سازی تصمیم‌گیری در شرایطی که نتایج تا حدودی تصادفی و تا حدودی تحت کنترل یک تصمیم‌گیر است. MDPs برای مطالعه طیف گسترده‌ای از مسائل بهینه سازی که از طریق برنامه‌نویسی پویا و تقویت یادگیری حل می‌شوند مفید است. حداقل از اوایل ۱۹۵۰ میلادی MDPs شناخته شده‌است (cf. (Bellman 1957)). هسته اصلی پژوهش در فرایندهای تصمیم‌گیری مارکوف حاصل کتاب رونالد هوارد است که در سال ۱۹۶۰ تحت عنوان «برنامه‌نویسی پویا و فرایندهای مارکف» منتشر شد.^[1] فرایندهای تصمیم‌گیری مارکوف در طیف گسترده‌ای از رشته‌ها از جمله رباتیک، اقتصاد و تولید استفاده می‌شود.

به‌طور دقیق تر، فرایندهای تصمیم‌گیری مارکوف، فرایندهای کنترل تصادفی زمان گسسته است. در هر گام، فرایند در حالت $s$ است و تصمیم‌گیر اقدام (عمل) $a$ را انتخاب می‌کند. پاسخ فرایند، رفتن به حالت جدید $s$ (در گام بعدی) به‌طور تصادفی و همچنین دادن پاداش R_a(s,s') به تصمیم‌گیر است $R_{a}(s,s')$ .

[1]