تولید زبان طبیعی

تولید زبان طبیعی (انگلیسی: Natural language generation) که به‌طور مخفف NLG خوانده می‌شود، یک فرایند نرم‌افزاری است که خروجی زبان طبیعی را تولید می‌کند. در یکی از پراستنادترین بررسی‌های روش‌های NLG, NLG به‌عنوان «زیرشاخه‌ای از هوش مصنوعی و زبان‌شناسی محاسباتی توصیف می‌شود که با ساختن سیستم‌های رایانه‌ای سروکار دارد که می‌تواند متون قابل فهمی را به زبان انگلیسی یا سایر زبان‌های انسانی از برخی بازنمایی زیربنایی غیرزبانی اطلاعات تولید کند».^[1]

در حالی که به‌طور گسترده توافق شده‌است که خروجی هر فرایند NLG متن است، در مورد اینکه آیا ورودی‌های یک سیستم NLG باید غیرزبانی باشند یا خیر، اختلاف نظر وجود دارد.^[2] کاربردهای متداول روش‌های NLG شامل تولید گزارش‌های مختلف، به عنوان مثال آب و هوا^[3] و گزارش‌های بیمار،^[4] شرح تصاویر. و بات مکالمه است.

NLG خودکار را می‌توان با فرایندی مقایسه کرد که انسان‌ها هنگام تبدیل ایده‌ها به نوشتار یا گفتار از آن استفاده می‌کنند. روانشناسان زبان اصطلاح تولید زبان را برای این فرایند ترجیح می‌دهند، که می‌تواند در اصطلاحات ریاضی نیز توصیف شود یا در رایانه برای تحقیقات روانشناختی مدل شود. سیستم‌های NLG را همچنین می‌توان با مترجم‌های زبان‌های رایانه‌ای مصنوعی، مانند دیکامپایلرها یا ترانسپایلرها مقایسه کرد، که کدهای قابل خواندن توسط انسان تولید شده از یک نمایش میانی را نیز تولید می‌کنند. زبان‌های انسانی به‌طور قابل توجهی پیچیده‌تر هستند و امکان ابهام و تنوع بیان بسیار بیشتری را نسبت به زبان‌های برنامه‌نویسی می‌دهند، که NLG را چالش برانگیزتر می‌کند.

NLG ممکن است به عنوان مکمل درک زبان طبیعی (NLU) در نظر گرفته شود: در حالی که در درک زبان طبیعی، سیستم باید جمله ورودی را برای تولید زبان نمایش ماشینی ابهام‌زدایی کند، در NLG سیستم نیاز به تصمیم‌گیری در مورد نحوه نمایش یک زبان به کلمات دارد. ملاحظات عملی در ساخت NLU در مقابل سیستم‌های NLG باید با ورودی مبهم یا اشتباه کاربر مقابله کند، در حالی که ایده‌هایی که سیستم می‌خواهد از طریق NLG بیان کند، عموماً دقیقا شناخته شده‌اند. NLG باید یک نمایش متنی خاص و خودسازگار را از میان بسیاری از نمایش‌های بالقوه انتخاب کند، در حالی که NLU معمولاً سعی می‌کند یک نمایش واحد و نرمال شده از ایده بیان شده تولید کند.

NLG از زمان توسعه ELIZA در اواسط دهه ۱۹۶۰ وجود داشته‌است، اما این روش‌ها برای اولین بار در دهه ۱۹۹۰ به صورت تجاری مورد استفاده قرار گرفتند. تکنیک‌های NLG از سیستم‌های مبتنی بر الگوی ساده مانند ادغام ایمیل که نامه قالبی تولید می‌کند تا سیستم‌هایی که درک پیچیده‌ای از دستور زبان انسانی دارند، متغیر است. NLG همچنین می‌تواند با آموزش یک مدل آماری با استفاده از یادگیری ماشین، معمولاً بر روی مجموعه بزرگی از متون نوشته شده توسط انسان انجام شود.^[5]

[1]

[2]

[3]

[4]

[5]