סינתזת דיבור
טכניקה להפקה מלאכותית של דיבור אנושי / ויקיפדיה האנציקלופדיה encyclopedia
סינתזת דיבור (באנגלית: Speech synthesis) היא טכניקה להפקה מלאכותית של דיבור אנושי. מערכות סינתזת דיבור נקראות לעיתים רבות מערכות טקסט לדיבור (text-to-speech או TTS) בשל יכולתן להמיר טקסט לדיבור.
סינתזה של דיבור נעשית באמצעות שיבוץ של רכיבי דיבור המקודדים למילים ולמשפטים של ממש[1]. לרוב סינתזת דיבור מופקת על בסיס הקלטות שונות שבוצעו בעבר של מקטעים ווקאלים שונים. עם זאת, קול אנושי אשר הומר בקודים ספרתיים מצריך מקום רב לאחסון ונשמע מלאכותי וחסר-גוון[1].
בסינתזה של הדיבור המילים מורכבות מפונמות[1]. דבר זה מאפשר למשפט הסינתטי לכלול גם הטיות קול והדגשות, בתנאי שהמחשב יכול לנתח את ההדגשים שבמסר בשעת הרכבתו[1].
האיכות של תוצר מערכות סינתזת דיבור נמדד לרוב על סמך הדמיון לדיבור אנושי אמיתי, וכמו כן מסתמך גם על עד כמה התוצר הסופי מובן. תוכנות סינתזת דיבור ברמות גבוהות יכולות למלא תפקיד חשוב, למשל על ידי מתן אפשרות לאנשים לקויי ראייה או בעלי דיסלקסיה להאזין למסמכים שנכתבו במחשב. מאז שנות ה-90 של המאה ה-20 מכילות מערכות הפעלה רבות מכילות יישומי סינתזת דיבור.