סינתזת דיבור

סינתזת דיבור (באנגלית: Speech synthesis) היא טכניקה להפקה מלאכותית של דיבור אנושי. מערכות סינתזת דיבור נקראות לעיתים רבות מערכות טקסט לדיבור (text-to-speech או TTS) בשל יכולתן להמיר טקסט לדיבור.

דוגמה לשימוש בסינתזת דיבור ליצירת קטע אודיו בו מוקרא הערך Festival Speech Synthesis System בוויקיפדיה האנגלית. קטע האודיו הופק באמצעות התוכנה txt2audio

סינתזה של דיבור נעשית באמצעות שיבוץ של רכיבי דיבור המקודדים למילים ולמשפטים של ממש^[1]. לרוב סינתזת דיבור מופקת על בסיס הקלטות שונות שבוצעו בעבר של מקטעים ווקאלים שונים. עם זאת, קול אנושי אשר הומר בקודים ספרתיים מצריך מקום רב לאחסון ונשמע מלאכותי וחסר-גוון^[1].

בסינתזה של הדיבור המילים מורכבות מפונמות^[1]. דבר זה מאפשר למשפט הסינתטי לכלול גם הטיות קול והדגשות, בתנאי שהמחשב יכול לנתח את ההדגשים שבמסר בשעת הרכבתו^[1].

האיכות של תוצר מערכות סינתזת דיבור נמדד לרוב על סמך הדמיון לדיבור אנושי אמיתי, וכמו כן מסתמך גם על עד כמה התוצר הסופי מובן. תוכנות סינתזת דיבור ברמות גבוהות יכולות למלא תפקיד חשוב, למשל על ידי מתן אפשרות לאנשים לקויי ראייה או בעלי דיסלקסיה להאזין למסמכים שנכתבו במחשב. מאז שנות ה-90 של המאה ה-20 מכילות מערכות הפעלה רבות מכילות יישומי סינתזת דיבור.

[1]