מערכת זיהוי דיבור

מערכת זיהוי דיבור (באנגלית: Speech To Text (STT) או Automatic Speech Recognition (ASR)) היא מערכת ממוחשבת המסוגלת לפענח דיבור אנושי ולתרגמו לטקסט. הקלט למערכת מגיע ממיקרופון שאליו מדבר המשתמש, משיחת טלפון הנקלטת במערכת וכיוצא בזה. זהו תחום משולב של מדעי המחשב ובלשנות חישובית, הכולל בתוכו מספר מתודולוגיות, מודלים וטכנולוגיות שונות.

בחלק מהמערכות דרוש תהליך "אימון" לפני שהמערכת מסוגלת לפעול, בו אדם קורא טקסט או אוצר מילים קבוע, ולאחר מכן נעשית אנליזה על הקול הספציפי של האדם כדי לזהות אותו בצורה מדויקת יותר. מערכות שלא דורשות אימון הן בדרך כלל לא תלויות בזהות הדובר.

נהוג להבחין בין זיהוי דיבור שמטרתו לזהות את תוכן הדיבור (לצורך ביצוע פקודה או רישום טקסט) לבין זיהוי קול שמטרתו לזהות דובר לא ידוע, לאמת זהות דובר ידוע או לאפיין את הדיבור שלו (למשל, בעבר ניסיון להעריך האם אדם מסוים דובר שקר או אמת לפי הקול שלו).

מבחינת הטכנולוגיה, למערכות זיהוי דיבור יש היסטוריה ארוכה שכללה מספר גלים בהם נעשה שימוש במספר שיטות שונות. לאחרונה, התחום התפתח במיוחד מהתקדמות בענפי הלמידה עמוקה וה-Big data. ההתפתחות באה לידי ביטוי לא רק במספר המאמרים המדעיים המתפרסמים בתחום, אלא גם באימוץ הנרחב יותר ברחבי העולם של שיטות למידה עמוקה שונות בתכנון ומימוש של מערכות זיהוי דובר.

תוכנות מובילות בתחום ההכתבה מאז שנות השמונים היו: ViaVoice של חברת IBM‏, Dragon NaturallySpeaking של חברת "דרגון דיקטייט" ו-MacSpeech Dictate. בחלק מגרסאות Windows Vista ו-Windows 7 יש מערכת זיהוי דיבור מובנת.