זיהוי תווים אופטי
ויקיפדיה האנציקלופדיה encyclopedia
זיהוי תווים אופטי (באנגלית: Optical Character Recognition; בראשי תיבות: OCR) היא טכנולוגיה להמרת תמונה, טקסט מודפס וכתב יד שנסרקו על ידי סורק, למסמך תמליל ממוחשב.
מתקיים דיון בו מוצע לאחד ערך זה עם הערך זיהוי ממוחשב של כתב יד. | |
תוכנות לזיהוי תווים אופטי, מתמודדות על פי רוב בהצלחה עם המרה של תמונה בה מצולם או סרוק מסמך מודפס אך רק לעיתים נדירות גם בכתב יד. התהליך כרוך בזיהוי תו אחרי תו מבין התווים השונים המרכיבים את הטקסט. אולם, שיפור הברירה בין תווים שונים נעשה לרוב גם בעזרת שני כללים הקשורים להקשר התווים: הגבלת קטעי תמליל שונים לכאלה הכוללים רק תווים מקבוצה מסוימת (אותיות עבריות, אותיות לטיניות, אותיות ערביות וכיוצא בזה) והגדרת מילים ושפה לשם העדפת תווים היוצרים מילים בעלות כתיב מוכר (למשל, בקטע תמליל המוגדר ככתוב אנגלית יועדפו תווים היוצרים מילים עם כתיב אנגלי תקין אך בקטע תמליל המוגדר ככתוב בספרדית יועדפו תווים היוצרים מילים בעלות כתיב ספרדי תקין).