中文信息处理
維基百科,自由的 encyclopedia
中文信息处理是指用电子计算机对中文的音、形、义等信息进行处理和加工。中文信息处理是自然语言信息处理的一个分支,是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。信息处理技术在现代有广泛的应用,从1980年代开始,中文信息处理进入了快速发展阶段,并极大地提高了中文社会的信息处理效率。
中文信息处理分为汉字信息处理与汉语信息处理两部分,具体内容包括对字、词、句、篇章的输入、存储、传输、输出、识别、转换、压缩、检索、分析、理解和生成等方面的处理技术。
基於歷史、國家疆域、政治等各種問題,中文信息处理系統所需要處理的文字,有時不仅包括漢文(繁简体汉字),也包括藏文、蒙文、壮文、维吾尔文等大量中國少數民族的文字,周邊國家的日語假名、諺文,还包括古汉语文字、西夏文、契丹文等各種不同的文字。
中文信息處理可以從硬體及軟體兩方面去看,以下詳述中文信息處理的發展歷史、現況及未來發展等多方面的面貌。