大全集团-两化融合发言稿.doc
《大全集团-两化融合发言稿.doc》由会员分享,可在线阅读,更多相关《大全集团-两化融合发言稿.doc(8页珍藏版)》请在文库网上搜索。
1、 第六章 中文信息处理第六章 中文信息处理 概 述概 述 一、中文信息处理一、中文信息处理 计算机科学技术百科全书 ( 清华大学出版社, 1998) 中文信息处理是用计算机对汉语的音、形、义等语言文字信息进 行的加工和操作,包括对字、词、短语、句、篇章的输入、输出 、识别、转换、压缩、存储、检索、分析、理解和生成等各方面 的处理技术。 中文信息处理分为汉字信息处理与汉语信息处理两部分 中文信息处理是自然语言信息处理的一个分支,是一门与 计算机科学、语言学、数学、信息学、声学等多种学科相 关联的综合性学科。 参考文献参考文献 中文信息处理技术原理与应用,李宝安等,清华 大学出版社, 2005 年
2、 7 月第 1 版 中文信息处理技术教程,朱巧明,清华大学出版 社, 2005 年版 计算语言学概论,俞士汶主编,商务印书馆, 2003 年 9 月第 1 版 计算语言学,刘颖,清华大学出版社, 2002 年版 中国语言文字网 http:/www.china- 中文信息处理中文信息处理 中文信息处理分为汉字信息处理与汉语信息处理两部分 信息的两个层次: 符号层 中文 / 汉语 / 汉字 内容层 符号所承载的意义 中文信息处理的两个层次: 字符处理(输入、存储、输出等) 内容处理(词语切分,词性标注,结构分析,意义理解, 推理,翻译等等) 符号层的信息处理符号层的信息处理 拼音文字:小字符集 比
3、较容易 非拼音文字:大字符集 难度很大 汉字是一个大字符集 说文解字(东汉): 9353 字 玉篇(南朝)收录 16,917 字 广韵(宋代)收字 26,194 字 字汇(明朝)收录 33,197 字 康熙字典(清朝)收录 47,043 字 汉语大字典( 1992 年) 5.6 万 中华字海( 1994 年) 8.6 万 拉丁字母只有 26 个符号 斯拉夫字母只有 33 个符号 阿尔明尼亚字母只有 38 个符 号 泰米尔字母只有 36 个符号 缅甸字母只有 52 个符号 泰文字母只有 44 个符号 老挝字母只有 27 个符号 藏文字母只有 35 个符号 韩文字母只有 24 个符号 日文假名只有
4、 48 个符号 符号层的信息处理符号层的信息处理 汉字输入汉字输入 自动输入自动输入键盘输入键盘输入 字形识别字形识别声音识别声音识别 手写体识别手写体识别 印刷体识别印刷体识别 在线手写在线手写 脱机手写脱机手写 整字键盘整字键盘通用键盘通用键盘 主辅式主辅式 感应式感应式 形码形码 音码音码 形音结合码形音结合码 1 2 3 4 5 6 7 8 9 内容层的信息处理内容层的信息处理 原文 原文输入 译前编辑 词法分析 句法分析 语义分析 语境分析 内部表示转换 译词选择 译后编辑 译文输出 词形变化 句子生成 译文 1 2 3 4 5 6 7 8 9 10 11 12 机器翻译全过程机器翻
5、译全过程 需要语言知识 ! 中文信息处理的现状和发展趋势中文信息处理的现状和发展趋势 现状 符号层的处理成果已经得到广泛应用; 中文输入 / 字库 / 字处理软件 / 排版 / 内容层的处理目前在词语识别和词性标注方面已经取得 重要进展,句子结构分析和语义分析方面仍有待探索 二、文字信息处理的二、文字信息处理的基本问题基本问题 文字信息的计算机处理过程 要用计算机来处理文字,必须解决如何把文字输入计算机并在计 算机中存储起来,进行适当处理之后再输出文字等问题。 文字信息的输入 文字信息的输入 文字信息的处理 文字信息的处理 文字信息的输出文字信息的输出 二、文字信息处理的二、文字信息处理的基本
6、问题基本问题 文字信息处理的实质,是先把文字信息数字化,即用一个 固定的数码代表一个字母或文字。 在英文信息中,以 26 个字母作为文字信息处理的单位,因此要对 26 个字母逐个地确定代替它的数码。 汉字一般是以一个整字作为文字信息处理的单位,因此要对每一 个整字惟一地确定代表它的数码。 这一数码统称为代码 (code) 在计算机内部处理文字信息时,就像处理数据一样对待。 处理完毕后,再把替代的数码还原成相应的字母或文字。 利用计算机能够调整处理数据的性能,使文字信息处理也 能够分享计算机技术的这一独特优点,从而实现文字信息 处理的高效化。 二、文字信息处理的二、文字信息处理的基本问题基本问题
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大全 集团 团体 融合 融会 交融 发言稿