大全集团-两化融合发言稿.doc

资源ID：1225077 资源大小：53.50KB 全文页数：8页
资源格式： DOC 下载积分：10文币

微信登录下载

快捷下载

账号登录下载

三方登录下载：

扫码关注公众号登录

下载资源需要10文币

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
支付方式：
验证码：	换一换

加入VIP,免费下载

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

友情提示

1、下载资料失败解决办法

2、PDF文件下载后，可能会被浏览器默认打开，此种情况可以点击浏览器菜单，保存网页到桌面，就可以正常下载了。

3、本站不支持迅雷下载，请使用电脑自带的IE浏览器，或者360浏览器、谷歌浏览器下载即可。

4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩，下载后原文更清晰。

5、试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。

大全集团-两化融合发言稿.doc

1、第六章中文信息处理第六章中文信息处理概述概述一、中文信息处理一、中文信息处理计算机科学技术百科全书 ( 清华大学出版社， 1998) 中文信息处理是用计算机对汉语的音、形、义等语言文字信息进行的加工和操作，包括对字、词、短语、句、篇章的输入、输出、识别、转换、压缩、存储、检索、分析、理解和生成等各方面的处理技术。中文信息处理分为汉字信息处理与汉语信息处理两部分中文信息处理是自然语言信息处理的一个分支，是一门与计算机科学、语言学、数学、信息学、声学等多种学科相关联的综合性学科。参考文献参考文献中文信息处理技术原理与应用，李宝安等，清华大学出版社， 2005 年

2、 7 月第 1 版中文信息处理技术教程，朱巧明，清华大学出版社， 2005 年版计算语言学概论，俞士汶主编，商务印书馆， 2003 年 9 月第 1 版计算语言学，刘颖，清华大学出版社， 2002 年版中国语言文字网 http:/www.china- 中文信息处理中文信息处理中文信息处理分为汉字信息处理与汉语信息处理两部分信息的两个层次：符号层中文 / 汉语 / 汉字内容层符号所承载的意义中文信息处理的两个层次：字符处理（输入、存储、输出等）内容处理（词语切分，词性标注，结构分析，意义理解，推理，翻译等等）符号层的信息处理符号层的信息处理拼音文字：小字符集比

3、较容易非拼音文字：大字符集难度很大汉字是一个大字符集说文解字（东汉）： 9353 字玉篇（南朝）收录 16,917 字广韵（宋代）收字 26,194 字字汇（明朝）收录 33,197 字康熙字典（清朝）收录 47,043 字汉语大字典（ 1992 年） 5.6 万中华字海（ 1994 年） 8.6 万拉丁字母只有 26 个符号斯拉夫字母只有 33 个符号阿尔明尼亚字母只有 38 个符号泰米尔字母只有 36 个符号缅甸字母只有 52 个符号泰文字母只有 44 个符号老挝字母只有 27 个符号藏文字母只有 35 个符号韩文字母只有 24 个符号日文假名只有

4、 48 个符号符号层的信息处理符号层的信息处理汉字输入汉字输入自动输入自动输入键盘输入键盘输入字形识别字形识别声音识别声音识别手写体识别手写体识别印刷体识别印刷体识别在线手写在线手写脱机手写脱机手写整字键盘整字键盘通用键盘通用键盘主辅式主辅式感应式感应式形码形码音码音码形音结合码形音结合码 1 2 3 4 5 6 7 8 9 内容层的信息处理内容层的信息处理原文原文输入译前编辑词法分析句法分析语义分析语境分析内部表示转换译词选择译后编辑译文输出词形变化句子生成译文 1 2 3 4 5 6 7 8 9 10 11 12 机器翻译全过程机器翻

5、译全过程需要语言知识！中文信息处理的现状和发展趋势中文信息处理的现状和发展趋势现状符号层的处理成果已经得到广泛应用；中文输入 / 字库 / 字处理软件 / 排版 / 内容层的处理目前在词语识别和词性标注方面已经取得重要进展，句子结构分析和语义分析方面仍有待探索二、文字信息处理的二、文字信息处理的基本问题基本问题文字信息的计算机处理过程要用计算机来处理文字，必须解决如何把文字输入计算机并在计算机中存储起来，进行适当处理之后再输出文字等问题。文字信息的输入文字信息的输入文字信息的处理文字信息的处理文字信息的输出文字信息的输出二、文字信息处理的二、文字信息处理的基本

6、问题基本问题文字信息处理的实质，是先把文字信息数字化，即用一个固定的数码代表一个字母或文字。在英文信息中，以 26 个字母作为文字信息处理的单位，因此要对 26 个字母逐个地确定代替它的数码。汉字一般是以一个整字作为文字信息处理的单位，因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码 (code) 在计算机内部处理文字信息时，就像处理数据一样对待。处理完毕后，再把替代的数码还原成相应的字母或文字。利用计算机能够调整处理数据的性能，使文字信息处理也能够分享计算机技术的这一独特优点，从而实现文字信息处理的高效化。二、文字信息处理的二、文字信息处理的基本问题基本问题

7、英文字符的编码标准是 ASCII 码，即美国信息交换标准代码。这是七位的二进制代码，它是美国国家标准学会（ ANSI ）为计算机的信息交换提出的标准，后来由国际标准组织（ ISO ）确定为国际标准字符编码。为了和国际标准兼容，我国根据它制定了英文字符编码国家标准，即 GB1988 。其中除了将货币符号置换为人民币符号外，其他都与 ASCII 码相同。计算机的键盘原本就是为英文输入设计的，只要按照字母击键，就可以输入英文。键盘的译码电路按照所击的键产生英文字符的 ASCII 码，输入到计算机的内存中。经过编辑的文本仍然以 ASCII 码表示。输出时，这些代码必须转换成字符

8、字形的点阵，以便显示或打印。因此，计算机必须存储每个英文字符、数码以及标点符号的点阵信息。这些点阵信息构成了所谓“字模库”。字模库的点阵以有点或无点来表示文字和符号。汉字信息的计算机处理过程与英文信息处理过程是类似的。不过，由于汉字信息的特点，以及要考虑与英文信息处理系统兼容等问题，处理的难度更大。我国经过多年的研究，汉字处理的基本问题已经解决。汉字信息处理的基本问题汉字信息处理的基本问题三、中文信息处理主要研究对象三、中文信息处理主要研究对象基础研究：汉字字频统计、词频统计、汉语自动分词、句法属性研究、汉字编码字符集、通用汉字样本库、汉字属性字典、语料库等输入技术：

9、中文输入法、中文手写输入、中文语音输入、光学字符识别等。输出技术：汉字字模技术（字体库）、汉字激光照排、汉语语音合成、动态组字等。外字处理：动态组字、造字、电子书等。存储技术：汉字库标准中文、字符编码等。转换技术：繁简转换等三、中文信息处理主要研究对象三、中文信息处理主要研究对象信息处理：中文情报检索、中文文本校对、机器翻译、自然语言理解、中文人机界面、语义网、电子字典、电脑辅助翻译等中文化：软件的国际化（ internationalization ）和本土化（ localization ）。中文编程：目前有两种发展，一种是英文 coding 直接翻译，以降低开发人

10、员的语言学习成本；一种是根据中文特点，发展出融合中国人思维模式的新的计算机语言。为了用 0 、 1 代码串表示汉字，在汉字系统或通信系统之间交换信息，必须给每个汉字规定一个统一的代码。这就是汉字的交换码。 1981 年 5 月，我国国家标准总局颁布信息交换用汉字编码字符集 (GB 2312-80) ，作为汉字交换码编码的国家标准，简称国家标准汉字编码，或国标码。收进该标准的字符共有 7 445 个。其中一级汉字 3 755 个，二级汉字 3 008 个，共计 6 763 个。一、二级汉字约占近代文献汉字累计使用频度的 99.99% 。为便于查找，一级汉字按汉语拼音顺序排列；二

11、级汉字一般不易熟记它们的发音，故按部首和笔画排列。另外还包括常用符号、序号、 GB 1988 图形字符集、日文假名、希腊字母、俄文字母、汉语拼音、注音字符、制表符号等。四、汉字编码标准累计使用频度不足 0.001% 的汉字数量接近 1 万个。为了满足计算机实际应用的需要，我国在 GB 2312-80 的基础上扩大收字的范围，制定了“汉字内码规范” GBK ，包含了 20 902 个汉字，又称为扩展的国标码。在 Windows 95/98 和其后的 Windows 2000 中，装入了 GBK 的全部汉字和符合 GBK 和 GB 2312-80 的输入法。由于汉字的字符多，一个

12、字节八位二进制代码不足以表示所有的常用的汉字。为了不与西文的 ASCII 码混淆，在微型机汉字系统中，国标码的每个符号都用两个字节（十六位）代码来表示，并作为转换为机内码或其他汉字处理代码的依据。汉字编码标准汉字国标码就是 GB 2312-80 为汉字规定的代码，也称为交换码。国标码是汉字编码的国家标准。在 GB 2312-80 代码表中，纵向分为 093 ，共 94 行；横向也是 093 ，共 94 列。行与列分别用七位二进制码表示，第一字节表示行，第二字节表示列。其值都从 0100001 到 1111110 。这正是 ASCII 码的可打印字符的编码。其范围为十六进制的 217E 。汉字国标码是将第一字节和第二字节连写而得到的。由于二进制形式太长，通常用十六进制表示。例如：汉字第一字节第二字节十六进制区位码啊 0110000 0100001 3021 1601 保 0110001 0100011 3123 1703 播 0110010 0100101 3225 1805 国标码国标码还可以表示成区位码的形式。在 GB2312-80 代码表中

注意事项: 本文（大全集团-两化融合发言稿.doc）为本站会员（Koalabear）主动上传，文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知文库网（点击联系客服），我们立即给予删除！