文库网
ImageVerifierCode 换一换
首页 文库网 > 资源分类 > DOC文档下载
分享到微信 分享到微博 分享到QQ空间

大全集团-两化融合发言稿.doc

  • 资源ID:1225077       资源大小:53.50KB        全文页数:8页
  • 资源格式: DOC        下载积分:10文币
微信登录下载
快捷下载 游客一键下载
账号登录下载
三方登录下载: QQ登录 微博登录
二维码
扫码关注公众号登录
下载资源需要10文币
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 
账号:
密码:
验证码:   换一换
  忘记密码?
    
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

大全集团-两化融合发言稿.doc

1、 第六章 中文信息处理第六章 中文信息处理 概 述概 述 一、中文信息处理一、中文信息处理 计算机科学技术百科全书 ( 清华大学出版社, 1998) 中文信息处理是用计算机对汉语的音、形、义等语言文字信息进 行的加工和操作,包括对字、词、短语、句、篇章的输入、输出 、识别、转换、压缩、存储、检索、分析、理解和生成等各方面 的处理技术。 中文信息处理分为汉字信息处理与汉语信息处理两部分 中文信息处理是自然语言信息处理的一个分支,是一门与 计算机科学、语言学、数学、信息学、声学等多种学科相 关联的综合性学科。 参考文献参考文献 中文信息处理技术原理与应用,李宝安等,清华 大学出版社, 2005 年

2、 7 月第 1 版 中文信息处理技术教程,朱巧明,清华大学出版 社, 2005 年版 计算语言学概论,俞士汶主编,商务印书馆, 2003 年 9 月第 1 版 计算语言学,刘颖,清华大学出版社, 2002 年版 中国语言文字网 http:/www.china- 中文信息处理中文信息处理 中文信息处理分为汉字信息处理与汉语信息处理两部分 信息的两个层次: 符号层 中文 / 汉语 / 汉字 内容层 符号所承载的意义 中文信息处理的两个层次: 字符处理(输入、存储、输出等) 内容处理(词语切分,词性标注,结构分析,意义理解, 推理,翻译等等) 符号层的信息处理符号层的信息处理 拼音文字:小字符集 比

3、较容易 非拼音文字:大字符集 难度很大 汉字是一个大字符集 说文解字(东汉): 9353 字 玉篇(南朝)收录 16,917 字 广韵(宋代)收字 26,194 字 字汇(明朝)收录 33,197 字 康熙字典(清朝)收录 47,043 字 汉语大字典( 1992 年) 5.6 万 中华字海( 1994 年) 8.6 万 拉丁字母只有 26 个符号 斯拉夫字母只有 33 个符号 阿尔明尼亚字母只有 38 个符 号 泰米尔字母只有 36 个符号 缅甸字母只有 52 个符号 泰文字母只有 44 个符号 老挝字母只有 27 个符号 藏文字母只有 35 个符号 韩文字母只有 24 个符号 日文假名只有

4、 48 个符号 符号层的信息处理符号层的信息处理 汉字输入汉字输入 自动输入自动输入键盘输入键盘输入 字形识别字形识别声音识别声音识别 手写体识别手写体识别 印刷体识别印刷体识别 在线手写在线手写 脱机手写脱机手写 整字键盘整字键盘通用键盘通用键盘 主辅式主辅式 感应式感应式 形码形码 音码音码 形音结合码形音结合码 1 2 3 4 5 6 7 8 9 内容层的信息处理内容层的信息处理 原文 原文输入 译前编辑 词法分析 句法分析 语义分析 语境分析 内部表示转换 译词选择 译后编辑 译文输出 词形变化 句子生成 译文 1 2 3 4 5 6 7 8 9 10 11 12 机器翻译全过程机器翻

5、译全过程 需要语言知识 ! 中文信息处理的现状和发展趋势中文信息处理的现状和发展趋势 现状 符号层的处理成果已经得到广泛应用; 中文输入 / 字库 / 字处理软件 / 排版 / 内容层的处理目前在词语识别和词性标注方面已经取得 重要进展,句子结构分析和语义分析方面仍有待探索 二、文字信息处理的二、文字信息处理的基本问题基本问题 文字信息的计算机处理过程 要用计算机来处理文字,必须解决如何把文字输入计算机并在计 算机中存储起来,进行适当处理之后再输出文字等问题。 文字信息的输入 文字信息的输入 文字信息的处理 文字信息的处理 文字信息的输出文字信息的输出 二、文字信息处理的二、文字信息处理的基本

6、问题基本问题 文字信息处理的实质,是先把文字信息数字化,即用一个 固定的数码代表一个字母或文字。 在英文信息中,以 26 个字母作为文字信息处理的单位,因此要对 26 个字母逐个地确定代替它的数码。 汉字一般是以一个整字作为文字信息处理的单位,因此要对每一 个整字惟一地确定代表它的数码。 这一数码统称为代码 (code) 在计算机内部处理文字信息时,就像处理数据一样对待。 处理完毕后,再把替代的数码还原成相应的字母或文字。 利用计算机能够调整处理数据的性能,使文字信息处理也 能够分享计算机技术的这一独特优点,从而实现文字信息 处理的高效化。 二、文字信息处理的二、文字信息处理的基本问题基本问题

7、 英文字符的编码标准是 ASCII 码,即美国信息交换标准代 码。这是七位的二进制代码,它是美国国家标准学会 ( ANSI )为计算机的信息交换提出的标准,后来由国际 标准组织( ISO )确定为国际标准字符编码。 为了和国际标准兼容,我国根据它制定了英文字符编码国 家标准,即 GB1988 。其中除了将货币符号置换为人民币 符号外,其他都与 ASCII 码相同。 计算机的键盘原本就是为英文输入设计的,只要按照字母击键 ,就可以输入英文。键盘的译码电路按照所击的键产生英文字 符的 ASCII 码,输入到计算机的内存中。 经过编辑的文本仍然以 ASCII 码表示。输出时,这些代码必须 转换成字符

8、字形的点阵,以便显示或打印。因此,计算机必须 存储每个英文字符、数码以及标点符号的点阵信息。这些点阵 信息构成了所谓“字模库”。字模库的点阵以有点或无点来表 示文字和符号。 汉字信息的计算机处理过程与英文信息处理过程是类似的。不 过,由于汉字信息的特点,以及要考虑与英文信息处理系统兼 容等问题,处理的难度更大。我国经过多年的研究,汉字处理 的基本问题已经解决。 汉字信息处理的基本问题汉字信息处理的基本问题 三、中文信息处理主要研究对象三、中文信息处理主要研究对象 基础研究:汉字字频统计、词频统计、汉语自动分词、句 法属性研究、汉字编码字符集、通用汉字样本库、汉字属 性字典、语料库等 输入技术:

9、中文输入法、中文手写输入、中文语音输入、 光学字符识别等。 输出技术:汉字字模技术(字体库)、汉字激光照排、汉 语语音合成、动态组字等。 外字处理:动态组字、造字、电子书等。 存储技术:汉字库标准中文、字符编码等。 转换技术:繁简转换等 三、中文信息处理主要研究对象三、中文信息处理主要研究对象 信息处理:中文情报检索、中文文本校对、机器翻译、自 然语言理解、中文人机界面、语义网、电子字典、电脑辅 助翻译等 中文化:软件的国际化( internationalization )和本 土化( localization )。 中文编程:目前有两种发展,一种是英文 coding 直接翻 译,以降低开发人

10、员的语言学习成本;一种是根据中文特 点,发展出融合中国人思维模式的新的计算机语言。 为了用 0 、 1 代码串表示汉字,在汉字系统或通信系统之间交换信 息,必须给每个汉字规定一个统一的代码。这就是汉字的交换码。 1981 年 5 月,我国国家标准总局颁布信息交换用汉字编码字符 集 (GB 2312-80) ,作为汉字交换码编码的国家标准,简称国家 标准汉字编码,或国标码。 收进该标准的字符共有 7 445 个。其中一级汉字 3 755 个,二级汉 字 3 008 个,共计 6 763 个。一、二级汉字约占近代文献汉字累计 使用频度的 99.99% 。 为便于查找,一级汉字按汉语拼音顺序排列;二

11、级汉字一般不易熟 记它们的发音,故按部首和笔画排列。另外还包括常用符号、序号 、 GB 1988 图形字符集、日文假名、希腊字母、俄文字母、汉语拼 音、注音字符、制表符号等。 四、汉字编码标准 累计使用频度不足 0.001% 的汉字数量接近 1 万个。为了满足计算机 实际应用的需要,我国在 GB 2312-80 的基础上扩大收字的范围,制 定了“汉字内码规范” GBK ,包含了 20 902 个汉字,又称为扩展的 国标码。在 Windows 95/98 和其后的 Windows 2000 中,装入了 GBK 的全部汉字和符合 GBK 和 GB 2312-80 的输入法。 由于汉字的字符多,一个

12、字节八位二进制代码不足以表示所有的常用 的汉字。为了不与西文的 ASCII 码混淆,在微型机汉字系统中,国 标码的每个符号都用两个字节(十六位)代码来表示,并作为转换为 机内码或其他汉字处理代码的依据。 汉字编码标准 汉字国标码就是 GB 2312-80 为汉字规定的代码,也称为交换码。 国标码是汉字编码的国家标准。在 GB 2312-80 代码表中,纵向分为 093 ,共 94 行;横向也是 093 ,共 94 列。行与列分别用七位二进 制码表示,第一字节表示行,第二字节表示列。其值都从 0100001 到 1111110 。这正是 ASCII 码的可打印字符的编码。其范围为十六进 制的 217E 。汉字国标码是将第一字节和第二字节连写而得到的。由 于二进制形式太长,通常用十六进制表示。 例如: 汉字 第一字节 第二字节 十六进制 区位 码 啊 0110000 0100001 3021 1601 保 0110001 0100011 3123 1703 播 0110010 0100101 3225 1805 国标码 国标码还可以表示成区位码的形式。在 GB2312-80 代码 表中


注意事项

本文(大全集团-两化融合发言稿.doc)为本站会员(Koalabear)主动上传,文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文库网(点击联系客服),我们立即给予删除!




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

文库网用户QQ群:731843829  微博官方号:文库网官方   知乎号:文库网

Copyright© 2025 文库网 wenkunet.com 网站版权所有世界地图

经营许可证编号:粤ICP备2021046453号   营业执照商标

1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png