“末代港督”彭定康 .pdf
《“末代港督”彭定康 .pdf》由会员分享,可在线阅读,更多相关《“末代港督”彭定康 .pdf(1页珍藏版)》请在文库网上搜索。
1、 1 GSA 和 BIGD 填补 我 国生物信息资源服务的空白 北京大学生命科学学院、北京大学国家蛋白质和植物研究重点实验室、北京大学生物信息中心,北京 100871, Genomics Proteomics and Bioinformatics 期刊 ( GPB) 2017 年第一期发表 了一篇数据库专题 论文 “基因组序列归档库” ( Genome Sequence Archive, 简称 GSA) 1。作者来自中国科学院北京基因组研究所 大数据中心 ( Big Data Center, Beijing Institute of Genomics, 简称BIGD) , 文中对他们开发的 G
2、SA 平台作了简要介绍。 该 平台旨在收集、整合和 发布 国内外用户递交的原始序列数据。 GSA 项目是基因组所大数据中心正在进行的几个主要研究开发项目之一,该中心由近 50 位年轻的生物信息学研究开发人员组成。除 GSA 项目外, 还 开展了多项面向生物信息 资源 服务的课题 2。 应 GPB 编辑部 邀请 , 笔者 写 了 一篇 短文 , 简单 回顾 国际 生物 信息 数据库 创建 历史 , 并 向 读者 推荐 GSA 平台 和 BIGD 团队 的 工作 。 文章 以Preview 形式 发表 在 同一期 的 GPB 上 , 原文 为 英文 3; 特 撰写 此 中文 稿 , 以飨 国内 读
3、者 。 最近半个 多 世纪以来,分子生物学取得了长足的进展。 DNA 双螺旋的发现、遗传密码的破解、中心法则的提出,为分子生物学 研究奠定了坚实的理论基础。与此同时, 费雷德里克 桑格 ( Frederick Sanger)等 先后 建立 了 蛋白质 、 tRNA 和 DNA 序列测定 方法 , 约翰 肯德鲁 ( John Kendrew)和 马克斯 佩鲁茨 ( Max Perutz) 解决了 X-射线晶体衍射 解析 蛋白质三维空间结构 的难题 。这些 开拓性的研究, 为日后 分子生物学 数据积累 提供了必不可少的技术储备 。 蛋白质序列数据库 最早从事蛋白质序列收集的是美国国家生物医学研究基
4、金会( National Biomedical Research Foundation,简称 NBRF)的生物 信息学先驱 玛格蕾特 戴霍 芙 ( Margaret Dayhoff)博士 ( https:/en.wikipedia.org/wiki/Margaret_Oakley_Dayhoff) 。 1965 年,她把当时能收集到的 65 个蛋白质 信息 编纂 成册, 并以 蛋白质序列和结构图册 ( Atlas of protein sequence and structure)为名公开发表,并在以后的几年中 不断更新 再版。这就是国际上第一个蛋白质序列数据库“蛋白质信息资源”( Prote
5、in Information Resource,简称 PIR) 的雏形 。 基于 收集到的蛋白质家族序列, 戴霍芙 构建了氨基酸替换计分矩阵 PAM,至今仍广泛用于序列比对和数据库相似性搜索。 PIR 于 1984 年正式上线,用户可通过电话网络进行查询 。两年后,瑞士日内瓦大学在读研究生 埃姆斯 贝洛克 ( Amos Bairoch) 开始对蛋白质序列进行人工注释 ( https:/en.wikipedia.org/wiki/Amos_Bairoch) , 为 每个序列条目添加功能 和相关文献 等信息 , 并在此基础上 创建了 著名的“瑞士 蛋白质序列数据库 ”( Swiss-Prot) 。
6、 2 蛋白质结构数据库 第一个蛋白质结 构数据库( Protein Data Bank,简称 PDB)创建于 1971 年。与蛋白质序列数据库分别诞生于美国和欧洲不同, PDB 的建立是欧 美 两国 合作者共同努力的 结果。1971 年,英国剑桥晶体学数据中心( Crystallographic Data Center)和美国布鲁克海文国家实验室( Brookhaven National Laboratory)在 自然:新生物学 ( Nature: New Biology)发布短讯,宣告 该数据库系统开始运行 4。 双方 各自保存相同的数据文件,并免费向用户发布。1998 年,美 国结构生物信
7、息学研究协作组( Research Collaboratory for Structural Bioinformatics,简称 RSCB) 成立,负责蛋白质结构数据库 运行 ,称 RSCB PDB。 核酸序列数据库 70 年代末,由桑格等建立的 DNA 测序方法日趋成熟,核酸序列开始积累。 欧美各国有识之士敏锐地意识到,大规模 测 序很快就会到来, 建立核酸序列数据库的任务已经 提上议事日程 。 1979 年, 美国能源部下属洛斯阿拉莫斯国家实验室 ( Los Alamos National Laboratory)沃特 高 德 ( Walter Goad) 领导的计算生物学研究组 开始利用计
- 1.请仔细阅读文档,确保文档完整性,对于不预览、不比对内容而直接下载带来的问题本站不予受理。
- 2.下载的文档,不会出现我们的网址水印。
- 3、该文档所得收入(下载+内容+预览)归上传者、原创作者;如果您是本文档原作者,请点此认领!既往收益都归您。
下载文档到电脑,查找使用更方便
0人已下载
免费下载 | 加入VIP,免费下载 |
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 末代 港督 彭定康