文库网
ImageVerifierCode 换一换
首页 文库网 > 资源分类 > PDF文档下载
分享到微信 分享到微博 分享到QQ空间

分布式数据库在气象大数据云平台中的应用与扩容研究.pdf

  • 资源ID:21765598       资源大小:1.24MB        全文页数:4页
  • 资源格式: PDF        下载积分:10文币
微信登录下载
快捷下载 游客一键下载
账号登录下载
三方登录下载: QQ登录 微博登录
二维码
扫码关注公众号登录
下载资源需要10文币
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 
账号:
密码:
验证码:   换一换
  忘记密码?
    
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

分布式数据库在气象大数据云平台中的应用与扩容研究.pdf

1、第期气 象 水 文 海 洋 仪 器N o 年月M e t e o r o l o g i c a l,H y d r o l o g i c a l a n dM a r i n e I n s t r u m e n t sS e p 收稿日期:基金项目:年甘肃省气象大数据云平台本地化应用项目(G S Q X S J )和 年甘肃省气象大数据支持与服务创新团队项目(G S Q X C X T D )资助.作者简介:许竹霞(),女,硕士,高级工程师.主要从事气象信息技术与气象数据处理工作.分布式数据库在气象大数据云平台中的应用与扩容研究许竹霞,张卫卫,刘昊,牛喆(甘肃省气象信息与技术装备保障中

2、心,兰州 )摘要:针对气象数据存储难扩展、单点故障等问题,文章采用分布式关系型数据库、分布式分析型数据库和分布式表格型数据库,建立了分布式气象数据存储系统.通过对比分析分布式数据库与传统数据库访问性能的差异,发现分布式数据库的访问时效显著高于传统数据库;分布式虚谷数据库在扩容期间可完成数据实时入库并通过数据服务接口进行数据访问,实时业务不受影响,能有效满足气象数据实时服务的要求.关键词:分布式数据库;虚谷数据库;G B a s e a数据库;数据库扩容中图分类号:P 文献标识码:A文章编号:X()R e s e a r c ho nt h ea p p l i c a t i o na n d

3、e x p a n s i o no fd i s t r i b u t e dd a t a b a s e i nm e t e o r o l o g i c a l b i gd a t ac l o u dp l a t f o r mX uZ h u x i a,Z h a n gW e i w e i,L i uH a o,N i uZ h e(G a n s uM e t e o r o l o g i c a lI n f o r m a t i o na n dT e c h n i c a lE q u i p m e n tS u p p o r tC e n t e

4、 r,L a n z h o u )A b s t r a c t:A i m i n ga t t h ep r o b l e m so fd i f f i c u l te x p a n s i o na n ds i n g l ep o i n t f a i l u r eo fm e t e o r o l o g i c a ld a t as t o r a g e,t h i sp a p e re s t a b l i s h e sad i s t r i b u t e dm e t e o r o l o g i c a ld a t as t o r a g

5、 es y s t e mb yu s i n gd i s t r i b u t e dr e l a t i o n a ld a t a b a s e,d i s t r i b u t e da n a l y t i c a ld a t a b a s ea n dd i s t r i b u t e dt a b u l a rd a t a b a s e B yc o m p a r i n ga n da n a l y z i n gt h ed i f f e r e n c eo f a c c e s sp e r f o r m a n c eb e t w

6、 e e nd i s t r i b u t e dd a t a b a s e a n d t r a d i t i o n a l d a t a b a s e,i ti s f o u n dt h a tt h ea c c e s st i m eo fd i s t r i b u t e dd a t a b a s ei ss i g n i f i c a n t l yh i g h e rt h a nt h a to ft r a d i t i o n a ld a t a b a s e T h ed i s t r i b u t e dX u g ud

7、a t a b a s ec a nc o m p l e t er e a l t i m ed a t as t o r a g ea n dd a t aa c c e s st h r o u g ht h ed a t as e r v i c e i n t e r f a c ed u r i n g t h ee x p a n s i o np e r i o d,a n d t h e r e a l t i m eb u s i n e s s i sn o t a f f e c t e d,w h i c hc a ne f f e c t i v e l ym e

8、e t t h er e q u i r e m e n t so f r e a l t i m em e t e o r o l o g i c a l d a t as e r v i c e K e yw o r d s:d i s t r i b u t e dd a t a b a s e;X u g ud a t a b a s e;G B a s e ad a t a b a s e;d a t a b a s ee x p a n s i o n引言气象数据是气象预报、服务和科研等业务开展的基础.随着气象信息化技术、气象探测技术等的发展,气象数据的种类和数量越来越多,甘肃省气

9、象信息中心每日接收存储的数据量大约为 G .陈晴等 进行气象大数据存储的分析探讨,认为解决好气象数据存储问题是气象数据应用的关键环节之一.年,集气象数据收集、加工处理、存储管理和共享于一体的全国综合气象信息共享平台在甘气 象 水 文 海 洋 仪 器S e p 肃省气象局正式业务化运行,随着气象数据爆发式增长,用户访问量急剧增加,传统的集中式存储架构的性能已无法满足气象数据存储需求.随着信息技术发展及应用水平不断提高,云计算、大数据的广泛应用为气象数据服务开拓了新的思路和方向,沈文海认为建立分布式的存储环境支撑气象业务是气象信息化发展的必由之路.年国家气象信息中心启动气象大数据云平台,采用了多种

10、分布式存储技术.甘肃省气象大数据云平台采用了V R O C技术,高性能的NVM e固态盘为结构化数据提供了更高的存储性能 .文章主要对大数据云平台应用的分布式关系型数据库、分布式分析型数据库、分布式表格数据库,以及数据存储流程进行简要概述,在此基础上提出了分布式数据库扩容并进行实践应用,为气象大数据云平台的运维工作提供参考.分布式数据库分布式数据库系统(D i s t r i b u t e dD a t aB a s eS y s t e m,D D B S)是在传统数据库技术的基础上,结合计算机网络技术的产物.分布式数据库是一个数据集合,这些数据分布在若干个节点上,节点之间由计算机网络连接

11、组成集群模式,通过存储接口进行数据访问.气象大数据云平台中主要使用分布式虚谷数据库、分布式G B a s e a数据库和分布式C a s s a n d r a数据库.分布式数据库较传统数据存储模式具有明显的优势,主要表现为点:一是高扩展性,支持在线动态扩展数据库处理、存储能力,且扩展后每个节点上的数据可自动均衡;二是高可用性,多副本的存储技术,避免了单点性能瓶颈,而且主控节点采用多机方案消除了管理节点的单节点故障问题;三是数据的强一致性,多副本存储技术将数据分布在不同节点上,系统会自动同步数据,确保数据的一致性;四是透明性,用户在数据访问时不需要知道数据如何分片实现多副本存储,以及分布式数据

12、库节点之间如何同步数据等 .气象大数据云平台数据存储流程气象数据通过大数据云平台及质控系统进行数据传输、快速质控和解码入库,根据数据类型和应用场景存储于不同的分布式数据库中,通过接口向用户提供数据服务.其中,采用虚谷数据库作为数据缓冲库和基础数据服务库;采用分布式G B a s e a数据库建立历史分析库;为了支撑典型的气象应用场景(如短临/短期天气预报),采用C a s s a n d r a分布式表格数据库建立实时应用库;对于非结构化数据,文件实体存储在分布式N A S或分布式对象存储中.数据存储流程如图所示.图气象大数据云平台数据存储流程()第期许竹霞,等:分布式数据库在气象大数据云平台

13、中的应用与扩容研究 虚谷数据库部署虚谷缓冲库共部署个节点,虚谷服务库共部署 个节点.虚谷数据库集群包括主控节点、工作节点、存储节点和变更收集节点,数据库多个服务角色可部署在同一台物理服务器上.其中,主控节点主要用于集群管理,全局锁仲裁等,不参与用户请求响应,一般主控节点采取双机并行方式构建;工作节点用于接收响应用户的请求,每个工作节点都可以接收用户访问请求,且每个用户都可以连接到系统的任意工作节点上,完成数据请求;存储节点用于存储数据,一般部署个副本,当个节点发生故障后,主控节点会快速搜集到该信息,并广播给其他节点,启动数据副本,避免单节点故障造成的数据丢失问题;变更收集节点用于收集集群数据变

14、更信息,主要在有数据同步需求的情况下部署变更收集节点.G B a s e a数据库部署G B a s e a数据历史分析库共部署 个节点,其中数据存储节点共个,系统核心组件主要有分布式调度集群(G C l u s t e r)、分布式管理集群(G C w a r e)和分布式存储集群(GN o d e).个组件可以同时部署在台物理服务器上.其中,G C l u s t e r负责S Q L的解析、优化、分布式执行、计划生成与调度;G C w a r e用于各节点G C l u s t e r实例共享信息,以及控制多副本在各节点上的数据一致性;GN o d e负责数据在节点上的实际存储,并从G

15、C l u s t e r接收和执行经分解的S Q L任务,将执行结果返回给G C l u s t e r.C a s s a n d r a数据库部署C a s s a n d r a数据 实 时 应 用 库 共 部 署个 节点,该数据库是套开源的N o S Q L分布式表格型数据库系统,数据被均匀分布在集群的所有节点上,每个节点都是独立的,节点间通过点对点的通信协议G o s s i p交换各自的状态信息,集群中的每个节点都可以接收数据读取和写入的请求.与虚谷数据库和G B a s e a数据库相比,C a s s a n d r a数据库集群中所有节点的功能是完全一样的,即去中心化.此外

16、,该数据库支持的数据结构比较松散,可以存储结构化、半结构化和非结构化的数据,根据不同需求动态适应变化的数据结构.分布式数据库应用性能分析为了更加直观地对比分布式数据库与传统数据库的性能,选取中国地面日值数据、中国地面逐小时数据和中国地面分钟数据为测试数据,时间段为 T :/T :,数据量分别为 ,条、,条、,条.在全国综合气象信息共享平台的O r a c l e数据库、甘肃省气象大数据云平台的虚谷数据库和G B a s e a数据库执行简单的数据记录数量统计查询命令“s e l e c tc o u n t()f r o ms u r f_w e a_c h n_m u l_d a y_t a

17、 bw h e r ed_d a t e t i m e t o_d a t e(:,y y y y m md dh h :m i:s s)a n dd_d a t e t i m et o_d a t e(:,y y y y m m d dh h :m i:s s)”.对个数据库的查询耗时进行分析对比,结果如图所示.由图可见,虚谷数据库和G B a s e a数据库在统计查询效率方面明显优于O r a l c e数据库.其中,G B a s e a数据库统计查询耗时极短,即使分钟数据量为亿条记录时,统计耗时也不足s,这在长时间序列的统计和分析计算方面具有明显优势;虚谷数据库的统计查询在极大程

18、度上优于O r a c l e数据库,在大量数据访问或统计查询时,O r a c l e数据库将出现僵死状况.图分布式数据库与O r a c l e数据库统计查询耗时对比分布式数据库扩容虚谷数据库集群支持在线扩容,在扩容时应逐台增加扩容节点,不可同时增加多个节点.扩容的具体步骤如下:)新增节点的基础环境配置要与原数据库集群一致,确保安装环境满足集群要求.)进入到原数据库集群节点的安装目录/h o m e/x u g u/X G D B M S,将B I N和S E T U P文件夹拷贝 到 新 增 服 务 器 节 点 的 目 录/h o m e/x u g u/X G D B M S下.仅需要

19、修改S E T U P目录下的集群配置文件c l u s t e r i n i,修改MY_N I D为集群节点编号,比如增加的是第个节点,就修改为 .)在集群的主m a s t e r节点执行添加新增节点的命令“a l t e rc l u s t e ra d dn o d ed e s c r i b e R A C K P O R T S :,气 象 水 文 海 洋 仪 器S e p :R O L E“S QW”L P U S T O R E_WE I GHT S T A T ED E T E C T”,将新增节点的信息自动写入集群中每个节点的c l u s t e r i n i配置

20、文件中.)启动集群新增节点上的数据库服务进程“/h o m e/x u g u/X G D B M S/B I N/x u g u_l i n u x_x s e r v i c e”,执行数据库集群信息查看命令,待N O D E_S T A T E由变为,说明新增节点添加成功.)节点添加完成后,最终要将数据迁移到新增节点,使各节点数据均衡.在主m a s t e r上执行数据迁 移 命 令“s e te n a b l e_s t o r e_m i g r a t eo n;”“s e ts t o r e_m a i n t_s p a nt o;”,启动数据迁移功能,同时查看主m a

21、s t e r的/h o m e/x u g u/X G D B M S/X G L O G/E V E N T L O G迁移日志信息,如果日志中M i g r a t es t o r e信息不再刷新说明数据已完成迁移,各节点数据已达到均衡.存储均衡后需要关闭数据迁移功能,执行命令“s e t e n a b l e_s t o r e_m i g r a t eo f f;”“s e ts t o r e_m a i n t_s p a n t o ;”.此时,还需要确认集群副本是否全部运行正常,虚谷数据库中数据存储是以二进制编码来计算状态的,比如 对应二进制 ,从左往右计算,每位表示个

22、副本的存储状态,表示有效的副版本,表示正在使用的主版本,表示版本失效不可用.若出现 对应二进制 ,则个 版 本 均 无 效.执 行 命 令“s e l e c t f r o ms y s_g s t o r e sw h e r es t o r e_s t a!;”,若查询结果为空,则说明没有失效的副本.综上所述,分布式虚谷数据库的扩容较传统数据库具有显著优势,集群扩容相对快捷、简单,在基础环境具备的前提下,单个节点的扩容大概耗时 m i n.扩容过程不需要停止数据库集群,对业 务 运 行 没 有 影 响.分 布 式G B a s e a和C a s s a n d r a数据库在集群扩容

23、时具有与虚谷数据库同样的优势,应对海量爆发式增长的气象数据能够快速扩容且不影响业务正常运行.结束语多副本的存储策略有效避免了单节点故障造成的业务中断现象,通过对比分析分布式数据库和O r a c l e数据库的数据访问时效,分布式数据库统计查询效率最大可达到亿条/s,是O r a c l e数据库统计查询效率的 倍以上,能有效满足实时数据的查询及长时间序列数据的统计分析.此外,在线可扩容的分布式数据库存储空间使数据存储时长大幅提升,通过统一访问接口提供数据服务,能够有效支撑全省气象业务系统的数据访问需求.G B a s e a数据库的应用也有效解决了数据服务时效等问题,但是该数据库没有主键控制

24、,自业务运行以来,数据由虚谷缓冲库同步至G B a s e a数据库时偶尔出现数据重复问题.为了更好地满足气象业务系统的应用需求,需要对气象数据存储流程、存储策略等进一步优化和完善.参考文献:宋智,徐晓莉,张常亮,等应用分布式存储技术优化省级C I M I S S数据服务能力J气象科技,():刘媛媛,何文春,王妍,等气象大数据云平台归档系统设计及实现J气象科技,():沈文海,赵芳,高华云,等国家级气象资料存储检索系统的建立J应用气象学报,():陈晴,杨明,肖云,等云数据存储技术在气象数据存储中的应用J计算机应用与软件,():,沈文海再析气象大数据及其应用J中国信息化,():熊安元,赵芳,王颖,

25、等全国综合气象信息共享系统的设计与实现J应用气象学报,():沈文海气象业务信息系统未来基础架构探讨:“云计算”和“大数据”在气象信息化中的作用J气象科技进展,():徐拥军,何文春,刘媛媛,等气象大数据存储体系设计与实现J电子测量技术,():陈旭辉,刘洋,高鹏,等 NVM e在气象大数据分布式存储中的研究与应用J气象水文海洋仪器,():许竹霞,张春燕,徐娟甘肃省气象大数据云平台的存储与服务系统设计J信息技术与信息化,():谢鹏分布式数据库存储子系统设计与实现D成都:电子科技大学,杨永周分布式存储关键技术及优势分析研究J网络安全技术与应用,():,朱哲哲,赵振海,李鹏,等分布式关系型数据库研究与金融行业应用J计算机系统应用,():徐洋,宋阳分布式数据库系统安全的分析J电子技术与软件工程,():


注意事项

本文(分布式数据库在气象大数据云平台中的应用与扩容研究.pdf)为本站会员(爱文献爱资料)主动上传,文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文库网(点击联系客服),我们立即给予删除!




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

文库网用户QQ群:731843829  微博官方号:文库网官方   知乎号:文库网

Copyright© 2025 文库网 wenkunet.com 网站版权所有世界地图

经营许可证编号:粤ICP备2021046453号   营业执照商标

1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png