实时数据平台技术实践v4.pptx
《实时数据平台技术实践v4.pptx》由会员分享,可在线阅读,更多相关《实时数据平台技术实践v4.pptx(27页珍藏版)》请在文库网上搜索。
1、ArchSummit 全球架构师峰会 京东实时数据平台技术实践京东实时数据平台技术实践京东实时数据平台技术实践京东实时数据平台技术实践 刘彦伟刘彦伟刘彦伟刘彦伟 目录 l 京东大数据平台介绍 l 实时数据平台背景 l 实时数据平台解决方案 l 关键环节详解 l 关于平台产品化 京东大数据平台定位 支撑全集团数据业务 全集团数据集中 自助式服务平台模式 大数 据 平 台 商城 拍拍 易迅无 金融 京东大数据平台发展历程-技术选型 2011年之前201120122012至今 京东大数据平台发展历程-技术选型 传统商业数据仓库解决方案 -弊端 - 高复杂度计算任务并发性差 - 海量数据处理能力不足
2、- 存储能力有限 - 扩展性差 - 成本高 -后期遇到的问题 -越来越多的ETL任务需要12点后才能完成 -任务排队现象严重 -基于流量等大数据量的批量计算和复杂推荐类算法基本无法应付 -存储达到上限,需不断转移历史数据 京东大数据平台发展历程-工具 脚本+配置文件 分散工具集一站式消费+多屏可用 京东大数据平台架构 自助式服务平台 支持离线模式流式模式 开源组件+自主研发 通过产品化发挥最大价值 让用户专注于开发 实时数据平台背景 运营场景 -实时感知业务运行情况,实现实时决策支持,比如调整营销策略、库房排班等 营销场景 根据用户位置、实时浏览轨迹、商品价格变化等实现精准推荐、广告 Top排
3、行榜:销量排行、热度排行等 优化离线数据仓库数据抽取环节 传统“T+1”模式的数据仓库每天凌晨第一件事就是增量或全量抽取业务数据 随着数据抽取任务的不断增长,数据抽取时间成本不断增长,离线计算启动时间 不 断被推迟 实时数据平台要解决的几个问题 实时数据采集-数怎么来 数据要全 延迟要低 实时数据存储-数放在哪 数据存储统一 方便使用、高吞吐量 实时数据计算-数怎么算 及时性 支持高复杂度场景 实时数据平台解决方案 实时数据采集 实时数据总线 实时数据分发 实时数据流式处理 准实时数据批量处理 高可用 实现产品化 关键环节详解实时数据采集 实时数据来源 -在线系统记录日志 -统一的实时日志采集
4、方案 -支持数据上报 -提供SDK支持用户上报实时数据 -基于数据库日志 - 无需开发 - 数据最全 优势 -几乎覆盖全部业务数据 -通过产品化实现用户自助接入 -快速新增实时数据 关键环节详解实时数据采集 数据库日志采集方案 Parser 分分表 数据合并 格式 解析 数据拆分 数据 数据 Tracker 数据确 数据 异构适配 采集 DB JDQ 数据存 粒度 原始日志 保 序 内部使用 JDQ 数据存 表粒度 构数据 保 序 外消 关键环节详解高可用的任务调度框架 实时任务调度框架 Magpie -保证任务的高可用 -节点不可用时任务自动切换到可用节点 -调度框架通过Zookeeper实
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 实时 数据 平台 技术 实践 v4