1、1大数据产业进展与发展策略思考刘多工业和信息化部电信研究院2014年5月2大数据产业进展与发展策略思考刘多工业和信息化部电信研究院2014年5月3提纲1. 大数据发展脉络与概念探讨3. 大数据发展政策及几点思考2. 大数据技术、产业和应用进展4大数据的起源与断代1950,计算机诞生,数据与应用捆绑,都存储在文件中数据耦合 1960,数据与应用分离,事务处理数据库技术发展数据库 1990,提出数据挖掘和商业智能数据分析1999-2000网页数量从5亿增长到40亿,每天新增700万!PB级非结构化数据互联网内容的暴增是第一推动力量 2000年前后,基于海量数据分析的搜索引擎逐步发展大数据起源 20
2、06后,电商、广告、SNS应用,2011大数据提出大数据时代突变 分布式文件系统分布式并行计算分布式数据库今天:随着应用领域扩展,技术也在不断演进,为更广泛应用提供条件5大数据不仅是“大”,三位一体认识大数据 各方对大数据给出不同定义:维基百科、Gartner、IDC、NIST、IBM、麦肯锡理念与应用 工具三维透视大数据从开环应用到闭环应用从抽样到全集从因果到相关 从单机到分布式存储处理从简单分析到智能深度分析资源数据大(3V) 大数据不能只强调“大”,用从资源、技术、应用和理念多个角度全面认识。大数据更重要的意义是启发全社会重新审视数据的价值。我们的认识:大数据是具有体量大、结构多样、时效
3、强等特征的数据。处理大数据需采用新型计算架构和智能算法等新技术。大数据的应用强调以新的理念应用于辅助决策、发现新的知识,更强调在线业务流程优化。6提纲1. 大数据发展脉络与概念探讨3. 大数据发展政策及几点思考2. 大数据技术、产业和应用进展7大数据技术前沿不断推进,创新非常活跃海量数据和直观理解 多维可视化和图可视化可视化计算的并行化 可视化中的人机交互非结构化数据分析数据量和分析深度分析自动化 数据挖掘并行化机器学习的应用 大规模深度学习数据挖掘的实时化数据密集计算的效率不同计算场景的特点 MapReduce/Hadoop流、图、迭代、查询 基于YARN的融合平台混合计算模式MR+XX分布
4、式内存计算高效数据查询访问低成本超大容量 分布式数据库接口和查询语言(Hive、Pig、R)分布式文件系统 高效率索引和查询技术实时/流式数据存储多源、多模态数据融合数据质量与可用性 多源异构数据集成Web数据的实体识别数据清洗和质量控制 数据实体识别技术数据清洗和自动修复质量和可用性评价环节可视化分析计算存储预处理 主要挑战 最新进展 发展趋势参考资料:CCF大数据白皮书,2013.11关键环节8大数据技术创新呈现“原创-开源-产品化”的阶梯格局原创公开 开源 产品分析计算管理 2004 机器学习PageRank2013 Google Brain 16000个处理器、10亿节点神经网络 20
5、12 机器学习库Mahout无开源方案2004 MapReduce批计算2010 雅虎 S4流计算2011 Twitter Storm流计算2010 Dremel 交互分析2012 PowerDrill实时分析 无无2008 开源Hadoop2010 开源2011 开源无无 2012 IBM、MapR等2012 IBM、MapR等2012 IBM、MapR等无无2003 GFS2006 BigTable2011 Megastore2012 Spanner 2008 Hadoop HDFS2008 HadoopHBase无无 2012 IBM、Cloudera等2012 IBM、Cloudera
6、等无无滞后34年 滞后24年已应用5年 广泛应用?1、丰富的数据和强大的平台是大数据创新的基础条件;2、大数据的应用效益不是飞跃突进的,必须依靠长期的不断累积;3、累积效益的获取,主要靠持续不断的技术迭代;4、技术和应用一体化组织,是快速迭代的保障;5、开源模式加速研发和技术扩散。几点经验:9互联网行业是大数据应用的领跑者商业化的互联网大数据应用信用 偏好 风险健康 学习信贷 营销/广告 保险医疗 教育CourseraMOOC可穿戴 三马众安保险RTB精准广告阿里小额贷此外还有公益性大数据应用(如流感趋势)和研发类大数据应用(如A/B测试)10大数据应用加速向传统领域拓展,还处于初期互联网大数据经济社会其他领域智慧政府 数据科研 互联网金融 智慧城市 工业互联网理念、技术、应用模式、数据 大数据理念、技术、应用模式、数据正在向更广阔的领域扩散 大数据技术与模式的改造和适配还要经历长期过程整体:初级阶段谈概念的多,真正用的少案例散发,未成燎原之势