文库网
ImageVerifierCode 换一换
首页 文库网 > 资源分类 > PPTX文档下载
分享到微信 分享到微博 分享到QQ空间

互联网大数据ppt第1章互联网大数据概述.pptx

  • 资源ID:20014351       资源大小:102.03KB        全文页数:15页
  • 资源格式: PPTX        下载积分:10文币
微信登录下载
快捷下载 游客一键下载
账号登录下载
三方登录下载: QQ登录 微博登录
二维码
扫码关注公众号登录
下载资源需要10文币
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 
账号:
密码:
验证码:   换一换
  忘记密码?
    
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

互联网大数据ppt第1章互联网大数据概述.pptx

1、第1章互联网大数据概述1.1 认识大数据1.2 常用大数据处理、分析工具介绍1.1 认识大数据1.1.1 大数据的定义大数据,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的具有海量、高增长率和多样化等特点的信息资产。简而言之,大数据就是数据量非常大、数据种类繁多、无法用常规归类方法应用计算的数据集成。大数据的本质意义就是对数据进行专业化的处理而不在于数据信息的庞大。我们可以把大数据比作工厂,而生产效率是其中的关键,关键是提高对数据这个原材料的“加工能力”,同时,通过“深加工”实现数据的持续“增值”。第1章互

2、联网大数据概述1.1 认识大数据1.1.2 大数据的特征1数据体量极为巨大截至目前,人类生产的所有印刷材料的数据量是200PB,而历史上全人类说过的所有话的数据量大约是5EB(1EB=210PB)。2数据类型繁多包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高的要求。3价值密度低价值密度的高低与数据总量的大小成反比。数据总量越大,无效冗余的数据则越多。4处理速度快(1)传统企业数据。(2)机器和传感器数据。(3)社交数据。第1章互联网大数据概述1.1 认识大数据1.1.3 未来十年大数据分析的发展趋势(1)公有云供应商正扩大其影响力。(2)公有云优于私

3、有云的优势继续扩大。(3)加速融合以让企业实现商业价值。(4)大数据初创公司将越来越复杂的人工智能(AI)注意应用程序推向市场。(5)新兴解决方案逐渐替代传统方法。(6)Hadoop 的稳定地位。(7)打包的大数据分析应用程序正变得越来越广泛。第1章互联网大数据概述1.2 常用大数据处理、分析工具介绍1.2.1 大数据的存储工具1日立公司的产品日立在提供了一些大数据产品以外,更与Pentaho软件公司合作开发了大数据分析工具、日立超级横向扩展平台(HSP)、HSP技术架构以及日立视频管理平台(VMP)。2DDN的产品Data Direct Networks(DDN)有一批面向大数据存储的解决方

4、案。3Spectra BlackPearlSpectra Logic公司的BlackPearl深度存储网关为基于SAS(串行连接SCSI)的磁盘、SMR(瓦楞式堆叠磁盘)降速磁盘或磁带提供了对象存储接口,所有这些技术都可以放在存储环境中BlackPearl的后面。第1章互联网大数据概述1.2 常用大数据处理、分析工具介绍1.2.1 大数据的存储工具4Kaminario K2Kaminario公司提供了另一种大数据存储平台,其全闪存阵列正在许多大数据应用领域找到一席之地。5Caringo公司的产品Caringo公司旨在发掘数据的价值,解决在其中产生的一系列问题,并大规模保护、管理、组织和搜索数据

5、。6InfogixInfogix企业数据分析平台基于五项核心功能:数据质量、事务监控、均衡及协调、身份匹配、行为分析以及预测模型。第1章互联网大数据概述1.2 常用大数据处理、分析工具介绍1.2.1 大数据的存储工具7Avere混合云Avere提供了另一种大数据存储方案,其Avere混合云部署在混合云基础设施中的各种用例。8DriveScale大数据通常需要存储在本地磁盘上,这意味着为了在大数据集群的规模不断扩大时,能实现效率和扩展性,就需要保持计算和存储之间的逻辑关系。9HedvigHedvig分布式存储平台提供了一个统一性的解决方案,就是在综合降低成本的同时存储的性能得到大幅的提升,以支持

6、任何应用程序、虚拟机管理程序、容器或云。10NimbleNimble存储预测闪存平台据说可显著提高分析应用和大数据工作负载的性能。第1章互联网大数据概述1.2 常用大数据处理、分析工具介绍1.2.2 大数据的软件开发工具1.Apache HiveHive提供了一种简单的类似SQL的查询语言HiveQL,这为熟悉SQL的用户查询数据提供了方便。2Jaspersoft BI套件Jaspersoft包是一个通过数据库列生成报表的开源软件。3.1010data1010data是一个分析型云服务,旨在为华尔街的客户提供服务,甚至包括NYSE Euronext(纽约泛欧证券交易所)、游戏和电信的客户。4.

7、ActianActian(也称IngresCorp)拥有超过1万客户而且正在扩增。第1章互联网大数据概述1.2 常用大数据处理、分析工具介绍1.2.2 大数据的软件开发工具5.Pentaho Business Analytics从某种意义上说,Pentaho与Jaspersoft相比,尽管Pentaho开始于报告生成引擎,但它目前通过简化从新来源中获取信息的过程来支持大数据处理。6.Placed Analytics利用脚本语言以及API,Placed Analytics能够提供针对移动和网络应用的详细用户行为分析,包括用户使用时间和地理位置信息。7.ClouderaCloudera正在努力为开

8、源Hadoop提供支持,同时将数据处理框架延伸到一个全面的“企业数据中心”范畴,这个数据中心可以作为首选目标和管理企业所有数据的中心点。第1章互联网大数据概述1.2 常用大数据处理、分析工具介绍1.2.2 大数据的软件开发工具8.Keen IOKeen IO是个强大的移动应用分析工具,开发者只需要简单到一行代码,就可以跟踪他们想要的关于他们应用的任何信息。9.Talend Open StudioTalend工具用于协助进行数据质量、数据集成和数据管理等方面的工作。10.Apache SparkApache Spark是Hadoop开源生态系统的新成员,它提供了一个比Hive更快的查询引擎,因为

9、它依赖于自己的数据处理框架而不是依靠Hadoop的HDFS(Hadoop分布式文件系统)服务。第1章互联网大数据概述1.2 常用大数据处理、分析工具介绍1.2.3 大数据的挖掘工具1.RapidMinerRapidMiner是一个用于机器学习、数据挖掘和分析的试验环境,同时用于研究真实世界的数据挖掘。2.WEKAWEKA(Waikato Environment for Knowledge Analysis,怀卡托智能分析环境)是一款非常复杂的数据挖掘工具,它支持几种经典的数据挖掘任务,显著的数据预处理、集群、分类、回归、虚拟化以及功能选择。3.R软件R软件是另一种较为流行的GNU开源数据挖掘工

10、具,作为一款用于统计分析和图形化的计算机语言及分析工具,为了保证性能,它主要是由C语言和FORTRAN语言编写的。第1章互联网大数据概述1.2 常用大数据处理、分析工具介绍1.2.3 大数据的挖掘工具4.Orange数据挖掘软件Orange 是一个基于组件的数据挖掘和机器学习软件套装,它的功能、界面友好且很强大,具有快速而又多功能的可视化编程前端,以便浏览数据分析和可视化,其绑定了Python以进行脚本开发。5.KNIMEKNIME(Konstanz Information Miner,康斯坦茨信息挖掘工具)是一款开源的进行数据集成、数据分析、数据处理的综合平台。6.JHepWorkJHepW

11、ork是一种为科学家、工程师和学生所设计的免费的开源数据分析框架,其主要是用开源库来创建一个数据分析环境,并提供了丰富的用户接口,以此来和那些收费的软件竞争。第1章互联网大数据概述1.2 常用大数据处理、分析工具介绍1.2.3 大数据的挖掘工具7.NLTKNLTK(Natural Language Tool Kit,自然语言工具包)最适用于语言处理任务,因为它可以提供一个语言处理工具,包括数据挖掘、机器学习、数据抓取、情感分析等各种语言处理任务。8.PentahoPentaho为数据集成、业务分析以及大数据处理提供一个全面的平台。第1章互联网大数据概述1.2 常用大数据处理、分析工具介绍1.2.4 大数据的可视化工具(1)Jupyter:大数据可视化的一站式商店。Jupyter是一个开源项目,通过十多种编程语言实现大数据分析、可视化和软件开发的实时协作(2)Tableau:AI、大数据和机器学习应用可视化的最佳解决方案。Tableau是大数据可视化的市场领导者之一(3)Google图表:Google支持的免费而强大的整合功能。谷歌图表是大数据可视化的最佳解决方案之一(4)D3.js:以任何您需要的方式直观地显示大数据。D3.js代表Data Driven Document,是一个用于实时交互式大数据可视化的JS库。第1章互联网大数据概述感谢观看


注意事项

本文(互联网大数据ppt第1章互联网大数据概述.pptx)为本站会员(bubibi)主动上传,文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文库网(点击联系客服),我们立即给予删除!




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

文库网用户QQ群:731843829  微博官方号:文库网官方   知乎号:文库网

Copyright© 2025 文库网 wenkunet.com 网站版权所有世界地图

经营许可证编号:粤ICP备2021046453号   营业执照商标

1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png