文库网
ImageVerifierCode 换一换
首页 文库网 > 资源分类 > PDF文档下载
分享到微信 分享到微博 分享到QQ空间

大数据时代的数据分析.pdf

  • 资源ID:42113       资源大小:93.45KB        全文页数:2页
  • 资源格式: PDF        下载积分:2文币
微信登录下载
快捷下载 游客一键下载
账号登录下载
三方登录下载: QQ登录 微博登录
二维码
扫码关注公众号登录
下载资源需要2文币
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 
账号:
密码:
验证码:   换一换
  忘记密码?
    
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

大数据时代的数据分析.pdf

1、-5-探索与观察大数据时代的数据分析西安邮电大学 张学敏【摘要】 近年来互联网的高速发展引领人类进入了一个信息量爆炸性增长的时代。每个人的生活中都充满了结构化和非结构化的数据。随着人类生活全面向互联网转移,大数据时代将会不可避免的到来!作为全球互联网的前沿概念,大数据主要包括两方面特征:一方面整个社会的信息量急剧增长,另一方面个人可获取的信息也呈指数增长。从科技发展的角度来看,“大数据”是“数据化”趋势下的必然产物!并且随着这一趋势的不断深入,在不远的将来我们将身处于一个“一切都被记录,一切都被数字化”的时代。在这种背景下,对大数据的有效存储以及良好地分析利用变的越来越急迫。而数据分析能力的高

2、低决定了大数据中价值发现过程的好坏与成败。本文以大数据时代的数据分析为主题,简明的阐述了国内大数据分析的发展现状、大数据的分析模式以及主要的分析技术、大数据时代数据分析的几个核心概念等相关问题。【关键词】 大数据;分析模式;数据分析ABSTRACT: In recent years , Internet had lead humanity into an era which the amount of information are growing explosively Everyones life is full of structured and unstructured data.We

3、 will inevitably entering the era of big data with human life fully transferring to the Internet.As a cutting-edge concept of Internet , big data consists mainly of two characteristics :The amount of information in our society and people can obtained are growing rapidly.From the perspective of scien

4、ce development , the era of big data is an inevitable product of the digital trend! As this trend moving deeply , we will live in a world where everything would be digital and recorded.In this context , effectively storing 、 analyzing and using of those data become more and more urgent for society.D

5、ata analysis de? nitely determines the value and the quality of data mining process.Data analyzing is the core content in this paper.Concisely elaborating the current development of data analyzing 、 analyzing model and the main analytical techniques , several core concepts of big data analysis and o

6、ther related issues.Key words : Big data ; Analytical model ; Data analysis1. 国内大数据分析的发展现状数据分析是数据处理流程的核心,因为数据中所蕴藏的价值就产生于分析的过程。所谓“大数据分析”,其和以往数据分析的最重要的差别在于数据量急剧增长。由于数据量的增长,使得对于数据的存储、查询以及分析的要求迅速提高。从实际操作的角度看,“大数据分析”需要通过对原始数据进行分析来探究一种模式,寻找导致现实情况的根源因素,通过建立模型与预测来进行优化,以实现社会运行中各个领域的持续改善与创新。虽然近两年来“大数据”的概念越来越多

7、的被媒体以及行业提及,但“大数据分析”在国内的发展却仍处于初期阶段。从行业实践的角度看,只有少数几个行业的部分企业,能够对大数据进行基本分析和运用,并在业务决策中以数据分析结果为依据。这些行业主要集中在银行与保险,电信与电商等领域。以银行业为例,目前大型国有银行在其主营业务中均引入了数据分析,但深度尚可,广度不够,尚未扩充到运营管理的所有领域;而中小银行在数据分析方面的人员与能力建设尚处于起步阶段。对于支撑起我国庞大国民生产总值的建筑业、制造业以及贸易行业,其数据分析应用远远没有进入规模化发展阶段,这些行业在 IT方向的开支主要集中在公司日常的流程化管理领域。从技术发展的角度看,一些已经较为成

8、熟的数据分析处理技术,例如商业智能技术和数据挖掘技术,已经在多个行业领域里得到广泛和深入的应用。最典型的就是电商行业,运用这些技术对行业数据进行分析,对提高行业的整体运行效率以及增加行业利润都起到了极大的推动作用。但对于像Hadoop、非结构化数据库、数据可视化工具以及个性化推荐引擎这样的新技术,其较高的技术门槛和高昂的运营维护成本使得国内只有少数企业能够将其运用到深入分析行业数据中。从数据来源的角度看,在能够实现数据化运营的企业中,绝大多数仅仅完成了依靠企业自身所产生的数据解决自身所面临的问题,并且是依据问题来收集所需要的数据。而仅有极少数互联网企业能够发挥出大数据分析的真正价值:同时运用企

9、业外部和内部的数据来解决企业自身的问题,通过数据分析预测可能出现的问题,并依据数据分析的结果进行商业决策。在一定程度上实现了由数据化运营向运营数据的转变。2. 大数据的主要分析模式与技术2.1 大数据的主要分析模式大数据时代所分析的数据的最主要特征是“多源异构”,其分析过程是逐层抽象、降维、概括和解读的过程。从数据采集的源头进行划分,可将大数据时代分析处理的数据对象划分为以下几个类别:( 1)各网页中用户的浏览次数、点击率,各种社交网站、动态网站网页内容信息的变化,搜索引擎中关键词的搜索量、网络实时监控数据等互联网数据。( 2)可以用于分析用户行为、对系统的操作、以及系统运行状态的日志数据。(

10、 3)在通信领域中的各种信号、信令数据,用户的个人信息以及通话位置、时长等数据。( 4)国民经济中各领域、各行业的统计分析数据。对于这些数量庞大的,来自不同源头的非结构化数据。其分析模式的特点如下:对于互联网产生的数据,其最主要的应用是建立搜索引擎,通过搜索引擎进行数据检索、处理。随着技术的不断发展,个性化推荐引擎以及大数据分析引擎的问世能够更加高效的在海量数据中分析得出更有价值的信息;对于日志数据,可对用户点击浏览的行为日志和系统运行行为日志进行分析。使得系统能够根据实际情况产生出更加智能的结果。日志数据与网页数据的分析处理模式较为类似,都是通过细致分析从而探寻出数据中蕴藏的价值。这种数据分

11、析处理模式称为“离线批处理模式”;对于通信领域的数据分析,分析决策人员会对经过细致分析的数据进行统计归纳和查询,并且在最短的时间内获得最有价值的信息。以此来确保系统的交互性并最大限度地提升用户体验。这种数据分析处理模式称为“查询式分析”模式;对于互联网以及国民经济中重要行业的数据进行实时监控,这种模式称为“实时数据分析处理“模式。以上为依据时间特征划分的数据分析模式。而实现这些分析模式的主要方法有:分类、回归分析、聚类、关联规则、神经网络、 WEB数据挖掘等。2.2 大数据的主要分析技术要想从急剧增长的数据资源中挖掘分析出有价值的信息,需要先进的分析技术作支撑。从宏观上看,大数据分析技术发展所

12、面临的问题均包含三个主要特征:( 1)数据量庞大并以惊人的速度增长;( 2)数据种类与结构多样化,并以半结构化和非结构化的数据为主;( 3)需要具备及时快速的分析速度,即实时分析。这些特征使得传统的数据分析技术无法满足要求,更加先进的数据分析平台才是大数据时代更好的选择。为了有效应对大数据时代数据分析问题的三个主要特征以及满足大数据分析的基本需求,当前以及未来一段时期内将主要通过分布式数据库或者分布式计算集群来对存储于其内的海量数据进行由浅入深的分析和分类汇总。例如,为满足实时分析的需求通常会采用 Qracle 的 Exadata 和 EMC的GreenPlum。而目前分析处理大数据的应用最广

13、泛的核心技术为 Hadoop。Hadoop是由 Apache基金会所开发的一个基于 Java的分布式数据处理和分析的软件基础架构。在这种架构下,用户可以在不了解分布式底层细节的情况下,开发分布式程序。 Hadoop能够将数量庞大的数据分解成规模较小、易访问的数据集并发送到多台服务器上进行分析,以此获得高效的分析速率。该架构主要由文件系统以及数据处理两部分功能模块组成。3. 大数据分析的几个核心概念3.1 K 平均算法K平均算法是一种得到广泛应用的基于划分的聚类算法。其把 M个对象分为 N个簇,使得每个簇内具有较高的相似度。在应用该算法进行数据分析时,首先应输入包含 M个对象的数据集 A以及簇的

14、数目N。从 A中任意选择 N个对象作为初始簇中心并且不断重复,随后计算出簇中对象的均值,将每个对象分配到最相似的簇并且不断更新簇均值,最后计算准则函数直到其不再发生变化为止。因为该算法的复杂度大约是0( nkt ),所以该算法在处理大数据集时是相-6-探索与观察对可伸缩的和高效率的。3.2 奇异值分解假设 A是一个 m n阶矩阵,其中的元素全部属于实数域或复数域。如此则存在一个分解使得 A=U V*。其中 U是 m m阶酉矩阵,是半正定 m n阶对角矩阵,而 V*是 n n阶酉矩阵的共轭转置矩阵。这样的分解就称为 A的奇异值分解。在 MATLAB仿真软件中计算奇异值分解的函数式为: b.c.d

15、=svd(x)3.3 主成分分析( PCA算法)从宏观上来说,主成分分析是指在研究一项变量较多的课题时,将这些变量通过线性变换而简化为几个重要变量的一种多元统计分析方法。而在数据分析领域,主成分分析的主要作用是对大规模的数据集进行分析与简化。其主要体现在降低数据集的维数,同时尽可能保持数据集中的对所研究的问题最有价值的特征。简而言之,就是保留低阶主成分,忽略高阶主成分。其具体方法是通过对协方差矩阵进行特征分解,从而得出数据的特征向量与特征值。主成分分析在数学上可以理解为一个正交化的线性变换,把数据整体变换到一个新的坐标系中,使得这一数据的任何投影的第一大方差在第一主成分上,第二大方差在第二主成

16、分上,依次类推。3.4 决策树学习从广义上讲,决策树是一种运用图解法的概率分析,即在已知各种事件发生概率的基础上,通过构建决策树来探究期望值大于等于零的概率,同时判断可行性的决策分析方法。决策树学习是数据分析领域常用的方法,其目的是构建一个模型来预测样本的目标值。一棵决策树的训练就是依据一个既定指标,将训练数据集分为几个子集并且在所产生的子集中不断重复此方法的过程,直到一个训练子集的类标都相同时为止。决策树主要有两种类型:分类树和回归树。其中分类树的输出是样本的类标,而回归树输出的是一个实数。决策树的优点体现在即可以处理数值型数据也可以处理类别型数据,并且适合处理大规模数据。参考文献1 维克托

17、 ?迈尔 - 舍恩伯格 , 肯尼思 ?库克耶 . 大数据时代M. 浙江人民出版社 ,2013.2 车品觉 . 决战大数据 M. 浙江人民出版社 ,2014.基 于物联网技术的智能家居体系研究中南大学信息科学与工程学院 王 祎 菡【摘要】 智能家居的概念随着时代持续进步持续更新,当今基于物联网技能的智能家居体系的思想已远超安防报警 、实时对讲、监控体系、控制家电等,它已是使用Internet 来构成集家庭通信和安全监控等功能为一体的智能控制体系。本文主要探讨了智能家居体系中物联网技术的开发及应用与展望未来智能家居产业的发展风向。【关键词】 物联网技术;智能与家居;传感器;智能家居发展方向1. 前

18、言在当今如此快速发展的时代,人类对快节奏生活的要求极度迫切,对生活品质的要求显著提高,计算机和手机的广泛普及应用和物联网技术的发现创造了新的市场和机遇,基于物联网的智能家居体系,在即将到来的未来一定会成为当代人们生活中不可缺少的一部分。2. 智能家居体系结构物联网智能家居体系有多个组成部分,具体是中央控制器、信号接收器、远程遥控控制器和模拟启动器。信号接收器可以接受使用者发来的指令信息,然后转化为可以识别的代码再传送到中央控制器里面,中央控制器进行处理和分析后,一方面将指令传送到模拟启动器中,另一方面将指令传递到实时显示模块进行显示 , 模拟启动器根据指令内容,各自启动相关远程控制器,从而实现

19、对智能家居的控制,一切操作完成后,远程控制端口就会回馈一条完成指令信息给中央控制器,然后通过信号接收器反馈给使用者,使用者就可以根据反馈得来的消息来判断接下来的操作。图 1 基于物联网的智能家居体系当处于用户不操作的情况下,中央控制器会自动接收信息以及监控各类传感器工作状况,根据不同设置要求,实时监控各类环境数据 , 旦变化超出设定范围,中央控制器$自,生增令, 模拟启动器会控制相应的智能设备进行调节,从而营造安全舒适的家居条件,如图 1所示。3. 智能家居体系中的物联网技术3.1 无线传感器技术随着计算机技术的发展,能够将计算、通信、传感等功能都集成于一个设备上变成可能,这些技术的紧密结合正

20、是无线传感器网络。无线传感器在运行时是由电池或者发电机提供能源,形成无线传感器网络节点,由集成有传感器、数据处理单元和通信模块的各个微型节点,通过自由无组织方式构成网络。无线传感器网络由传感器节点构成的网络,能够实时地监测、感知和采集节点部署区的环境或观察者感兴趣的感知对象的各种信息,并对这些信息进行处理后以无线的方式发送出去,同时还可以实时传输采集的整个时间历程信号。数据采集处理模块将传感器输出的微弱信号经过放大,滤波等过程,再送到模数转换器,转变成为数字信号,最后送到主处理器进行数字信号处理,计算出传感器各种参数。无线传感器网络使普通物体具有了感知能力和通信能力,在智能家居领域有着广阔的应

21、用前景。3.2 (RFID) 射频识别技术射频识别技术在智能家居体系中扮有自动识别、门禁管理系统的强大功能。无线电频率识别的简称是射频识别,可通过无线电讯号识别特定目标并读写相关数据,而无需识别系统与特定目标之间建立机械或光学接触新的模式。在 RFID体系中,识别信息存放在电子数据载体中,电子数据载体叫做应答器。应答器中存放的信息由解读器识别。阅读器不仅可以读出存放在里面的信息,并且可以对其进行写入,读写操作过程,这些功能是通过双方之间的无线通信来实现的。3.3 通信与网络技术各种各样的无线技术、感知技术、通信技术、网络技术仪器组成了以物联网为核心的充满智慧的网络,而通信与网络技术是支撑物联网

22、运转的核心部分,是物联网应用发展的重中之重。通信与网络技术包括通信网与 IPV6技术、 3G与 4G技术、 WIFI技术、无线宽带接入技术、 NFC近场通信技术和 ZigBee技术等。4. 智能家居前景展望根据物联网技术研究的展开,智能家居成为其主要的展现平台。物联网技术在智能家居上的应用 , 为智能小区的物业管理部门提供了科学、高效的管理手段和方法,将无线传感网、图像识别、射频识别、定位等主流技术结合现有的视频监控体系,可以全方位地提升智能小区管理的自动化程度,提高效率,节省人力。物联网技术的应用为小区住户提供了更宏全、舒适的现代化生活空间和环境,其优点和便捷不胜枚举。如果能够将这样的智慧小

23、区体系全部串接起来,共享更多的各种资源,互通互联,就能为建立智能化城市体系创造良好的开端。智能家居体系的家庭集成信息化实现方式已成为社会高度智慧化发展的重要构成因子,物联网也因为它拥有的巨大的应用前景,对智能家居产业的发展产生深远影响。5. 结束语智能家居体系的发展道路上需要有一套高度整合的行业标准,随着网络科技和电子通信技术的发展,传统行业里面的建筑产业与 IT业会有更深度的融合与互惠,同时又推动了智能家居的高度发展。因此,智能家居行业的进步需要家电产业链、 IT技术和各行各业体系集成商的共同合作,当然,这不仅需要国家的大力支持,也需要各个企业的积极融入,只有这样我国的智能家居产业才能以迅雷不及掩耳之势的好势头发展起来。参考文献1 杨明 . 浅谈物联网技术在小区安防中的应用 J. 中国安防 ,2010:24-26.2 俞建峰 . 物联网工程开发与实践 M. 人民邮电出版社 ,2013.


注意事项

本文(大数据时代的数据分析.pdf)为本站会员(李静文)主动上传,文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文库网(点击联系客服),我们立即给予删除!




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

文库网用户QQ群:731843829  微博官方号:文库网官方   知乎号:文库网

Copyright© 2025 文库网 wenkunet.com 网站版权所有世界地图

经营许可证编号:粤ICP备2021046453号   营业执照商标

1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png