大数据-机器学习-数据挖掘-云计算-智能物流(1).pptx
《大数据-机器学习-数据挖掘-云计算-智能物流(1).pptx》由会员分享,可在线阅读,更多相关《大数据-机器学习-数据挖掘-云计算-智能物流(1).pptx(90页珍藏版)》请在文库网上搜索。
1、L o g o大数据讨论会(机器学习、云计算、数据挖掘、智能物流)2017年3月31UESTCLing BaoL o g o提纲第五部分 大数据与智能物流第四部分 数据挖掘技术第三部分 云计算及分布式计算平台第二部分 机器学习第一部分 大数据UESTCL o g o大数据概述及其技术综述2017年3月31UESTC第一部分 大数据L o g oContents问题与挑战大数据相关技术大数据体系架构大数据产业分析大数据基本概念UESTCL o g o1 大数据基本概念(1)大数据概念出现的原因大数据概念的出,是以信息技的展和用主的:数据模和型的;数据存成本下降;大模数据理成可能;数据的采集更密集
2、和广泛;分析用的展。(2)大数据概念的描述麦肯:大数据是指其大小超出了典型数据件的采集、存、管理和分析等能力的数据集;基百科:无法在一定内用常件工具其内容太行抓取、管理和理的大量而复的数据集合;Gartner:体量大、快速和多化的信息,需用高效率和新型的信息技加以理,以提高洞察、做出决策和化流程的能力;Forrester:大数据本是数据存、理和的流程与目的集成。UESTCL o g o1 大数据基本概念(3)大数据特征(4V)数据体量巨大(Volume)大数据通常指10TB(1TB=1024GB)模以上的数据量。数据种繁多(Variety)随着感器种的增多以及智能、社交网等的流行,数据型也得更
3、加复,不包括的关系数据型,也包括以网、音、e-mail、文档等形式存在的未加工的、半构化的和非构化的数据。流速度快(Velocity)强数据是快速 化的,形成流式数据是大数据的重要特征,数据流的速度快到以用的系去理。价密度低(Value)数据量呈指数增的同,藏在海量数据的有用信息却没有相比例增,反而使我取有用信息的度加大。UESTC大数据的分析将更加复、更追求速度、更注重效L o g o2 大数据产业分析(1)数据源之数据银行数据行的本在于了数据源的商品化、准化、化,承着数据形成、管理和交易的。因此,在数据价 和数据流通的程中必行数据清洗、格式化以及必要的用景开等工作,并且以相的机制和技,聚合
4、数据的供和需求,确保数据接入、布和通道的。UESTCL o g o2 大数据产业分析(2)数据源之众包模式大数据代,需要采集和加工海量的底原始数据,在成本可接受的范内,很多候已无法基于有采集来完成任,因此众包模式在大数据中最重要的用景就是数据的采集。同,海量数据的加工和注等任所需的人力和太高,使得众包模式在数据理也具有大的用空。通众包模式也可以将需要高智力和技水平的外包大众,通受众面的大来提高任完成的效率。比如(Kaggle),将原始数据公布于众,公众极参与到数据的分析挖掘和用新活中,能有效推大数据技和的展。(3)基础架构基架构区中的企主要提供大数据存和管理的品或服,后的分析和挖掘提供支持,包
5、括各新的NoSQL、NewSQL、MPP(sharednothing架构)和数据,以及云服、数据工具、管理/控工具和存等。UESTCL o g o2 大数据产业分析(4)跨平台多提供算、存和分析平台或服的大型厂商,提供大数据分析行支持的硬件一体化方案。(5)开源由企、高校或科研机构所研并开源的大数据品,是当前大数据基技展的最大推力,通常集中在基性平台和分析工具两大。主要包括:Hadoop,Spark,MongoDB,Storm,Mahout,Solr。(6)分析除了存,大数据管理的另一大的挑是数据分析。数据分析大致分数据挖掘(大数据分析的理核心,用不同数据型和格式呈出数据的各种特性,挖掘其中含
6、的价)、性分析、非构化分析(海量的音、像、和文本数据,合人工智能技抽取和提,使之能用于后的分析挖掘)、可化分析(直呈数据分布特性、便于理解)。UESTCL o g o3 大数据平台与系统大数据平台在 上表 一种次架构,自上而下包括用、 、服 、感知/接入和源。而相关的准、范和安全机制穿所有次。UESTC1 用(智能控、事 、 分析、分析模、指决策等核心用)2 (“云模式”和“云+端模式”)3 服( 服 :采集、建模、管理、分析、挖掘和融合等;支撑服 :物化中件、虚化中件、服化中件、源度中件以及分布式存中件(如Hadoop 等)4 感知/接入(各感知 取各大数据信息;无 感网、4G-LTE 等多
7、种途径 大数据信息)5 源(提供包括存服器、算服器等高性能硬件源,构化和非构化的数据源,以及平台源和模型/服 源等件源。)L o g o4 大数据相关技术(1)深度学习大数据分析的一个核心是如何数据行有效表达、解和学,无是像、声音是文本数据.的研究也有很多数据表达的模型和方法,但通常都是 或浅的模型,模型的能力有限,而且依于数据的表达,不能得很好的学效果.大数据的出提供了使用更加复的模型来更有效地表征数据、解数据的机会.深度学就是利用次化的架构学出象在不同次上的表达,种次化的表达可以帮助解决更加复抽象的.(2)知识计算基于大数据的知算是大数据分析的基.知算是国内外工界开和学界研究的一个点.要数
8、据行高端分析,就需要从大数据中先抽取出有价的知,并把它构建成可支持、分析和算的知。UESTCL o g o4 大数据相关技术(3)社会计算以Facebook、Twitter、新浪微博、微信等代表的在社交网和社会媒体正深刻改着人播信息和取信息的方式,人的互成信息互的体和信息播的媒介,社会媒体的强交互性、效性等特点使其在信息的生、消和播程中着越来越重要的作用,成一重要信息体.正因如此,大家关注的包括了在社会网构、信息播以及信息内容的分析、建模与挖掘等一系列.(2)可视化保大数据和分析的用性、效性以及可理解性于人能否及得决策信息非常重要,决定着大数据用的成.大数据容量巨大,型多,数据分析工具面性能瓶
9、,数据分析工具缺少易用.因此,数据可化技正逐步成大数据代的学.UESTCL o g o5 问题与挑战(1)数据复杂性带来的挑战大数据的涌使人理算 得了前所未有的大模本,但同也不得不面更加复的数据象,如前所述,其典型的特性是型和模式多、关关系繁、量良莠不.大数据内在的复性(包括型的复、构的复和模式的复)使得数据的感知、表达、理解和算等多个面着巨大的挑,致了全量数据算模式下空度上算复度的激增,的数据分析与挖掘任如索、主 、和情感分析等得异常困.(2)计算复杂性带来的挑战大数据多源异构、模巨大、快速多等特性使得的机器学、信息索、数据挖掘等算方法不能有效支持大数据的理、分析和算.在求解大数据的 ,需要
10、重新和研究它的可算性、算复性和求解算法,而大数据本量充分,内在关关系密切而复,价密度分布极不均衡,些特征研究大数据的可算性及建立新型算范式提供了机遇,同也提出了挑.UESTCL o g o5 问题与挑战(3)系统复杂性带来的挑战不同数据型与用的大数据理系是支持大数据科学研究的基平台.于模巨大、构复、价稀疏的大数据,其理亦面算复度高、任周期、性要求强等.大数据及其理的些点不大数据理系的系架构、算框架、理方法提出了新的挑,更大数据理系的运行效率及位能耗提出了苛刻要求,要求大数据理系必具有高效能的特点.于以高效能目的大数据理系的系架构、算框架、理方法和基准研究,其基是大数据理系的效能价与化研究.些的
11、解决可奠定大数据理系 、与化的基本准,是构建能效化的分布式存和理的硬件及件系架构的重要依据和基,因此是大数据分析理所必解决的关 .UESTCL o g o机器学习概览及其算法综述2017年3月30UESTC第二部分 机器学习L o g oContents机器学习学习路线深度学习概述之深层网络派生树主要机器学习算法机器学习算法分类研究现状与发展前景UESTCL o g o1 研究现状与发展前景v国内研究状(主要表在以下六方面)1、泛化能力研究里的泛化能力指机器的模式所具有的推广能力,研究方法是集成学和二次学(提高可理解性)。代表人物是南京大学的周志教授,他的研究成果有:性集成算法、C4.5Rul
12、ePANE、NeC4.5。Z.-H.ZhouandY.Jiang.Medical diagnosis with C4.5 rule preceded by artificial Neural network ensemble.IEEETransactionsonInformationTechnologyinBiomedicine,2003,vol.7,no.1,pp.37-42;Z.-H.ZhouandY.Jiang.NeC4.5: Neural Ensemble Based C4.5. IEEETransactionsonknowledgeanddataengineering,vol.16,
13、no.6,JUNE2004.UESTCL o g o1 研究现状与发展前景2、监督学习算法向多示例学习算法转化的一般准则研究自1997年T.G.Dietterich等人提出多示例学以来,一直成研究的点(如何常用的机器学算法多示例版本),具有非常广泛的用,例如:像索、文本分等。目前,很多常用算法都有了多示例版本,但其化程均是具体算法行的,缺乏普遍适用性。周志等人提出了督学算法向多示例学算法化的一般准,出了基于集成学的多示例的求解方法。多示例学周志 百度文UESTCX=(X1,X2,.,Xn)X3X2X5X6X1X4X7X8L o g o1 研究现状与发展前景3、机器学习技术在工作流模型(WFMS
14、)设定中应用的研究取工作流模型是用中的一个瓶,大需要花60%的开 得程的,而且所取的模型都以支持非或展化的情形。据此,在WFMS中集成机器学部件,通理人工定的工作流例提取工作流模型,一步取工作流的自适性具有重要意。孟祥山,宇.“ 机器学” 在工作流模型定中的用 J.算机用与件,2006(1):4547;UESTCL o g o1 研究现状与发展前景4、机器学习技术在数据挖掘中的商业应用研究数据挖掘是20世80年代投人工智能研究目失后,人工智能入 用提出的,它是一个新的、面向商用的交叉学科。数据挖掘的主要方法 学方法和机器学方法。黄林,勇,郭冰榕.机器学技在数据挖掘中的商 用 J. 中山大学学:
15、自然科学版,2005(6):145-148.UESTCL o g o1 研究现状与发展前景5、基于机器学习的入侵检测技术研究的入侵系IDS存在大量的:未知网攻的能力差,率高,占用源多;将机器学方法引入到IDS中来并采用先的分布式体系构,已成IDS的重要展方向。 荣,肖平,明,等. 基于机器学的入侵 技概述 J. 算机工程与用,2006(2):7-10.UESTCL o g o1 研究现状与发展前景6、人工智能原理在人类学习中的应用研究人工智能理研究表明,可以将人看成一个智能信息理系,并且人的知活具有不同次,它可以与算机的次相比。知活的最高次是思策略,中一是初信息理,最底是生理程,即中枢神系、神
16、元和大的活;与此相的是算机的程序、言和硬件。研究知程的主要任是探求高思决策与初信息理的关系,用算机程序模人的思策略水平,用算机言模人的初信息理程。震,王文.人工智能原理在人学中的用 J. 吉首大学学:自然科学版,2006(1):39-42.UESTCL o g o1 研究现状与发展前景v国外研究状(主要表在以下五方面)1、搜索引擎Google的成功,使得Internet搜索引擎成新 。除了有的众多搜索引擎的公司(如 中文搜索的百度等),Microsoft等巨也开始投入巨行搜索引擎的研。Google掘到的第一桶金,来源于其始人LarryPage和SergeyBrin提出的PageRank算法。机
17、器学技正在支撑着各搜索引擎。SergeyBrin,LawrencePage.The Anatomy of a Search EngineUESTCL o g o1 研究现状与发展前景2、PAL(PerceptiveAssistantthatLearns)计划是一个以机器学核心的划(涉及AI其他分支,如知表示和推理、自然言理等)。2003年,DARPA开始启5年期PAL划,含2个子划:RADAR(ReflectiveAgentswithDistributedAdaptiveReasoning)与CALO(CognitiveAgentthatLearnsandObserves)。从CALO的目来看
18、,DARPA已开始把机器学技的重要性置于国家安全的角度行考,美国一些主要大学和公司参加了个子划。PALWebSite:https:/ o g o1 研究现状与发展前景3、汽车自动驾驶当汽在路况复的道路上行,由算机控制自行可以大大减少交通事故的生。机器学算法的核心是决定 前,是左、右。主要任是从立体中学如何在高速公路上行,要根据察人的行 各种像和操指令,并且要将各种像和指令行正确分。主要代表:Google公司、百度与德国宝汽公司合作开自 汽。UESTCL o g o1 研究现状与发展前景4、对天文物体进行分类利用机器学方法天文物体行分,主要是学判断新事物,关技是像数据行分。5、其他应用1)生物技
19、:可折叠蛋白 ,因子微型排列表示;2)算机系性能的;3)行的用:信用卡盗用;4)属性(美国政服);5)互网用:文档自分,学用参数。UESTCL o g o1 研究现状与发展前景v展前景从50年代中期到在机器学(ML)了烈、 冷静、复、蓬勃四个期。如今ML在蓬勃展的段,ML予了算机人学的能力,并形成了能行ML的系。然近几年ML速展,但它竟是一个新型研究域,遇到了多。一直以来,ML都是人工智能域的主 , 解决ML中的能促人工智能域的展速度;另一方面ML渗透到了其他域,因此合其他域的学体制和方法, 也会促机器学的展。体来,ML的展前景是比不的。朱冲,雪, 品.机器学研究展J. 福建 ,2015,v.
20、3108:70-125.UESTCL o g o2 机器学习算法分类在有很多机器学算法,困的是行方法,里介两种方法些算法行思考和分。第一种:学格第二种:形式和功能上似UESTCL o g o1、根据学格分一个算法基于建模有不同的方法,无个是基于或境的交互,或者是基于我需要入的数据,学格是机器学首先必考的。主要学格或者学模型包括:1)Supervised Learning有督式学:入的数据被称数据,一个模型需要通一个 程,在个程中行期判断,如果了再行修正, 程一直持到基于数据达到期的精确性。其关方法是分和回,算法是回、BP神网、回模型,决策,随机森林,K近算法等。UESTC2 机器学习算法分类L
21、 o g o2)UnsupervisedLearning无督学:没有任何数据,没有的入数据采取推构的模型,其关方式是关 学和聚合,算法有Apriori算法和k-means。UESTC2 机器学习算法分类L o g o3)Semi-Supervised Learning半督式学:是模式和机器学域研究的重点,它将督学与无督学相合,主要考如何利用少量的注本和大量的未注本行和分,能减少注代价,提高机器的学性能。主要分半督分,半督回,半督聚和半督降算法。入数据是和非的混合案例,模型必学其中构然后按照期数据,其关方法是分和回。UESTC2 机器学习算法分类L o g o4)强化学:程序在某一情况下所有的可
22、能行,不同行的果并着找出最好的一次来做决定。也就是,模型必能从一个境刺激中行和反。反不会作一个教学程的形式,但可以作境的。其关方法是系和机器人控制,算法包括尔可夫决策程、Q-Learning(增强学算法)和TemporalDifferenceLearning(差分学)等。UESTC2 机器学习算法分类L o g o2、根据形式和功能上似行分UESTC2 机器学习算法分类示例算法分算法空覆盖算法(基于球域的空划分、仿生模式 、 分方法)分超曲面算法HSC极小覆盖子集相似度算法基于的方法基于神网的方法Regression回普通最小二乘法 回逐步回多元自适回本地散点平滑估基于例的方法k-Neares
23、tNeighbour(kNN)(LVQ)学矢量量化(SOM)自 映射算法正化方法岭回数 算方法性网(LASSO)至少 的收和 算子决策(Decision)学(CART)分回(ID3)迭代二叉3代(CHAID)卡方自交互C4.5 决策随机森林(MARS)多元自适回 条(GBM)梯度推机示例算法Bayesian叶斯NaiveBayes朴素叶斯(BBN)叶斯信念网(AODE)平均依估KernelMethods内核方法(SVM)支持向量机(RBF)径向基函数LinearDiscriminateAnalysis(LDA)性 分析聚Clustering方法k-Means(EM)期望最大化算法关 学Apri
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 机器 学习 挖掘 计算 智能 物流