互联网大数据ppt第6章大数据分析中的四种常见分类算法.pptx
《互联网大数据ppt第6章大数据分析中的四种常见分类算法.pptx》由会员分享,可在线阅读,更多相关《互联网大数据ppt第6章大数据分析中的四种常见分类算法.pptx(40页珍藏版)》请在文库网上搜索。
1、第6章大数据分析中的四种常见分类算法6.1 分类算法概述6.2 KNN算法6.3 决策树与随机森林算法6.4 朴素贝叶斯分类算法6.5 支持向量机6.1 分类算法概述6.1.1 有关分类算法的基本概念常用的分类算法包括:决策树(Decision Tree)分类算法、贝叶斯分类算法、K-最近邻(K-Nearest Neighbor,KNN)算法、支持向量机(Support Vector Machine,SVM)算法等。1.决策树分类算法 决策树分类算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决
2、策树是通过一系列规则对数据进行分类的过程。2.贝叶斯分类算法贝叶斯分类算法是一类利用概率统计知识进行分类的算法,如朴素贝叶斯(Naive Bayesian)算法,该算法能运用到大型数据库中,而且方法简单、分类准确率高、速度快。第6章大数据分析中的四种常见分类算法6.1 分类算法概述6.1.1 有关分类算法的基本概念3.KNN算法KNN算法是一种基于实例的分类方法,它是数据挖掘分类技术中最简单的方法之一。4.SVM算法 SVM是由Corinna Cortes和Vapnik等于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问
3、题中。第6章大数据分析中的四种常见分类算法6.1 分类算法概述6.1.2 分类算法的常见应用场景1.O2O优惠券使用预测在O2O中使用优惠券的形式来刺激老用户吸引新用户是一种常见的营销方式。2.市民出行选乘公交预测分析挖掘出固定人群在公共交通中的行为模式,分析推测乘客的出行习惯和偏好,建立模型预测人们在未来一周内将会搭乘哪些公交线路。3.待测微生物种类判别通过把DNA序列片段与已知的微生物DNA序列进行比较,可以确定DNA片段的来源微生物,进而确定待测微生物种类。4.基于运营商数据的个人征信评估利用运营商用户数据,可以提供完善的个人征信评估。第6章大数据分析中的四种常见分类算法6.1 分类算法
4、概述6.1.2 分类算法的常见应用场景5.商品图片分类提取商品图像特征,可以提供给推荐、广告等系统,提高推荐/广告的效果。6.广告点击行为预测让广告主进行定向广告投放和优化,使广告投入产生较大回报。7.基于文本内容的垃圾短信识别基于短信文本内容,并结合机器学习算法、大数据分析挖掘来智能地识别垃圾短信及其变种。8.中文句子类别精准分析分类算法就可以对中文句子、微博等文本数据,进行类别分析。第6章大数据分析中的四种常见分类算法6.1 分类算法概述6.1.2 分类算法的常见应用场景9.P2P网络借贷平台的经营风险量化分析通过互联网数据,构建出P2P网贷平台的经营风险模型,能够比较准确地预测P2P网贷
5、平台的经营风险,促进我国P2P行业向正规化方向发展。10.国家电网客户用电异常行为分析可以利用大数据分析算法与技术,发现窃电用户的行为特征,以帮助系统更快速、准确地识别窃电用户,提高窃电监测效率,降低窃电损失。11.自动驾驶场景中的交通标志检测把完全真实场景下的图片数据用于训练和测试,训练能够实际应用在自动驾驶中的识别模型。第6章大数据分析中的四种常见分类算法6.1 分类算法概述6.1.2 分类算法的常见应用场景12.大数据精准营销中搜狗用户画像挖掘把用户历时一个月的查询词与用户的人口属性标签(性别、年龄、学历)作为训练数据,通过机器学习、数据挖掘技术构建分类算法来对新增用户的人口属性进行判定
6、。13.基于视角的领域情感分析情感分析是网络舆情分析中必不可少的技术,基于视角的领域情感分析更是情感分析应用于特定领域的关键技术。14.监控场景下的行人精细化识别行人作为视频监控中的重要目标之一,若能对其进行有效的外观识别,不仅能提高视频监控工作人员的工作效率,对检索视频、解析行人行为也具有重要意义。第6章大数据分析中的四种常见分类算法6.1 分类算法概述6.1.2 分类算法的常见应用场景15.用户评分预测通过训练带有时间标记的用户打分行为,准确地预测这些用户对其他商品的打分。16.猫狗识别大战可以从训练集里建立一个模型去识别测试集里的小狗。17.微额借款用户人品预测通过数据挖掘来分析“小额微
7、贷”申请借款用户的信用状况,以分析其是否逾期。第6章大数据分析中的四种常见分类算法6.2 KNN算法6.2.1 KNN算法的工作原理与特点1.KNN算法的工作原理训练数据中每个数据都存在标记(分类信息),当输入新样本后,将新样本的每个特征与样本集中数据对应的特征进行比较,然后算法提取样本集中特征最相似数据的分类信息。一般来说,我们只选择样本集数据中前k个最相似的数据。最后,选择k个最相似数据出现次数最多的分类。2.代码实现思路代码实现思路具体如下。(1)计算新样本点与训练数据点的距离。(2)将距离按照递增的顺序排序。(3)选取距离最小的k个点。(4)确定前k个点所在类别出现的频率。(5)将距离
8、按照递增的顺序排序。第6章大数据分析中的四种常见分类算法6.2 KNN算法6.2.1 KNN算法的工作原理与特点3.KNN算法的优缺点1)优点(1)理论成熟,思想简单,既可以用来做分类也可以用来做回归。(2)可用于非线性分类。(3)训练时间复杂度比支持向量机之类的算法低,仅为O(n)。(4)和朴素贝叶斯之类的算法比,对数据没有假设,准确度高,对异常点不敏感。(5)由于KNN算法主要靠周围有限的邻近的样本,而不是靠判别类域的方法来确定所属类别,因此对于类域的交叉或重叠较多的待分样本集来说,KNN方法较其他方法更为适合。(6)该算法比较适用于样本容量比较大的类域的自动分类,而那些样本容量较小的类域
9、采用这种算法比较容易产生误分。第6章大数据分析中的四种常见分类算法6.2 KNN算法6.2.1 KNN算法的工作原理与特点3.KNN算法的优缺点2)缺点(1)计算量大,尤其是特征数非常多的时候。(2)样本不平衡的时候,对稀有类别的预测准确率低。(3)对于KD树、球树之类的模型建立需要大量的内存。(4)使用懒散学习方法,基本上不学习,导致预测时速度比起逻辑回归之类的算法慢。(5)相比决策树模型,KNN模型可解释性不强。第6章大数据分析中的四种常见分类算法6.2 KNN算法6.2.2 快速找到最优k值的实用策略KNN算法中关于k值的选取应遵循以下几个原则。(1)k值较小,则模型复杂度较高,容易发生
10、过拟合,学习的估计误差会增大,预测结果对近邻的实例点非常敏感。(2)k值较大,可以减少学习的估计误差,但是学习的近似误差会增大,与输入实例较远的训练实例也会对预测起作用,使预测发生错误,k值增大,模型的复杂度会下降。(3)在应用中,k值一般取一个比较小的值,通常采用交叉验证法来选取最优的k值。第6章大数据分析中的四种常见分类算法6.3 决策树与随机森林算法6.3.1 决策树算法决策树是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率。决策树是一种用于对实例进行分类的树形结构,一种依托于策略抉择而建立起来的树。决策树分类算法构造决策树来发现数据中蕴含的分类规则,
11、如何构造精度高、规模小的决策树是决策树算法的核心内容。决策树构造可以分两步,具体如下。(1)决策树的生成:由训练样本集生成决策树的过程。(2)决策树的剪枝:决策树的剪枝是对上一阶段生成的决策树进行检验、校正等的过程,第6章大数据分析中的四种常见分类算法6.3 决策树与随机森林算法6.3.1 决策树算法1构建决策树模型从根节点开始,对实例的某一特征进行测试,根据测试结果将实例分配到其子节点(也就是选择适当的分支);沿着该分支可能达到叶子节点或者到达另一个内部节点时,就使用新的测试条件递归执行下去,直到抵达一个叶子节点。当到达叶子节点时,我们便得到了最终的分类结果。决策树学习也是资料探勘中一个普通
12、的方法。第6章大数据分析中的四种常见分类算法决策树模型6.3 决策树与随机森林算法6.3.1 决策树算法2剪枝剪枝是决策树停止分支的方法之一。剪枝分预先剪枝和后剪枝两种。(1)预先剪枝是在树的生长过程中设定一个指标,当达到该指标时就停止生长,这样做容易产生“视界局限”,就是一旦停止分支,使得节点N成为叶节点,就断绝了其后继节点进行“好”的分支操作的任何可能性。(2)后剪枝中树首先要充分生长,直到叶节点都有最小的不纯度值为止,因而可以克服“视界局限”。第6章大数据分析中的四种常见分类算法6.3 决策树与随机森林算法6.3.1 决策树算法3决策树的优缺点1)优点(1)计算复杂度不高,易于理解和解释
13、,可以理解决策树所表达的意义。(2)数据预处理阶段比较简单,且可以处理缺失数据。(3)能够同时处理数据型和分类型属性,且可对有许多属性的数据集构造决策树。(4)是一个白盒模型,给定一个观察模型,则根据所产生的决策树很容易推断出相应的逻辑表达式。(5)在相对短的时间内能够对大数据集合做出可行且效果良好的分类结果。(6)可以对有许多属性的数据集构造决策树。第6章大数据分析中的四种常见分类算法6.3 决策树与随机森林算法6.3.1 决策树算法3决策树的优缺点2)缺点(1)对于那些各类别样本数目不一致的数据,信息增益的结果偏向于那些具有更多数值的属性。(2)对噪声数据较为敏感。(3)容易出现过拟合问题
14、。(4)忽略了数据集中属性之间的相关性。(5)处理缺失数据时比较困难。第6章大数据分析中的四种常见分类算法6.3 决策树与随机森林算法6.3.1 决策树算法4.决策树ID3算法ID3(Iterative Dichotomiser 3)算法,迭代二叉树3代,是Ross Quinlan发明的一种决策树算法,这个算法的基础就是奥卡姆剃刀原理,越是小型的决策树越优于大的决策树,尽管如此,也不总是生成最小的树形结构,而是一个启发式算法。ID3算法的核心思想就是以信息增益来度量属性的选择,选择分裂后信息增益最大的属性进行分裂。1)信息熵 1948年,香农引入了信息熵,将其定义为离散随机事件出现的概率。一个
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 互联网大数据ppt第6章 大数据分析中的四种常见分类算法 互联网 数据 ppt 分析 中的 常见 分类 算法