互联网大数据ppt第4章数据相关性分析与回归分析的黄金法则.pptx
《互联网大数据ppt第4章数据相关性分析与回归分析的黄金法则.pptx》由会员分享,可在线阅读,更多相关《互联网大数据ppt第4章数据相关性分析与回归分析的黄金法则.pptx(21页珍藏版)》请在文库网上搜索。
1、第4章数据相关性分析与回归分析的黄金法则4.1 什么是数据集4.2 做好数据相关性分析4.3 做好数据回归分析实战要领4.1 什么是数据集4.1.1 数据集的概念与常见类型1.数据集的概念数据集(Dataset),又称作资料集、数据集合或资料集合,是由数据所组成的集合。数据集是一个数据的集合,通常是以表格的形式出现,每一列代表一个特定变量,每一行都对应于某一成员的数据集的每一个变量。2.数据集的类型1)Iris数据集在模式识别文献中,Iris数据集是最通用也是最简单的数据集。要学习分类技术,Iris数据集绝对是最方便的途径。该数据集只有4列150行。典型问题:在可用属性基础上预测花的类型。第4
2、章数据相关性分析与回归分析的黄金法则2)泰坦尼克数据集泰坦尼克数据集也是全球数据科学殿堂中出镜率最高的数据集之一。该数据集更重视分类问题,共有12列891行。典型问题:预测泰坦尼克号上生还的幸存者人数。3)贷款预测数据集在所有行业中,保险业对数据的倚重最为明显,预测数据集可以让保险公司更好地面对各种挑战和出现的问题。该数据集共有13列615行。典型问题:预测贷款申请能否得到批准或通过。4)大市场销售数据集在客户群体中零售业对数据分析的使用程度也越来越大,对数据的需求也是日趋明显。该数据集共有12列8523行。典型问题:预测销售情况。第4章数据相关性分析与回归分析的黄金法则5)波士顿数据集波士顿
3、数据集也是模式识别文献中的典型数据集,该数据集得名是因为波士顿的房地产行业,同时它也是一个回归问题。该数据集共有14列8506行。典型问题:预测房屋售价的中间值。6)进阶级别的数据集(1)人类活动识别数据集。该数据集是由几十个受试人智能手机内置的传感器收集来的。在许多机器学习课程中该数据集是学生联手的重要助手。该数据集属于多标记分类问题,共有561列10299行。典型问题:预测人类活动的类别。(2)“黑五”数据集。该数据集主要是由零售店的交易记录组成的,它在数据集界资格很老,可以帮助商家了解自己商店每天的购物体验。“黑五”数据集也是个回归问题,它共有12列550069行。典型问题:预测消费者购
4、物量。第4章数据相关性分析与回归分析的黄金法则(3)文本挖掘数据集。该数据集包含航空公司飞行数据中关于航空安全问题的报告,属于多标记分类的高维问题。它共有30438列21519行。典型问题:根据标签为文档分类。(4)访问历史数据集。该数据集来源于美国的一个单车分享服务。该数据集2010年第四季度开始每季度都会总结出一个新文档,每个文档拥有7列。它属于典型的分类问题。典型问题:预测用户的类型。(5)百万歌曲数据集。在娱乐业中也有用到此项技术,该数据集能帮你完成回归问题。它包括515345个观察值和90个变量。只不过,这还只是百万首歌曲数据库中的一个小子集。典型问题:预测发行歌曲的最佳年份。第4章
5、数据相关性分析与回归分析的黄金法则(6)人口收入数据集。该数据集属于非平衡数据分类和机器学习问题。众所周知,机器学习在解决非平衡问题上效果显著,它可以执行癌症和欺诈检测等任务。该数据集共有14列48842行。典型问题:预测美国人的收入阶层。(7)电影镜头数据集。利用该数据集,你能搭建一个推荐引擎。同时,该数据集也是数据科学行业的老兵之一,它可运用在许多领域。它的数据量相当庞大,共有4000部电影和6000多位用户发出的超过100万个评分。典型问题:为用户推荐新电影。第4章数据相关性分析与回归分析的黄金法则4.1 什么是数据集4.1.2 高效进行数据度量的实战技巧1.创建快速度量(1)在Powe
6、rBIDesktop中创建快速度量(2)选择“新建快速度量值”命令后将显示“快速度量”对话框,随即可以选择所需计算,以及要对其运行计算的字段。(3)选择“选择计算”字段,查看一长串的可用快速度量,(4)选择要用于快速度量的计算和字段后,单击“确定”按钮。新建的快速度量将显示在“字段”窗格中,而基础DAX公式显示在“公式”栏中。第4章数据相关性分析与回归分析的黄金法则选择“新建快速度量值”命令在“快速度量”对话框中选择“选择计算”字段4.1 什么是数据集4.1.2 高效进行数据度量的实战技巧2.快速度量的应用(1)选择矩阵视觉对象,在“值”框中单击TotalSales旁边的下拉箭头,然后在弹出的
7、下拉列表中选择“新建快速度量”选项。(2)在“快速度量”对话框的“计算”下拉列表框中,选择“每个类别的平均值”选项。(3)将AverageUnitPrice从“字段”窗格拖到“基值”字段,将“类别”字段保留为Category,然后单击“确定”按钮。(4)单击“确定”按钮后,可以看到:矩阵视觉对象有一个新列,其中显示已计算的AverageUnitPriceaverageperCategory;新建的快速度量的DAX公式显示在公式栏中;新建的快速度量在“字段”窗格中以选中和高亮显示状态显示。第4章数据相关性分析与回归分析的黄金法则4.1 什么是数据集4.1.2 高效进行数据度量的实战技巧3.使用快
8、速度量了解DAX快速度量的一个强大优点在于显示了实现度量值的DAX公式。选择“字段”窗格中的快速度量后将显示公式栏,其中显示了PowerBI为实现此度量值而创建的DAX公式。4.快速度量使用限制和注意事项(1)你可以在报表的任何视觉对象中使用添加到“字段”窗格的快速度量。(2)选择“字段”列表中的度量值,然后查看公式栏中的公式,可以随时查看与快速度量相关联的DAX。(3)如果能够修改模型,快速度量才可使用;如果使用某些实时连接,则不适用。(4)在DirectQuery模式下工作时,无法创建时间智能快速度量,这些快速度量中使用的DAX函数在转换为发送到数据源的T-SQL语句时会影响性能。第4章数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 互联网大数据ppt第4章 数据相关性分析与回归分析的黄金法则 互联网 数据 ppt 相关性 分析 回归 黄金 法则