MOOC 数据仓库与数据挖掘-青岛大学 中国大学慕课答案.docx
《MOOC 数据仓库与数据挖掘-青岛大学 中国大学慕课答案.docx》由会员分享,可在线阅读,更多相关《MOOC 数据仓库与数据挖掘-青岛大学 中国大学慕课答案.docx(12页珍藏版)》请在文库网上搜索。
1、 MOOC 数据仓库与数据挖掘-青岛大学 中国大学慕课答案数据挖掘导论单元测试1、问题:数据挖掘的主要任务是从数据中发现潜在的规则,从而能更好的完成数据描述、预测数据等任务.选项:A、正确B、错误正确答案:【正确】2、问题:寻找模式和规则主要是对数据进行干扰,使其符合某种规则以及模式。选项:A、正确B、错误正确答案:【错误】3、问题:分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。选项:A、正确B、错误正确答案:【正确】4、问题:数据挖掘的过程可以粗略分为:问题定义、数据准备、数据预处理、数据挖掘,以及结果的解释和评估等步骤。选项:A、正确B、错误正确答案:【正确】5
2、、问题:决策树方法可以称为一种数据挖掘技术,也可以称为一种机器学习技术,所以数据挖掘和机器学习是一样的。选项:A、正确B、错误正确答案:【错误】6、问题:数据挖掘是从大量的数据中筛选出有效的、可信的以及隐含信息的高级处理过程。 选项:A、正确B、错误正确答案:【正确】数据仓库与 OLAP 单元测试1、问题:数据仓库是随着时间变化的,下面的描述不正确的是:选项:A、数据仓库随时间的变化不断增加新的数据内容。B、捕捉到的新数据不会覆盖原来的快照。C、数据仓库随事件变化不断删去旧的数据内容。D、数据仓库中包含大量的综合数据。正确答案:【数据仓库随事件变化不断删去旧的数据内容。】2、问题:OLAP 技
3、术的核心是:选项:A、在线性B、对用户的快速响应C、互操作性D、多维分析正确答案:【多维分析】数据预处理单元测试1、问题:假定某属性的最小与最大值分别为 8000 元和 14000 元。要将其映射到区间0.0,1.0,按照最小-最大规范化方法对属性进行变换,属性值 12600 将变换为:选项:A、0.751B、0.767C、0.813D、0.827正确答案:【0.767】2、问题:若属性 income 的平均值和标准差分别为 32000 元和 17000 元,则使用 z-score 规范化后,65600 元被转换为:选项:A、1.867B、2.201C、1.987D、0.778正确答案:【1.
4、867】 3、问题:等宽分箱法使每个箱子的取值区间相同。选项:A、正确B、错误正确答案:【正确】4、问题:数据取样时,除了要求抽样时严把质量关外,还要求抽样数据必须在足够范围内有代表性。选项:A、正确B、错误正确答案:【正确】5、问题:数据集成是将多个数据源中的数据结合起来存放在一个一致的数据存储(如数据仓库)中。数据源可能涉及多个数据库、数据立方体或一般文件。选项:A、正确B、错误正确答案:【正确】6、问题:数据归约是用来得到数据集的归约表示,它比源数据集小得多,但仍接近于保持源数据的完整性。选项:A、正确B、错误正确答案:【正确】7、问题:采用分箱方法不能进行数据离散化。选项:A、正确B、
5、错误正确答案:【错误】关联分析单元测试1、问题:设 X=1,2,3是频繁项集,则可由 X 产生 个关联规则。选项:A、4B、5C、6D、7正确答案:【6】 2、问题:某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?选项:A、关联分析B、聚类分析C、分类分析D、序列分析正确答案:【关联分析】3、问题:一般数据挖掘的流程顺序,下列正确的是选择数据挖掘的技术、功能和合适的算法选择数据,数据清洗和预处理了解应用领域,了解相关的知识和应用目标寻找感兴趣的模式、模式评估、知识表示收集数据,创建目标数据集选项:A、B、C、D、正确答案:【】4、问题:频繁项集的非空子
6、集一定是频繁项集。选项:A、正确B、错误正确答案:【正确】5、问题:FP-Growth 算法挖掘频繁项集,只需扫描一次数据库。选项:A、正确B、错误正确答案:【错误】6、问题:只要有两个频繁 3 项集,就一定能够生成一个候选 4 项集。选项:A、正确B、错误正确答案:【错误】7、问题:非频繁项集的超集有可能是频繁的。选项:A、正确 B、错误正确答案:【错误】8、问题:根据顾客去药店的买药记录,想要知道哪些药经常被同时服用,可以采用关联规则挖掘技术来解决。选项:A、正确B、错误正确答案:【正确】决策树单元测试1、问题:决策树中不包含以下哪种节点 。选项:A、根节点(root node)B、内部节
7、点(internal node)C、外部节点(external node)D、叶节点(leaf node)正确答案:【外部节点(external node)】2、问题:下列应用场景不属于分类的是选项:A、推广新产品时预测已有客户是否对新产品感兴趣B、对信用卡申请者判断其信誉高低C、医生根据患者的症状判断所患疾病类型D、为了解用户特点,公司将客户分群正确答案:【为了解用户特点,公司将客户分群】3、问题:下面对 C4.5 决策树算法的描述错误的是:选项:A、只能处理连续属性。B、采用信息增益比作为分类能力的测算指标。C、能够处理具有缺失值的数据集。D、能够通过使用修剪技术避免过拟合。正确答案:【只
8、能处理连续属性。】4、问题:已知某一连续属性数据集如下,当分割点为 31 时,该分割点的信息增益比为:属性值:25,30,32,40,48,67,98,100 类 别:1, 1, 1, 1, 2, 2, 2, 2选项:A、0.2B、0.39 C、0.53D、1正确答案:【0.39】5、问题:假设有 14 个样本,包含两类,其中 1 类为 9 个样本,2 类为 5 个样本,则根据熵的计算公式,此数据集的信息量为:选项:A、0.5B、0.951C、0.940D、0.986正确答案:【0.940】6、问题:分类是总结已有类别对象的特点,并根据这些特点,进行未知类别对象的类别预测的过程,又可称为无监督
9、学习。选项:A、正确B、错误正确答案:【错误】7、问题:决策树方法可用于连续数据离散化。选项:A、正确B、错误正确答案:【正确】8、问题:留一法是交叉验证法的特殊情况。选项:A、正确B、错误正确答案:【正确】9、问题:ID3 的分裂属性选择条件是选择信息增益最大的作为分裂属性。选项:A、正确B、错误正确答案:【正确】10、问题:决策树构建之后,为了避免过度拟合,需要对树进行剪枝。选项:A、正确B、错误正确答案:【正确】 11、问题:数据分类由两步过程组成:第一步,建立一个分类模型,描述指定的数据类集或概念集;第二步,使用模型进行分类。选项:A、正确B、错误正确答案:【正确】贝叶斯单元测试1、问
10、题:根据下表的训练数据学习一个朴素贝叶斯分类器并确定 x=(2,S)的类标签y。表中 X1,X2 为特征,取值的范围分别为1,2,3和S,M,L,Y 为类标签。- 1 2 3 4 5 6 7 8 9 10 11 1213 14 15-X1 1 1 1 1 1 2 22 2 2 3 3 3 3 3X2 S M M S S S M M L L L M M L LY 0 0 1 1 0 0 0 1 1 1 1 1 1 1 0-选项:A、y=0B、y=1C、y=2D、y=3正确答案:【y=0】2、问题:假设吸烟的本科生比例为 15%,而吸烟的研究生占 23%。如果五分之一的大学生是研究生,其余的是本科
11、生,那么吸烟的学生是研究生的概率是多少?选项:A、0.166B、0.277C、0.5D、0.312正确答案:【0.277】3、问题:公司里面男性有 60 人,女性有 40 人,男性穿皮鞋的人数有 25 人,穿运动鞋的人数有 35 人,女性穿皮鞋的人数有 10 人,穿高跟鞋的人数有 30 人。现在你只知道有一个人穿了皮鞋,推测他是男性的概率为:选项:A、0.2502B、0.714C、0.286D、0.25正确答案:【0.714】 4、问题:先验概率是根据历史资料或主观估计的方法得到的概率。选项:A、正确B、错误正确答案:【正确】5、问题:后验概率 P(H|X)表示条件 X 下 H 的概率。选项:
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- MOOC 中国大学慕课答案