MOOC 数据挖掘与python实践-中央财经大学 中国大学慕课答案.docx
《MOOC 数据挖掘与python实践-中央财经大学 中国大学慕课答案.docx》由会员分享,可在线阅读,更多相关《MOOC 数据挖掘与python实践-中央财经大学 中国大学慕课答案.docx(61页珍藏版)》请在文库网上搜索。
1、 MOOC 数据挖掘与 python 实践-中央财经大学 中国大学慕课答案第一单元测验1、问题:数据挖掘又称从数据中发现知识,后者英文简称为( )。选项:A、KPPB、KDPC、KDDD、KPD正确答案:【KDD】2、问题:数据挖掘又称从数据中发现知识,前者英文简称为( )。选项:A、KPPB、DMC、KDDD、DD正确答案:【DM】3、问题:一般数据挖掘的流程顺序,下列正确的是( )。选择数据挖掘的技术、功能和合适的算法选择数据,数据清洗和预处理了解应用领域,了解相关的知识和应用目标寻找感兴趣的模式、模式评估、知识表示创建目标数据集选项:A、B、C、D、正确答案:【】4、问题:结构化的数据是
2、指一些数据通过统一的( )的形式存储的,这类数据我们称为结构化的数据。选项:A、文档B、二维表格C、图像D、声音正确答案:【二维表格】 5、问题:数值预测用于连续变量的取值,常用的预测方法是( )。选项:A、回归分析B、聚类C、关联D、分类正确答案:【回归分析】6、问题:下列应用场景不属于分类的是( )。选项:A、对信用卡申请者判断其信誉高低B、医生根据患者的症状判断所患疾病类型C、推广新产品时预测已有客户是否对新产品感兴趣D、为了解用户特点,公司将客户分群正确答案:【为了解用户特点,公司将客户分群】7、问题:Python 语言的创始人是( )。选项:A、Guido van RossumB、B
3、ill GatesC、Sergey BrinD、Larry Page正确答案:【Guido van Rossum】8、问题:Python 科学计算的基本包是()。选项:A、NumpyB、PandasC、Scikit-learnD、Matplotlib正确答案:【Numpy】9、问题:以下 Python 包中,绘图功能最强大的是()。选项:A、MatplotlibB、PandasC、Scikit-learnD、Numpy正确答案:【Matplotlib】10、问题:以下 Python 包中,最适合用于机器学习的是()。选项: A、Scikit-learnB、PandasC、NumpyD、Matp
4、lotlib正确答案:【Scikit-learn】11、问题:以下 Python 包中,提供了 DataFrame 数据类型的是()。选项:A、PandasB、Scikit-learnC、NumpyD、Matplotlib正确答案:【Pandas】12、问题:为了避免包的依赖关系和系统兼容性等方面出现问题,本课程推荐的Python 安装方式为()。选项:A、通过 Anaconda 安装B、直接下载 Python 安装C、通过浏览器查找处理过的 Python 安装包D、直接安装 Pycharm正确答案:【通过 Anaconda 安装】13、问题:数据挖掘包括下面哪些方法( )。选项:A、分类B、
5、聚类C、关联D、异常发现正确答案:【分类#聚类#关联#异常发现】14、问题:数据挖掘和哪些学科领域有关系( )。选项:A、统计B、机器学习C、数据库D、优化正确答案:【统计#机器学习#数据库#优化】15、问题:聚类针对有标签的数据。选项:A、正确 B、错误正确答案:【错误】16、问题:分类和回归都可用于预测,分类的输出是离散的类别值。选项:A、正确B、错误正确答案:【正确】17、问题:分类就是根据物以类聚的原理,将没有类别的对象根据对象的特征自动聚成不同簇的过程。选项:A、正确B、错误正确答案:【错误】18、问题:序列分析经常会用在购物篮分析中。选项:A、正确B、错误正确答案:【错误】19、问
6、题:关联分析是数据分析中常用的分析方法。选项:A、正确B、错误正确答案:【正确】20、填空题:在这个大数据爆炸的时代,我们期待能够从这些数据中提炼出有用的知识,解决的方法就是数据仓库技术和 技术。正确答案:【数据挖掘】21、填空题:在这个大数据爆炸的时代,我们期待能够从这些数据中提炼出有用的知识,解决的方法就是 技术和数据挖掘技术。正确答案:【数据仓库】22、填空题:从存储方式对数据类型进行分类,可分为 数据和 数据。(输入两个位置的答案时,以一个空格作为分隔符)正确答案:【结构化 非结构化】23、填空题:预测的模型构建需要 来进行分析。正确答案:【历史数据】 24、填空题: 就是根据有类别的
7、数据提供的信息,来概括类别的主要特征,构建模型或者规则,根据该模型或者规则预测对象的类别。正确答案:【分类】第二章单元测验1、问题:下列对学生相关属性描述中,不是标称属性的是( )。选项:A、头发颜色B、婚姻状况C、身高D、学号正确答案:【身高】2、问题:下列哪些选项能表示序数属性的数据集中趋势度量( )。选项:A、众数B、均值C、四分位数D、标准差正确答案:【众数】3、问题:( )可以观察从一个分布到另一分布是否有漂移。选项:A、直方图B、散点图C、盒图D、分位数-分位数图正确答案:【分位数-分位数图】4、问题:4 人喜欢服饰的颜色如下,属性是标称属性。李四和孙六的相似性是()。姓名帽子颜色
8、上衣颜色裤子颜色鞋子颜色围巾颜色张三红蓝蓝绿红李四红蓝蓝红粉王五黄绿蓝绿红孙六蓝蓝蓝红粉选项:A、1/5B、2/5C、3/5D、4/5正确答案:【4/5】5、问题:度量作为一种测度,满足以下哪些条件:选项: A、同一性B、对称性C、三角不等式D、以上均是正确答案:【以上均是】6、问题:Python 语言在创始人是( )。选项:A、Bill GatesB、Sergey BrinC、Larry PageD、Guido van Rossum正确答案:【Guido van Rossum】7、问题:Python 科学计算的基本包是( )。选项:A、PandasB、Scikit-learnC、NumpyD
9、、Matplotlib正确答案:【Numpy】8、问题:以下 Python 包中,绘图功能最强大的是( )。选项:A、PandasB、Scikit-learnC、NumpyD、Matplotlib正确答案:【Matplotlib】9、问题:以下 Python 包中,最适合用于机器学习的是( )。选项:A、PandasB、Scikit-learnC、NumpyD、Matplotlib正确答案:【Scikit-learn】10、问题:以下 Python 包中,提供了 DataFrame 数据类型的是( )。选项:A、PandasB、Scikit-learn C、NumpyD、Matplotlib正
10、确答案:【Pandas】11、问题:为了避免包的依赖关系和系统兼容性等方面出现问题,本课程推荐的Python 安装方式为( )。选项:A、直接下载 Python 安装B、通过 Anaconda 安装C、通过浏览器查找处理过的 Python 安装包D、直接安装 Pycharm正确答案:【通过 Anaconda 安装】12、问题:下列对学生的描述属性中,标称属性的属性是:选项:A、头发颜色B、婚姻状况C、身高D、学号正确答案:【头发颜色#婚姻状况#学号】13、问题:下列哪些指标可以度量数据的离散趋势度量:选项:A、极差B、四分位数C、四分位数极差D、五数概括正确答案:【极差#四分位数#四分位数极差
11、#五数概括】14、问题:在探索性数据分析中,认为最有代表性,最能反映数据重要特征的五数概括,包括:选项:A、中位数 Q2B、四分位数 Q1C、四分位数 Q3D、最小值E、最大值正确答案:【中位数 Q2#四分位数 Q1#四分位数 Q3#最小值#最大值】15、问题:在文献中,属性、维、特征和变量通常可以互换地使用。选项:A、正确 B、错误正确答案:【正确】16、问题:二元属性是一种特殊的标称属性,分为对称和不对称两种。选项:A、正确B、错误正确答案:【正确】17、问题:序数属性的值存在有意义的序。相邻两者之间的差是已知的。选项:A、正确B、错误正确答案:【错误】18、问题:如果属性不是离散的,则它
12、是连续的。选项:A、正确B、错误正确答案:【正确】19、问题:四分位数极差(IQR)是第 1 个和第 2 个四分位数之间的距离。选项:A、正确B、错误正确答案:【错误】20、问题:盒图用来考察两个属性之间是否存在正相关和负相关。选项:A、正确B、错误正确答案:【错误】21、问题:对于非对称的二元属性,两个都取值 1 的情况(正匹配)被认为比两个都取值 0 的情况(负匹配)更有意义,其中负匹配数 t 被认为是不重要的,因此在计算时可以忽略。选项:A、正确B、错误正确答案:【正确】22、问题:一般来说数据库中行对应于数据对象,而列对应于属性。选项: A、正确B、错误正确答案:【正确】23、问题:相
13、异性矩阵又称对象-对象结构,存放 n 个对象两两之间的邻近度。选项:A、正确B、错误正确答案:【正确】24、问题:在计算混合类型属性的相异性时,一般是通过将所有有意义的属性转换到共同的区间0.0,1.0上,实现在单个相异性矩阵中进行计算。选项:A、正确B、错误正确答案:【正确】25、填空题:为了抵消少数极端值对均值计算的影响,我们可以使用 。正确答案:【截尾均值】26、填空题:中列数是数据集的 最大值和 的平均值。正确答案:【最小值】27、填空题:给定两个数据对象(19,4,5)和(22,6,3),则两个对象之间的欧氏距离 。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】正确答
14、案:【4.1】28、填空题:给定两个数据对象(19,4,5)和(22,6,3),则两个对象之间的曼哈顿距离 。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】正确答案:【7】29、填空题:给定两个数据对象(19,4,5)和(22,6,3),则两个对象之间的上确界距离 。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】正确答案:【3】30、填空题:x=(5,0,3,0,2,0,0,2,0,0)和 y=(3,0,2,0,1,1,0,1,0,1),使用余弦相似度公式计算这两个向量之间的相似性等于 。【如果计算结果是小数,则保留一位;如果是整数,则直接填写整数】正确答案:【
15、0.9】第三单元测验 1、问题:运行以下代码 from sklearn.datasets import load_irisiris_data =load_iris()iris_data.data.shape 输出结果为(150, 4)。则表示 iris 数据集包括样本个数为( )。选项:A、150B、4C、600D、154正确答案:【150】2、问题:运行以下代码 from sklearn.datasets import load_irisiris_data =load_iris()iris_data.data.shape 输出结果为(150, 4)。则表示 iris 数据集包括样本特征数为(
16、 )。选项:A、150B、4C、600D、154正确答案:【4】3、问题:在 Numpy 包中,计算中位数的函数为( )。选项:A、numpy.mean()B、numpy.median()C、numpy.std()D、numpy.var()正确答案:【numpy.median()】4、问题:在 Numpy 包中,计算标准差的函数为( )。选项:A、numpy.mean()B、numpy.median()C、numpy.std()D、numpy.var()正确答案:【numpy.std()】5、问题:给定 df 是一个 DataFrame 对象,对 df 所有字段进行描述性统计,可以利用的方法为
17、( )。选项:A、df.summary()B、df.statistics()C、df.mean() D、df.describe()正确答案:【df.describe()】6、问题:运行以下代码” import matplotlib.pyplot as plt”引入 plt 后,要绘制饼状图,需要利用的函数为( )。选项:A、plt.bar()B、plt.pie()C、plt.plot()D、plt.hist()正确答案:【plt.pie()】7、问题:运行以下代码” import matplotlib.pyplot as plt”引入 plt 后,要绘制折线图,需要利用的函数为( )。选项:A
18、、plt.bar()B、plt.pie()C、plt.plot()D、plt.hist()正确答案:【plt.plot()】8、问题:运行以下代码” import matplotlib.pyplot as plt”引入 plt 后,要绘制直方图,需要利用的函数为( )。选项:A、plt.bar()B、plt.pie()C、plt.plot()D、plt.hist()正确答案:【plt.hist()】9、问题:运行以下代码” import matplotlib.pyplot as plt”引入 plt 后,要绘制散点图,需要利用的函数为( )。选项:A、plt.bar()B、plt.scatte
19、r()C、plt.plot()D、plt.hist()正确答案:【plt.scatter()】10、问题:使用最小-最大法进行数据规范化,需要映射的目标区间为0,100,原来的取值范围是-10,10。根据等比映射的原理,一个值 8 映射到新区间后的值是( )。 选项:A、80B、85C、90D、95正确答案:【90】11、问题:使用零均值规范化方法,年收入属性的均值为 65,标准差为 12,则年收入 59 万元规范化后为( )。选项:A、-0.5B、-0.2C、0.3D、0.5正确答案:【-0.5】12、问题:使用等距离分箱法进行数据离散化,数据范围为 20, 40, 50, 58, 65,
20、80,80, 82, 86, 90, 96, 105, 120, 200,区间个数为 4。下列属于 4 个箱的区间是( )。选项:A、20,65B、(65,110)C、110,155)D、(155,200正确答案:【110,155)】13、问题:特征选择方法中,一般的启发式方法有( )。选项:A、逐步增加法B、逐步递减法C、随机选择D、以上都是正确答案:【以上都是】14、问题:在使用主成分分析法进行数据属性特征提取中,在对数据集进行中心化处理后,为了去除冗余和降低噪音,应将协方差矩阵非对角线上的元素化为( )。选项:A、-1/2B、0C、1/2D、不用处理正确答案:【0】 15、问题:关联规则
21、的挖掘算法只能处理( )类型的取值,为此( )是继续其知识发现过程的必要步骤。选项:A、离散;数据离散化B、连续;数据离散化C、离散;数据规范化D、连续;数据规范化正确答案:【离散;数据离散化】16、问题:( )是指对描述对象的属性进行重新组合,获得一组反映事物本质的少量的新的属性的过程。( )是指从属性集合中选择那些重要的、与分析任务相关的子集的过程。选项:A、特征提取;特征选择B、特征选择;特征提取C、数据提取;数据选择D、数据选择;数据提取正确答案:【特征提取;特征选择】17、问题:下列不属于数据预处理原因的是( )。选项:A、数据可能存在缺失、错误、不一致等问题B、数据有可能不能很好地
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- MOOC 中国大学慕课答案