MOOC 数据挖掘与python实践-中央财经大学中国大学慕课答案.docx

上传人：小肥粒

文档编号：21772149

上传时间：2024-04-28

格式：DOCX

页数：61

大小：141.87KB

《MOOC 数据挖掘与python实践-中央财经大学中国大学慕课答案.docx》由会员分享，可在线阅读，更多相关《MOOC 数据挖掘与python实践-中央财经大学中国大学慕课答案.docx（61页珍藏版）》请在文库网上搜索。

1、 MOOC 数据挖掘与 python 实践-中央财经大学中国大学慕课答案第一单元测验1、问题：数据挖掘又称从数据中发现知识，后者英文简称为（）。选项：A、KPPB、KDPC、KDDD、KPD正确答案:【KDD】2、问题：数据挖掘又称从数据中发现知识，前者英文简称为（）。选项：A、KPPB、DMC、KDDD、DD正确答案:【DM】3、问题：一般数据挖掘的流程顺序，下列正确的是（）。选择数据挖掘的技术、功能和合适的算法选择数据，数据清洗和预处理了解应用领域，了解相关的知识和应用目标寻找感兴趣的模式、模式评估、知识表示创建目标数据集选项：A、B、C、D、正确答案:【】4、问题：结构化的数据是

2、指一些数据通过统一的（）的形式存储的，这类数据我们称为结构化的数据。选项：A、文档B、二维表格C、图像D、声音正确答案:【二维表格】 5、问题：数值预测用于连续变量的取值，常用的预测方法是（）。选项：A、回归分析B、聚类C、关联D、分类正确答案:【回归分析】6、问题：下列应用场景不属于分类的是（）。选项：A、对信用卡申请者判断其信誉高低B、医生根据患者的症状判断所患疾病类型C、推广新产品时预测已有客户是否对新产品感兴趣D、为了解用户特点，公司将客户分群正确答案:【为了解用户特点，公司将客户分群】7、问题：Python 语言的创始人是( ）。选项：A、Guido van RossumB、B

3、ill GatesC、Sergey BrinD、Larry Page正确答案:【Guido van Rossum】8、问题：Python 科学计算的基本包是（）。选项：A、NumpyB、PandasC、Scikit-learnD、Matplotlib正确答案:【Numpy】9、问题：以下 Python 包中，绘图功能最强大的是（）。选项：A、MatplotlibB、PandasC、Scikit-learnD、Numpy正确答案:【Matplotlib】10、问题：以下 Python 包中，最适合用于机器学习的是（）。选项： A、Scikit-learnB、PandasC、NumpyD、Matp

4、lotlib正确答案:【Scikit-learn】11、问题：以下 Python 包中，提供了 DataFrame 数据类型的是（）。选项：A、PandasB、Scikit-learnC、NumpyD、Matplotlib正确答案:【Pandas】12、问题：为了避免包的依赖关系和系统兼容性等方面出现问题，本课程推荐的Python 安装方式为（）。选项：A、通过 Anaconda 安装B、直接下载 Python 安装C、通过浏览器查找处理过的 Python 安装包D、直接安装 Pycharm正确答案:【通过 Anaconda 安装】13、问题：数据挖掘包括下面哪些方法（）。选项：A、分类B、

5、聚类C、关联D、异常发现正确答案:【分类#聚类#关联#异常发现】14、问题：数据挖掘和哪些学科领域有关系（）。选项：A、统计B、机器学习C、数据库D、优化正确答案:【统计#机器学习#数据库#优化】15、问题：聚类针对有标签的数据。选项：A、正确 B、错误正确答案:【错误】16、问题：分类和回归都可用于预测，分类的输出是离散的类别值。选项：A、正确B、错误正确答案:【正确】17、问题：分类就是根据物以类聚的原理，将没有类别的对象根据对象的特征自动聚成不同簇的过程。选项：A、正确B、错误正确答案:【错误】18、问题：序列分析经常会用在购物篮分析中。选项：A、正确B、错误正确答案:【错误】19、问

6、题：关联分析是数据分析中常用的分析方法。选项：A、正确B、错误正确答案:【正确】20、填空题：在这个大数据爆炸的时代，我们期待能够从这些数据中提炼出有用的知识，解决的方法就是数据仓库技术和技术。正确答案:【数据挖掘】21、填空题：在这个大数据爆炸的时代，我们期待能够从这些数据中提炼出有用的知识，解决的方法就是技术和数据挖掘技术。正确答案:【数据仓库】22、填空题：从存储方式对数据类型进行分类，可分为数据和数据。（输入两个位置的答案时，以一个空格作为分隔符）正确答案:【结构化非结构化】23、填空题：预测的模型构建需要来进行分析。正确答案:【历史数据】 24、填空题：就是根据有类别的

7、数据提供的信息，来概括类别的主要特征，构建模型或者规则，根据该模型或者规则预测对象的类别。正确答案:【分类】第二章单元测验1、问题：下列对学生相关属性描述中，不是标称属性的是（）。选项：A、头发颜色B、婚姻状况C、身高D、学号正确答案:【身高】2、问题：下列哪些选项能表示序数属性的数据集中趋势度量（）。选项：A、众数B、均值C、四分位数D、标准差正确答案:【众数】3、问题：（）可以观察从一个分布到另一分布是否有漂移。选项：A、直方图B、散点图C、盒图D、分位数-分位数图正确答案:【分位数-分位数图】4、问题：4 人喜欢服饰的颜色如下，属性是标称属性。李四和孙六的相似性是（）。姓名帽子颜色

8、上衣颜色裤子颜色鞋子颜色围巾颜色张三红蓝蓝绿红李四红蓝蓝红粉王五黄绿蓝绿红孙六蓝蓝蓝红粉选项：A、1/5B、2/5C、3/5D、4/5正确答案:【4/5】5、问题：度量作为一种测度，满足以下哪些条件：选项： A、同一性B、对称性C、三角不等式D、以上均是正确答案:【以上均是】6、问题：Python 语言在创始人是（）。选项：A、Bill GatesB、Sergey BrinC、Larry PageD、Guido van Rossum正确答案:【Guido van Rossum】7、问题：Python 科学计算的基本包是（）。选项：A、PandasB、Scikit-learnC、NumpyD

9、、Matplotlib正确答案:【Numpy】8、问题：以下 Python 包中，绘图功能最强大的是（）。选项：A、PandasB、Scikit-learnC、NumpyD、Matplotlib正确答案:【Matplotlib】9、问题：以下 Python 包中，最适合用于机器学习的是（）。选项：A、PandasB、Scikit-learnC、NumpyD、Matplotlib正确答案:【Scikit-learn】10、问题：以下 Python 包中，提供了 DataFrame 数据类型的是（）。选项：A、PandasB、Scikit-learn C、NumpyD、Matplotlib正

10、确答案:【Pandas】11、问题：为了避免包的依赖关系和系统兼容性等方面出现问题，本课程推荐的Python 安装方式为（）。选项：A、直接下载 Python 安装B、通过 Anaconda 安装C、通过浏览器查找处理过的 Python 安装包D、直接安装 Pycharm正确答案:【通过 Anaconda 安装】12、问题：下列对学生的描述属性中，标称属性的属性是：选项：A、头发颜色B、婚姻状况C、身高D、学号正确答案:【头发颜色#婚姻状况#学号】13、问题：下列哪些指标可以度量数据的离散趋势度量：选项：A、极差B、四分位数C、四分位数极差D、五数概括正确答案:【极差#四分位数#四分位数极差

11、#五数概括】14、问题：在探索性数据分析中，认为最有代表性，最能反映数据重要特征的五数概括,包括：选项：A、中位数 Q2B、四分位数 Q1C、四分位数 Q3D、最小值E、最大值正确答案:【中位数 Q2#四分位数 Q1#四分位数 Q3#最小值#最大值】15、问题：在文献中，属性、维、特征和变量通常可以互换地使用。选项：A、正确 B、错误正确答案:【正确】16、问题：二元属性是一种特殊的标称属性，分为对称和不对称两种。选项：A、正确B、错误正确答案:【正确】17、问题：序数属性的值存在有意义的序。相邻两者之间的差是已知的。选项：A、正确B、错误正确答案:【错误】18、问题：如果属性不是离散的，则它

12、是连续的。选项：A、正确B、错误正确答案:【正确】19、问题：四分位数极差（IQR）是第 1 个和第 2 个四分位数之间的距离。选项：A、正确B、错误正确答案:【错误】20、问题：盒图用来考察两个属性之间是否存在正相关和负相关。选项：A、正确B、错误正确答案:【错误】21、问题：对于非对称的二元属性，两个都取值 1 的情况(正匹配)被认为比两个都取值 0 的情况(负匹配)更有意义，其中负匹配数 t 被认为是不重要的，因此在计算时可以忽略。选项：A、正确B、错误正确答案:【正确】22、问题：一般来说数据库中行对应于数据对象，而列对应于属性。选项： A、正确B、错误正确答案:【正确】23、问题：相

13、异性矩阵又称对象-对象结构，存放 n 个对象两两之间的邻近度。选项：A、正确B、错误正确答案:【正确】24、问题：在计算混合类型属性的相异性时，一般是通过将所有有意义的属性转换到共同的区间0.0,1.0上，实现在单个相异性矩阵中进行计算。选项：A、正确B、错误正确答案:【正确】25、填空题：为了抵消少数极端值对均值计算的影响，我们可以使用。正确答案:【截尾均值】26、填空题：中列数是数据集的最大值和的平均值。正确答案:【最小值】27、填空题：给定两个数据对象（19,4,5）和（22,6,3），则两个对象之间的欧氏距离。【如果计算结果是小数，则保留一位；如果是整数，则直接填写整数】正确答

14、案:【4.1】28、填空题：给定两个数据对象（19,4,5）和（22,6,3），则两个对象之间的曼哈顿距离。【如果计算结果是小数，则保留一位；如果是整数，则直接填写整数】正确答案:【7】29、填空题：给定两个数据对象（19,4,5）和（22,6,3），则两个对象之间的上确界距离。【如果计算结果是小数，则保留一位；如果是整数，则直接填写整数】正确答案:【3】30、填空题：x=(5,0,3,0,2,0,0,2,0,0)和 y=(3,0,2,0,1,1,0,1,0,1)，使用余弦相似度公式计算这两个向量之间的相似性等于。【如果计算结果是小数，则保留一位；如果是整数，则直接填写整数】正确答案:【

15、0.9】第三单元测验 1、问题：运行以下代码 from sklearn.datasets import load_irisiris_data =load_iris()iris_data.data.shape 输出结果为(150, 4)。则表示 iris 数据集包括样本个数为（）。选项：A、150B、4C、600D、154正确答案:【150】2、问题：运行以下代码 from sklearn.datasets import load_irisiris_data =load_iris()iris_data.data.shape 输出结果为(150, 4)。则表示 iris 数据集包括样本特征数为（

16、）。选项：A、150B、4C、600D、154正确答案:【4】3、问题：在 Numpy 包中，计算中位数的函数为（）。选项：A、numpy.mean()B、numpy.median()C、numpy.std()D、numpy.var()正确答案:【numpy.median()】4、问题：在 Numpy 包中，计算标准差的函数为（）。选项：A、numpy.mean()B、numpy.median()C、numpy.std()D、numpy.var()正确答案:【numpy.std()】5、问题：给定 df 是一个 DataFrame 对象，对 df 所有字段进行描述性统计，可以利用的方法为

17、（）。选项：A、df.summary()B、df.statistics()C、df.mean() D、df.describe()正确答案:【df.describe()】6、问题：运行以下代码” import matplotlib.pyplot as plt”引入 plt 后，要绘制饼状图，需要利用的函数为（）。选项：A、plt.bar()B、plt.pie()C、plt.plot()D、plt.hist()正确答案:【plt.pie()】7、问题：运行以下代码” import matplotlib.pyplot as plt”引入 plt 后，要绘制折线图，需要利用的函数为（）。选项：A

18、、plt.bar()B、plt.pie()C、plt.plot()D、plt.hist()正确答案:【plt.plot()】8、问题：运行以下代码” import matplotlib.pyplot as plt”引入 plt 后，要绘制直方图，需要利用的函数为（）。选项：A、plt.bar()B、plt.pie()C、plt.plot()D、plt.hist()正确答案:【plt.hist()】9、问题：运行以下代码” import matplotlib.pyplot as plt”引入 plt 后，要绘制散点图，需要利用的函数为（）。选项：A、plt.bar()B、plt.scatte

19、r()C、plt.plot()D、plt.hist()正确答案:【plt.scatter()】10、问题：使用最小-最大法进行数据规范化，需要映射的目标区间为0,100，原来的取值范围是-10,10。根据等比映射的原理，一个值 8 映射到新区间后的值是（）。选项：A、80B、85C、90D、95正确答案:【90】11、问题：使用零均值规范化方法，年收入属性的均值为 65，标准差为 12，则年收入 59 万元规范化后为（）。选项：A、-0.5B、-0.2C、0.3D、0.5正确答案:【-0.5】12、问题：使用等距离分箱法进行数据离散化，数据范围为 20, 40, 50, 58, 65,

20、80,80, 82, 86, 90, 96, 105, 120, 200，区间个数为 4。下列属于 4 个箱的区间是（）。选项：A、20,65B、(65,110)C、110,155)D、(155,200正确答案:【110,155)】13、问题：特征选择方法中，一般的启发式方法有（）。选项：A、逐步增加法B、逐步递减法C、随机选择D、以上都是正确答案:【以上都是】14、问题：在使用主成分分析法进行数据属性特征提取中，在对数据集进行中心化处理后，为了去除冗余和降低噪音，应将协方差矩阵非对角线上的元素化为（）。选项：A、-1/2B、0C、1/2D、不用处理正确答案:【0】 15、问题：关联规则

21、的挖掘算法只能处理（）类型的取值，为此（）是继续其知识发现过程的必要步骤。选项：A、离散；数据离散化B、连续；数据离散化C、离散；数据规范化D、连续；数据规范化正确答案:【离散；数据离散化】16、问题：（）是指对描述对象的属性进行重新组合，获得一组反映事物本质的少量的新的属性的过程。（）是指从属性集合中选择那些重要的、与分析任务相关的子集的过程。选项：A、特征提取；特征选择B、特征选择；特征提取C、数据提取；数据选择D、数据选择；数据提取正确答案:【特征提取；特征选择】17、问题：下列不属于数据预处理原因的是（）。选项：A、数据可能存在缺失、错误、不一致等问题B、数据有可能不能很好地

22、反映潜在的模式C、有些数据属性是无用的或者冗余的D、数据量过于庞大正确答案:【数据量过于庞大】18、问题：下列关于数据规范化说法错误的是（）。选项：A、数据规范化又称为数据标准化B、数据规范化是将属性的取值范围统一C、数据规范化是为了给重要的属性赋予更大的权重D、数据规范化是为了避免不同属性的不平等地位正确答案:【数据规范化是为了给重要的属性赋予更大的权重】19、问题：缺失值处理方法中错误的是（）。选项：A、对于分类属性，使用同类对象属性值的均值B、对于离散属性或定性属性，使用众数C、对于所有属性都可以使用均值D、转换为分类问题或数值预测问题正确答案:【对于所有属性都可以使用均值】 20、

23、问题：主成分分析的步骤是（）。选项：A、中心化数据集-计算主成分矩阵-计算协方差矩阵-计算特征根-得到降维后的数据集B、中心化数据集-计算协方差矩阵-计算特征根-计算主成分矩阵-得到降维后的数据集C、计算协方差矩阵-计算主成分矩阵-计算特征根-中心化数据集-得到降维后的数据集D、计算协方差矩阵-计算特征根-中心化数据集-计算主成分矩阵-得到降维后的数据集正确答案:【中心化数据集-计算协方差矩阵-计算特征根-计算主成分矩阵-得到降维后的数据集】21、问题：下列关于等距离分箱的说法中错误的是（）。选项：A、又称为等宽度分箱B、若区间个数为 k，每个区间的间距为 I=(max-min)/kC、等

24、距离分箱能使每个区间内包含的取值个数大致相同D、等距离分箱可能导致属于某些的取值非常多，而某些又非常少正确答案:【等距离分箱能使每个区间内包含的取值个数大致相同】22、问题：数据预处理的任务不包括（）。选项：A、数据分类B、数据清洗C、数据规范化和离散化D、特征提取与特征选择正确答案:【数据分类】23、问题：使用 python 处理缺失值的方法中叙述错误的是（）。选项：A、isnull()判断缺失值B、dropna()删除缺失值C、fillna()填充缺失值D、interpolate()使用中位数填充缺失值正确答案:【interpolate()使用中位数填充缺失值】24、问题：最小最大规范

25、化方法 MinMaxScaler 属于 python 中的哪个包（）。选项：A、sklearnB、pandasC、numpy D、scipy正确答案:【sklearn】25、问题：主成分分析方法 PCA 属于属于 python 中的哪个包（）。选项：A、sklearnB、pandasC、numpyD、scipy正确答案:【sklearn】26、问题：最小-最大法中，假设需要映射到目标区间为L,R ，原来的取值范围为l, r 。一个值 x 映射到新区间后的值 v 的计算方法是（）。选项：A、B、C、D、正确答案:【】27、问题：在利用中文文本绘制词云时，需要在 anaoncda 的基础上安

26、装哪些工具包（）。选项：A、WordcloudB、Scikit-learnC、JiebaD、Matplotlib正确答案:【Wordcloud#Jieba】28、问题：数据预处理的任务有哪些（）。选项：A、数据离散化B、数据规范化C、数据清洗 D、特征提取与特征选择正确答案:【数据离散化#数据规范化#数据清洗#特征提取与特征选择】29、问题：数据规范化方法有哪些（）。选项：A、最小-最大法B、z-scoreC、聚类D、分类正确答案:【最小-最大法#z-score】30、问题：数据清洗的主要目的是将数据集中存在的（）和（）进行处理，降低其对后续数据分析处理的影响。选项：A、缺失B、噪声

27、C、最大值D、最小值正确答案:【缺失#噪声】31、问题：特征选择过程是描述同一对象的多个属性的取值范围，统一到相同的范围，避免某些属性的作用大于其它属性。选项：A、正确B、错误正确答案:【错误】32、问题：通过数据离散化，可以实现缩减数据量的效果。选项：A、正确B、错误正确答案:【正确】33、问题：有监督的离散化方法常用的有分箱法和 ChiMerge 方法。选项：A、正确B、错误正确答案:【错误】34、问题：基于熵的方法可以被看做是自顶向下的分裂方法，ChiMerge 则属于自底向上的合并方法。选项：A、正确 B、错误正确答案:【正确】35、问题：一种简单的填补缺失值的方法为, 将属于同一类的

28、对象的该属性值的均值赋予此缺失值。选项：A、正确B、错误正确答案:【正确】36、问题：分箱离散化是一种有监督离散化方法。选项：A、正确B、错误正确答案:【错误】37、问题：基于熵的离散化方法是常用的有监督的离散化方法。选项：A、正确B、错误正确答案:【正确】38、问题：选择属性子集的方法一般采用启发式方法，只检验部分可能性比较大的子集，这样可以快速完成属性的选择。选项：A、正确B、错误正确答案:【正确】39、问题：主成分分析能够达到去除冗余、降低噪音和降维的目的，但无法得到反映事物本质的新变量。选项：A、正确B、错误正确答案:【错误】40、问题：将数据分为 n 个等频的箱中，可以?箱均值、箱中

29、位数或箱边界光滑数据。选项：A、正确B、错误正确答案:【正确】 41、问题：在主成分分析中，每个主成分都是原始变量的线性组合，且各个主成分之间互不相关。选项：A、正确B、错误正确答案:【正确】42、填空题：等距离分箱可能导致属于某些区间的取值非常多，而某些区间的取值又非常少。则能够解决此问题。正确答案:【等频】43、填空题：面对噪音，一类是识别出噪音，将其去除；另一类是可以使用方法，用于平滑噪音。正确答案:【分箱】44、填空题：使用主成分分析法进行数据属性特征提取中，每个新的特征是原有特征的。正确答案:【线性组合】45、填空题：一组数据：20，40，50，58，65，80，80，82，8

30、6，90，96，105，120，200。采用等距分箱法分为 4 箱，其中 82 位于第_个箱。（填写阿拉伯数字）正确答案:【2】46、填空题：一组数据：20，40，50，58，65，80，80，82，86，90，96，105，120，200。使用最大-最小法进行数据规范化，目标区间为0,1，则 80 映射到新区间后的值为_。（四舍五入保留小数点后两位）正确答案:【0.33】第四单元测验1、问题：Python 在调用 efficient-apriori 包中的 apriori 函数进行挖掘关联规则时，第一个返回值是（）。选项：A、频繁项集B、关联规则C、最小支持度D、最小置信度正确答案:【频繁

31、项集】2、问题：Python 在调用 efficient-apriori 包中的 apriori 函数进行挖掘关联规则时，第二个返回值是（）。选项： A、频繁项集B、关联规则C、最小支持度D、最小置信度正确答案:【关联规则】3、问题：如下表所示，X=butter,cheese，则支持度 support(X)=（）。交易号（TID）商品（Items）1beer, diaper, nuts2beer, biscuit, diaper3bread, butter, cheese4beer,cheese, diaper, nuts5beer, butter, cheese, nuts选项：A、1/

32、5B、2/5C、3/5D、4/5正确答案:【2/5】4、问题：如下表所示，X=butter,cheese，Y=beer，则置信度confidence(XY)=（）。交易号（TID）商品（Items）1beer, diaper, nuts2beer,biscuit, diaper3bread, butter, cheese4beer, cheese, diaper, nuts5beer, butter, cheese, nuts选项：A、1/2B、1/3C、1/4D、2/5正确答案:【1/2】5、问题：如下表所示，使用 FP-Growth 计算其频繁集，给定最小支持度为 40%，频繁模式树（F

33、P 树）有（）个结点。（不包括根结点）。交易号（TID）商品（Items）1beer, diaper, nuts2beer, biscuit, diaper3bread, butter, cheese4beer, cheese,diaper, nuts5beer, butter, cheese, nuts选项：A、5B、8C、9D、10正确答案:【9】6、问题：对于任一个频繁项集 X 和它的一个非空真子集 Y， S=X-Y，规则 SY成立的条件是（）。选项：A、confidence(SY)minconfB、confidence(SY)minconf C、confidence(YS)minc

34、onfD、confidence(YS)minconf正确答案:【confidence(SY)minconf】7、问题：在多层次关联规则分析中，如果将商品进行归类，每一商品类别的支持度会（）其包含的每个商品的支持度，从而有利于发现一些有意义的频繁模式或关联规则。选项：A、小于B、等于C、大于D、不确定正确答案:【大于】8、问题：在 FP-growth 构建频繁模式树中，每个（）（除根结点外）代表一个单项，树中的每条（）代表原数据中每一个条目的各个项。如果把条目内的项组合在一起看成一个字符串，则字符串前缀相同时共享相同的（）。选项：A、结点；路径；路径B、结点；路径；结点C、路径；路径；

35、结点D、路径；路径；路径正确答案:【结点；路径；路径】9、问题：购买了此商品后还会购买的商品，它们的地位是平等的，其中涉及了时间和顺序的概念，强调的是一个规则，也就是我们所说的关联规则。选项：A、正确B、错误正确答案:【错误】10、问题：如果一个项集是不频繁的，则其所有的超集都是不频繁的。利用这一性质可以简化 Apriori 算法中的计算过程。选项：A、正确B、错误正确答案:【正确】11、问题：逐层发现算法 Apriori 发现频繁项集的过程是按照项集的长度由大到小逐级进行的。选项：A、正确 B、错误正确答案:【错误】12、问题：利用项的概念层次信息，不仅可以发现涉及那些出现频率比较低的商品

36、的频繁模式和关联规则，而且还可以发现概括性更强的规则。选项：A、正确B、错误正确答案:【正确】13、问题：在结构化数据中进行关联分析发现其中的频繁模式和关联规则。对于取值连续的属性，首先将其离散化，然后将每个取值区间作为一个值，继而转化为“属性=值”的形式。选项：A、正确B、错误正确答案:【正确】14、问题：若 Y 和 Z 是 X 的两个不同的 k 项子集，只有当 confidence(X-YY)minconf 和 confidence(X-ZZ) minconf 都满足时，X-(YZ) (YZ)一定成立。选项：A、正确B、错误正确答案:【错误】15、问题：具体来讲，若一个项集 X 的支持度大

37、于用户给定的一个最小支持度阈值，则 X 被称为频繁项集（或频繁模式）。选项：A、正确B、错误正确答案:【正确】16、问题：如果一个规则 XY 同时满足 support(XY)minsup 和confidence(XY)minconf，则称该规则在数据库 D 中成立，其中 minsup 和minconf 分别是用户给定的最小支持度和最小置信度的阈值。选项：A、正确B、错误正确答案:【正确】17、问题：给定最小支持度阈值 minsup，一个频繁项集的所有非空子集都是频繁的。选项：A、正确B、错误正确答案:【正确】18、问题：FP-growth 算法无须生成候选项集的方法，可以避免产生大量候

38、选项集。选项：A、正确B、错误正确答案:【正确】19、填空题：Python 在调用 efficient-apriori 包中的 apriori 函数训练挖掘关联规则时，设定最小支持度的参数是_。正确答案:【min_support】20、填空题：Python 在调用 efficient-apriori 包中的 apriori 函数训练挖掘关联规则时，设定最小置信度的参数是_。正确答案:【min_confidence】21、填空题：给定一个频繁负项集 X，我们可以从中发现隐含的负关联规则。负项集和负关联规则统称为_ 。正确答案:【负模式】22、填空题：如果一个规则和其祖先规则具有近似相同的置信度，

39、则该规则称为_。为了减少发现的规则数目，可以将其从输出的结果中删除。正确答案:【冗余规则】第五单元测验1、问题：通过代码“from sklearn import tree”引入决策树模块，并通过代码“clf =tree.DecisionTreeClassifier()”构造分类器对象后，训练时要调用的方法是（）。选项：A、clf.train()B、clf.fit()C、clf.learn()D、clf.predict()正确答案:【clf.fit()】2、问题：通过代码“from sklearn import tree”引入决策树模块，并通过代码“clf =tree.DecisionTree

40、Classifier()”构造分类器对象，在训练后做预测时要调用的方法是（）。选项： A、clf.predict()B、clf.forecast()C、clf.guess()D、clf.outlook()正确答案:【clf.predict()】3、问题：利用 tree.DecisionTreeClassifier()训练模型时调用.fit()方法需要传递的第一个参数是（）。选项：A、样本特征 XB、样本标签 YC、判断标准D、设置结点的最小样本数量正确答案:【样本特征 X】4、问题：利用 tree.DecisionTreeClassifier()训练模型时调用.fit()方法需要传递的第二

41、个参数是（）。选项：A、样本特征 XB、样本标签 YC、判断标准D、设置结点的最小样本数量正确答案:【样本标签 Y】5、问题：通过代码“from sklearn import metrics”引入评价指标模块后，面对真实标签 true_label 和模型预测标签 predicted_label，混淆矩阵可通过调用（）代码得到。选项：A、confusion_matrix(true_labe, predicted_label)B、confusion_matrix(predicted_label, true_labe)C、metrics.confusion_matrix(true_labe, p

42、redicted_label)D、metrics.confusion_matrix(predicted_label, true_labe)正确答案:【metrics.confusion_matrix(true_labe, predicted_label)】6、问题：在 Scikit-learn 模块下，不同分类模型在训练时，调用的方法名称（）。选项：A、相同B、不同C、视情况而定D、不知道正确答案:【相同】 7、问题：在 Scikit-learn 模块下，不同分类模型在预测时，调用的方法名称（）。选项：A、相同B、不同C、视情况而定D、不知道正确答案:【相同】8、问题：用于分类与回归应用的

43、主要算法有（）。选项：A、Apriori 算法、HotSpot 算法B、RBF 神经网络、K 均值法、决策树C、K 均值法、SOM 神经网络D、决策树、BP 神经网络、贝叶斯正确答案:【决策树、BP 神经网络、贝叶斯】9、问题：决策树中不包含一下哪种结点（）。选项：A、根结点（root node）B、内部结点（internal node）C、外部结点（external node）D、叶结点（leaf node）正确答案:【外部结点（external node）】10、问题：以下哪种算法是分类算法（）。选项：A、DBSCANB、C4.5C、K-MeanD、EM正确答案:【C4.5】11、问题：下列属于决策树中应该剪枝的情景是（）。选项：A、一个结点关联的数据集的信息熵高于指定阈值B、一个结点关联的数据集的信息熵低于指定阈值C、双亲结点的误差比子女结点的加权误差大D、双亲结点的误差比子女结点的平均误差大正