【原创】WEKA对UCI乳腺癌数据数据挖掘实验报告(附代码数据).docx
《【原创】WEKA对UCI乳腺癌数据数据挖掘实验报告(附代码数据).docx》由会员分享,可在线阅读,更多相关《【原创】WEKA对UCI乳腺癌数据数据挖掘实验报告(附代码数据).docx(4页珍藏版)》请在文库网上搜索。
1、【原创】WEKA 对 UCI 乳腺癌数据数据挖掘实验报告(附代码数据)【原创】 定制撰写数据分析可视化项目案例调研报告有问题到淘宝找“大数据部落”就可以了WEKA 对 wisconsin-breast-cancer 数据挖掘分析报告一、 数据集实验采用 UCI 数据集中的 Wisconsin 医学院的 William 博士提供的乳腺癌的数据样本。所有数据来自真实临床案例,每个案例有 10 个属性。其中前九个属性是检测指标,每个属性值用 1 到 10 的整数表示,1 表示检测指标最正常,10 表示最不正常。第十个属性是分类属性,指示该肿瘤是否为恶性。数据集中的肿瘤性质是通过活检得出的结果。肿块厚
2、度 Clump_Thickness integer 1,10 细胞大小的均匀性 Cell_Size_Uniformity integer 1,10 细胞形状的均匀性 Cell_Shape_Uniformity integer 1,10 边缘粘性 Marginal_Adhesion integer 1,10 单上皮细胞的大小 Single_Epi_Cell_Size integer 1,10 裸核 Bare_Nuclei integer 1,10 乏味染色体 Bland_Chromatin integer 1,10 正常核 Normal_Nucleoli integer 1,10 有丝分裂 Mi
3、toses integer 1,10 肿瘤性质 Class benign, malignant该数据集共有 669 个实例。本次实验对以上数据集进行了分类、聚类、关联规则三部分操作,以熟悉 weka 软件的操作使用,并尝试挖掘数据中的实际价值。分类中,尝试用前九个属性值来预测肿瘤的性质;聚类中,寻找各个簇病人的显著特征,可用来辅助制定针对性治疗计划;关联规则的探索,寻找不同属性值之间的相关性。二、 分类1. 数据预处理将 wisconsin-breast-cancer 数据集分割为两个,分别作为 trainset 和 testset。2. 实验过程用 j48 分类树对 trainset 进行分
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 原创 WEKA UCI 乳腺癌 数据 挖掘 实验 报告 代码