人工智能PPT第3章 数据清洗与特征预处理.ppt
《人工智能PPT第3章 数据清洗与特征预处理.ppt》由会员分享,可在线阅读,更多相关《人工智能PPT第3章 数据清洗与特征预处理.ppt(12页珍藏版)》请在文库网上搜索。
1、第第3 3章章 数据清洗与特征预处理数据清洗与特征预处理数据清洗数据清洗n在实际的数据集中,通常存在着缺失值、在实际的数据集中,通常存在着缺失值、异常值等噪声数据。数据清洗包括缺失异常值等噪声数据。数据清洗包括缺失值处理、异常数据检测与清除,重复值值处理、异常数据检测与清除,重复值处理等。处理等。缺失缺失值值n采集数据时,由于各种因素导致部分样本的数据特性缺失。采集数据时,由于各种因素导致部分样本的数据特性缺失。缺失值通常以空白,缺失值通常以空白,NaN或其他占位符编码。缺失值处理或其他占位符编码。缺失值处理一般采用如下方法:删除法和数据填充。一般采用如下方法:删除法和数据填充。n删除法:如果
2、某个属性的缺失值过多,可以直接删除整个删除法:如果某个属性的缺失值过多,可以直接删除整个属性。属性。n数据填充:对属性缺失的样本采用其他值,如前后值、中数据填充:对属性缺失的样本采用其他值,如前后值、中位数、均值进行替代。位数、均值进行替代。nsklearn中中 Imputer 类或类或SimpleImputer类处理缺失值。类处理缺失值。imputer在在preprocessing模块,而模块,而SimpleImputer在在sklearn.impute模块中。模块中。异常值异常值n“异常数据异常数据”又称为离群点,具有与其他数据的显著不同。通常检测方法如又称为离群点,具有与其他数据的显著不
3、同。通常检测方法如下所示:下所示:n1)基于邻近度的方法)基于邻近度的方法n通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象。通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象。n2)基于密度的方法)基于密度的方法n仅当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。仅当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。n3)基于聚类的方法)基于聚类的方法n聚类分析用于发现局部强相关的对象。聚类分析用于发现局部强相关的对象。n一般采用一般采用Z标准化得到的阈值作为判断标准,超过阈值则为异常。标准化得到的阈值作为判断标准,超过阈值则为异常。
4、重复重复值值n重复值的存在会影响数据分析和挖掘结果的准确性。对于重复值的存在会影响数据分析和挖掘结果的准确性。对于重复值的处理,可以使用重复值的处理,可以使用Pandas中的相关方法,如下所中的相关方法,如下所示:示:nduplicated()用于判断重复数据记录用于判断重复数据记录ndrop_duplicates()用于删除重复记录用于删除重复记录特征预处理特征预处理n当多个特征大小相差较大,或者某特征的方差相比其他特征数个数量当多个特征大小相差较大,或者某特征的方差相比其他特征数个数量级,容易影响或支配目标结果。特征预处理就是通过转换函数将这些级,容易影响或支配目标结果。特征预处理就是通过
5、转换函数将这些特征数据转换成适合算法模型的过程。特征数据转换成适合算法模型的过程。方法含义方法名归一化preprocessing.MinMaxScaler标准化preprocessing.StandardScaler鲁棒化Preprocessing.RobustScaler规范化规范化n当数据不符合正态分布、异常值较少的时当数据不符合正态分布、异常值较少的时候,为了让特征具有同等重要性,可以采候,为了让特征具有同等重要性,可以采用规范化用规范化(normalization)将不同规格的数将不同规格的数据转换到同一个规格,即变换到固定的最据转换到同一个规格,即变换到固定的最小最大值的区间小最大值
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能PPT第3章 数据清洗与特征预处理 人工智能 PPT 数据 清洗 特征 预处理