文库网
ImageVerifierCode 换一换
首页 文库网 > 资源分类 > PPT文档下载
分享到微信 分享到微博 分享到QQ空间

人工智能PPT第3章 数据清洗与特征预处理.ppt

  • 资源ID:18831112       资源大小:840KB        全文页数:12页
  • 资源格式: PPT        下载积分:15文币
微信登录下载
快捷下载 游客一键下载
账号登录下载
三方登录下载: QQ登录 微博登录
二维码
扫码关注公众号登录
下载资源需要15文币
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
如填写123,账号就是123,密码也是123。
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 
账号:
密码:
验证码:   换一换
  忘记密码?
    
友情提示
2、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
3、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者360浏览器、谷歌浏览器下载即可。
4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
5、试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。

人工智能PPT第3章 数据清洗与特征预处理.ppt

1、第第3 3章章 数据清洗与特征预处理数据清洗与特征预处理数据清洗数据清洗n在实际的数据集中,通常存在着缺失值、在实际的数据集中,通常存在着缺失值、异常值等噪声数据。数据清洗包括缺失异常值等噪声数据。数据清洗包括缺失值处理、异常数据检测与清除,重复值值处理、异常数据检测与清除,重复值处理等。处理等。缺失缺失值值n采集数据时,由于各种因素导致部分样本的数据特性缺失。采集数据时,由于各种因素导致部分样本的数据特性缺失。缺失值通常以空白,缺失值通常以空白,NaN或其他占位符编码。缺失值处理或其他占位符编码。缺失值处理一般采用如下方法:删除法和数据填充。一般采用如下方法:删除法和数据填充。n删除法:如果

2、某个属性的缺失值过多,可以直接删除整个删除法:如果某个属性的缺失值过多,可以直接删除整个属性。属性。n数据填充:对属性缺失的样本采用其他值,如前后值、中数据填充:对属性缺失的样本采用其他值,如前后值、中位数、均值进行替代。位数、均值进行替代。nsklearn中中 Imputer 类或类或SimpleImputer类处理缺失值。类处理缺失值。imputer在在preprocessing模块,而模块,而SimpleImputer在在sklearn.impute模块中。模块中。异常值异常值n“异常数据异常数据”又称为离群点,具有与其他数据的显著不同。通常检测方法如又称为离群点,具有与其他数据的显著不

3、同。通常检测方法如下所示:下所示:n1)基于邻近度的方法)基于邻近度的方法n通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象。通常可以在对象之间定义邻近性度量,异常对象是那些远离其他对象的对象。n2)基于密度的方法)基于密度的方法n仅当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。仅当一个点的局部密度显著低于它的大部分近邻时才将其分类为离群点。n3)基于聚类的方法)基于聚类的方法n聚类分析用于发现局部强相关的对象。聚类分析用于发现局部强相关的对象。n一般采用一般采用Z标准化得到的阈值作为判断标准,超过阈值则为异常。标准化得到的阈值作为判断标准,超过阈值则为异常。

4、重复重复值值n重复值的存在会影响数据分析和挖掘结果的准确性。对于重复值的存在会影响数据分析和挖掘结果的准确性。对于重复值的处理,可以使用重复值的处理,可以使用Pandas中的相关方法,如下所中的相关方法,如下所示:示:nduplicated()用于判断重复数据记录用于判断重复数据记录ndrop_duplicates()用于删除重复记录用于删除重复记录特征预处理特征预处理n当多个特征大小相差较大,或者某特征的方差相比其他特征数个数量当多个特征大小相差较大,或者某特征的方差相比其他特征数个数量级,容易影响或支配目标结果。特征预处理就是通过转换函数将这些级,容易影响或支配目标结果。特征预处理就是通过

5、转换函数将这些特征数据转换成适合算法模型的过程。特征数据转换成适合算法模型的过程。方法含义方法名归一化preprocessing.MinMaxScaler标准化preprocessing.StandardScaler鲁棒化Preprocessing.RobustScaler规范化规范化n当数据不符合正态分布、异常值较少的时当数据不符合正态分布、异常值较少的时候,为了让特征具有同等重要性,可以采候,为了让特征具有同等重要性,可以采用规范化用规范化(normalization)将不同规格的数将不同规格的数据转换到同一个规格,即变换到固定的最据转换到同一个规格,即变换到固定的最小最大值的区间小最大值

6、的区间。nSklearn提供提供MinMaxScaler方法进行规范方法进行规范化,具体语法如下所示:化,具体语法如下所示:MinMaxScaler(feature_range=(0,1)规范化规范化from sklearn.preprocessing import MinMaxScalerdef Normalization():#实例化一个转换器类实例化一个转换器类 Normalization=MinMaxScaler(feature_range=(0,1)#范围设置为范围设置为01之间之间 data=90,2,10,40,60,4,15,45,75,3,13,46print(data)#调

7、用调用fit_transform data_Normal=Normalization.fit_transform(data)print(data_Normal)return Noneif _name_=_main_:Normalization()【程序运行【程序运行结果】果】90,2,10,40,60,4,15,45,75,3,13,461.0.0.0.0.1.1.0.83333333 0.5 0.5 0.6 1.标准化标准化n当有些特征的方差过大,会导致无法正确地去学习其当有些特征的方差过大,会导致无法正确地去学习其他特征,标准化用于解决归一化容易受到样本中极大他特征,标准化用于解决归一化容

8、易受到样本中极大或者极小的异常值的影响。数据标准化或者极小的异常值的影响。数据标准化(standardization)将数据按比例缩放到特定区间。将数据按比例缩放到特定区间。n标准化后,所有数据都聚集在标准化后,所有数据都聚集在0附近,方差为附近,方差为1。Sklearn提供提供StandardScaler()实现标准化,确保数实现标准化,确保数据的据的“大小大小”一致,从而利于模型的训练一致,从而利于模型的训练。具体。具体语法语法如下所示:如下所示:StandardScaler(copy,with_mean)标准化标准化import numpy as npfrom sklearn.prepr

9、ocessing import StandardScalerdef Standardization():data_list=1.5,-1.,2.,2.,0.,0.print(矩阵初值为:矩阵初值为:.format(data_list)scaler=StandardScaler()data_Standard=scaler.fit_transform(data_list)print(该矩阵的均值为:该矩阵的均值为:n 该矩阵的标准差为:该矩阵的标准差为:.format(scaler.mean_,np.sqrt(scaler.var_)print(标准差标准化的矩阵为:标准差标准化的矩阵为:.for

10、mat(data_Standard)return None 矩矩阵初初值为:1.5,-1.0,2.0,2.0,0.0,0.0该矩矩阵的均的均值为:1.75-0.5 1.该矩矩阵的的标准差准差为:0.25 0.5 1.标准差准差标准化的矩准化的矩阵为:-1.-1.1.1.1.-1.鲁棒化鲁棒化n当数据包含许多异常值,离群值较多时,使用均值和当数据包含许多异常值,离群值较多时,使用均值和方差缩放不能取得较好效果,可以使用鲁棒性缩放方差缩放不能取得较好效果,可以使用鲁棒性缩放(RobustScaler)进行处理。)进行处理。RobustScaler使用中使用中位数和四分位数进行数据的转换,会直接将异

11、常值位数和四分位数进行数据的转换,会直接将异常值剔剔除除nSklearn提供提供sklearn.preprocessing.RobustScaler()实现鲁棒化实现鲁棒化,语,语法如下所示:法如下所示:RobustScaler(quantile_range,with_centering,with_scaling)鲁棒化鲁棒化from sklearn.preprocessing import RobustScalerX=1.,-2.,2.,-2.,1.,3.,4.,1.,-2.transformer=RobustScaler().fit(X)RobustScaler(quantile_range=(25.0,75.0),with_centering=True,with_scaling=True)print(transformer.transform(X)【程序运行结果】【程序运行结果】0.-2.0.-1.0.0.4 1.0.-1.6


注意事项

本文(人工智能PPT第3章 数据清洗与特征预处理.ppt)为本站会员(bubibi)主动上传,文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知文库网(点击联系客服),我们立即给予删除!




关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

文库网用户QQ群:731843829  微博官方号:文库网官方   知乎号:文库网

Copyright© 2025 文库网 wenkunet.com 网站版权所有世界地图

经营许可证编号:粤ICP备2021046453号   营业执照商标

1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png