人工智能PPT第4章 Python数据处理 .pptx
《人工智能PPT第4章 Python数据处理 .pptx》由会员分享,可在线阅读,更多相关《人工智能PPT第4章 Python数据处理 .pptx(94页珍藏版)》请在文库网上搜索。
1、第4章 Python数据处理1.文件操作2.数据格式化3.常用标准库4.科学计算5.数据获取6.数据分析7.数据可视化8.与AI相关的库第4章 Python数据处理4.1 文件操作文件操作文件操作v文件的理解v文件的打开和关闭v文件的读写文件的文件的理解(理解(1)v文件是数据存储的一种形式v文件是存储在辅助存储器上的数据序列v文件是数据的抽象和集合l文件分类(按照展现方式)p文本文件 p二进制文件l本质上,所有文件都是二进制形式存储文件的文件的理解(理解(2)v文本文件由单一特定编码组成的文件,如UTF-8编码由于存在编码,也被看成是存储着的长字符串例如:.txt文件、.py文件等v二进制文
2、件直接由比特0和1组成,没有统一字符编码二进制0和1的组织结构例如:.png文件、.avi文件等文件的文件的理解(理解(3)v举例:“人工智能正改变未来”v文本形式人工智能正改变未来v二进制形式 bxC8xCBxB9xA4xD6xC7xC4xDCxD5xFDxB8xC4xB1xE4xCExB4xC0 xB4文件的处理过程文件的处理过程v文件处理的步骤:打开-操作-关闭a=open()a.close()读文件写文件文件的 存储状态文件的 占用状态文件的打开和关闭文件的打开和关闭v文件打开形式=open(,)文件句柄文件路径和名称源文件同目录可省路径文本or二进制 读or 写v文件关闭形式.clo
3、se()文件句柄文件的打开模式文件的打开模式文件的打开模式文件的打开模式描述描述r只读模式,默认值,如果文件不存在,返回FileNotFoundErrorw覆盖写模式,文件不存在则创建,存在则完全覆盖x创建写模式,文件不存在则创建,存在则返回FileExistsErrora追加写模式,文件不存在则创建,存在则在文件最后追加内容b二进制文件模式t文本文件模式,默认值+与r、w、x、a连用,同时以读写模式打开文件的使用文件的使用v举例#文本形式打开文件#二进制形式打开文件文件的读取文件的读取操作方法操作方法描述描述 .read(size=-1)读入全部内容,如果给出参数,读入前size长度s=f.
4、read(2)人工.readline(size=-1)读入一行内容,如果给出参数,读入该行前size长度s=f.readline()人工智能正在改变生活。.readlines(hint=-1)读入文件所有行,以每行为元素形成列表,如果给出参数,读入前hint行s=f.readlines()人工智能正在改变生活。文件的全文本遍历文件的全文本遍历v方法一一次读入,统一处理v方法二p按数量读入,分别处理文件的按行遍历文件的按行遍历v方法一一次读入,分行处理v方法二分行读入,逐行处理文件的写入(文件的写入(1)操作方法操作方法描述描述.write(s)向文件写入一个字符串或字节流f.write(幸福都
5、是奋斗出来的!).writelines(lines)将一个元素全为字符串的列表写入文件ls=亚洲,欧洲,非洲f.writelines(ls)亚国欧洲非洲.seek(offset)改变当前文件操作指针的位置,offset含义如下:0 文件开头;1 当前位置;2 文件结尾f.seek(0)#回到文件开头文件的写入(文件的写入(2)v举例写一个字符串列表到文件没有任何输出第4章 Python数据处理4.2 数据格式数据格式化数据格式化v数据的维度v一维数据格式化v二维数据格式化v高维数据格式化数据的维度数据的维度v维度:一组数据的组织形式v分类一维数据二维数据多维数据高维数据一维数据一维数据l由一组
6、有序或无序数据构成,采用线性方式组织l对应列表、集合等概念1,1,2,3,5,8,13,21,34 90,87,65,78,98,100,54,82,76,85 二二维数据维数据l由多个一维数据构成,是一维数据的组合形式l表格是典型的二维数据l其中,表头是二维数据的一部分序号学号姓名姓名高数高数英英语程序程序设计120191001张三988894220191002李四879076320191003王五798487420191004赵六646875多维数据多维数据l由一维或二维数据在新维度上扩展形成2020序号序号学号学号姓名姓名高数高数英语英语 程序设计程序设计120191001张三76908
7、9220191002李四838874320191003王五879092420191004赵六7898872019时间维度序号序号学号学号姓名姓名高数高数英语英语 程序设计程序设计120191001张三988894220191002李四879076320191003王五798487420191004赵六646875高维数据高维数据l利用最基本的二元关系展示数据间的复杂结构键值对一一维数据格式化维数据格式化l如果数据间有序:使用列表类型pls=3.1,3.3,3.6,3.8l如果数据间无序:使用集合类型pst=3.1,3.3,3.6,3.8for循环遍历数据,对每个数据进行处理一维数据一维数据存储
8、存储l存储方式一:空格分隔p使用一个或多个空格分隔进行存储,不换行p缺点:数据中不能存在空格l存储方式二:逗号分隔p使用英文半角逗号分隔数据进行存储,不换行p缺点:数据中不能有英文逗号亚洲 欧洲 北美洲 南美洲 南极洲 非洲 大洋洲l存储方式三:其他方式p使用其他符号或符号组合分隔,建议采用特殊符号p缺点:需要根据数据特点定义,通用性较差亚洲,欧洲,北美洲,南美洲,南极洲,非洲,大洋洲亚洲$欧洲$北美洲$南美洲$南极洲$非洲$大洋洲一一维数据处理维数据处理l从空格分隔的文件中读入数据l从特殊符号分隔的文件中读入数据txt=open(fname).read()ls=txt.split()f.cl
9、ose()txt=open(fname).read()ls=txt.split($)f.close()l采用空格分隔方式将数据写入文件ls=亚洲,欧洲,非洲f=open(fname,w)f.write(.join(ls)f.close()l采用特殊分隔方式将数据写入文件ls=亚洲,欧洲,非洲f=open(fname,w)f.write($.join(ls)f.close()二维数据格式化(二维数据格式化(1)v二维列表vCSV数据存储格式CSV:Comma-SeparatedValues国际通用的一二维数据存储格式,一般.csv扩展名每行一个一维数据,采用逗号分隔,无空行序号,学号,姓名,高数
10、,英语,程序设计1,20191001,张三,98,88,94 2,20191002,李四,87,90,76 3,20191003,王五,79,84,874,20191004,赵六,64,68,75序号序号学号学号姓名姓名高数高数英语英语 程序设计程序设计120191001张三988894220191002李四879076320191003王五798487420191004赵六646875二维数据格式化二维数据格式化(2)vCSV数据存储格式如果某个元素缺失,逗号仍要保留二维数据的表头可以作为数据存储,也可以另行存储逗号为英文半角逗号,逗号与数据之间无额外空格l按行存或者按列存都可以,具体由程序
11、决定l一般索引习惯:lsrowcolumn,先行后列l根据一般习惯,外层列表每个元素是一行,按行存二维数据二维数据处理处理从CSV格式的文件中读入数据l将数据写入CSV格式的文件l采用二层循环高高维数据格式化维数据格式化v键值对是高维数据的特征vJSON格式对高维数据进行表达和存储vJSON(JavaScript Object Notation)是一种轻量级的数据交换格式数据保存在键值对中;键值对之间由逗号分隔;大括号用于保存键值对数据组成的对象;方括号用于保存键值对数据组成的数组。key:value第4章 Python数据处理4.3 常用标准库常用标准库常用标准库vmathvrandomvj
12、sonmath库库v内置数学类函数库4个数学常数数值表示函数(16个)幂对数函数(8个)三角对数函数(16个)高等特殊函数(4个)math.pi math.e math.inf math.nan fabs,fmod,fsum,ceil,floor pow,exp,sqrt,log sin,cos,tan,asin erf,erfc,gamma,lgamma math库的使用库的使用v(1)直接引用math库importmathmath.sqrt(9)3.0v(2)标明要调用math库中的特定函数frommathimportfabsfabs(-125)125.0v(3)标明要调用math库中的特
13、定函数frommathimport*floor(10.6)运行结果:10random库库函数函数描述描述seed(a=none)初始化随机数种子,默认值为当前系统时间random()生成一个0.0,1.0)之间的随机小数randint(a,b)生成一个a,b之间的整数getrandbit(k)生成一个k比特长度的随机整数randrange(start,stop,step)生成一个start,stop)之间以step为步数的随机整数uniform(a,b)生成一个a,b之间的随机小数choice(seq)从序列类型,例如列表中随机返回一个元素shuffle(seq)将序列类型中的元素随机排列,返
14、回打乱后的序列sample(pop,k)从pop类型中随机选取k个元素,以列表类型返回vrandom库是产生并使用随机数的Python标准库vrandom库采用梅森旋转算法生成随机序列中元素。v计算机产生的随机数遵循固定算法,产生的随机数也称伪随机数。4.3.3 常用标准库常用标准库json库库v处理JSON格式的Python标准库v操作类函数和解析类函数vdumps()和loads()分别对应编码和解码功能json库常用函数(库常用函数(1)函数函数描述描述json.dumps(obj,sort_keys=False,indent=None)将Python的数据类型转换为JSON格式,编码过
15、程json.loads(string)将JSON格式字符串转换为Python的数据类型,解码过程json.dump(obj,fp,sort_keys=False,indent=None)与dumps()功能一致,输出到文件fpjson.load(fp)与loads()功能一致,从文件fp读入json库常用函数(库常用函数(2)v举例:将字典dic转换为JSON格式字符串json库常用函数(库常用函数(2)v举例:把JSON格式字符转换为Python对象格式4.3.4 常用标准库常用标准库csv库库vCSV(Comma Separated Values)格式是电子表格和数据库中最常见的输入、输出
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能PPT第4章 Python数据处理 人工智能 PPT Python 数据处理