小朋友们好,大朋友们好!
我们今天基本文件操作,要学习的内容如下:
什么是文件,什么是目录
创建和打开文件
关闭文件
with语句打开文件
写入文件内容
读取文件
什么是文件,什么是目录
文件是计算机存储信息的一种形式,不同文件后缀表示不同文件类型。
比如一张图片、一首歌曲、一段文字、一段视频都是文件,它们的存储格式不同。
不同文件的后缀表示计算机对其读写时,要符合特定的语法,这种语法由文件的后缀决定。
目录又称文件夹,是一个容器,它里面可以包含文件和目录。
文件有多种分类方式。
按照存储类型可以分为二进制文件和非二进制文件。
前者比如一张图片、一首歌曲等,这些内容是给计算机看的,我们看原始二进制文件看不懂。
后者比如文本文件等,我们可以看得懂的。
创建和打开文件
Python可以通过内置的open函数打开文件,格式如下:
file=open(filename[,mode[,buffering[,encoding]]])
file:被创建的文件对象
filename:要创建或打开的文件,需要用单引号或双引号括起来
mode:可选参数,用于指定文件的打开模式,见mode.txt
buffer:可选参数,用于指定读写文件的模式,为0表达式不缓冲,值为1表达式缓冲,值大于1表示缓冲区大小。默认缓冲模式
encoding:可选参数,指定了文件的编码方式
mode.txt内容如下:
r:只读模式打开文件,文件的指针将会放在文件的开头。默认
rb:同r,只是对象是二进制文件。
r+:打开文件后,可以读取文件,也可以写入文件,写入文件从头开始写,会覆盖之前文件。
rb+:同r+,只是对象是二进制文件。
以上操作,要求文件必须存在。
w:只写模式打开文件。
wb:同w,只是对象是二进制文件。
w+:打开文件后先清空文件,对这个空文件有读写权限。
wb+:同w+,只是对象是二进制文件。
以上操作,文件存在则覆盖,否则创建文件。
a:以追加模式打开一个文件,如果该文件存在,文件指针定位在文件的末尾。否则,创建新文件并写入。
ab:同a,只是对象是二进制文件。
a+:以读写模式打开一个文件,如果该文件存在,文件指针定位在文件的末尾。否则,创建新文件用于读写。
ab+:同a+,只是对象是二进制文件。
猫妹的测试代码41.2.1.py
猫妹的测试代码41.2.2.py
猫妹的测试代码41.2.3.py
猫妹的测试代码41.2.4.py
猫妹的测试代码41.2.5.py
打开文件时,可以通过encoding指定编码方式。
open默认使用gbk编码方式打开文件,当被打开的文件不是gbk编码时,可以通过encoding指定与其一致的编码方式。
猫妹的测试代码41.2.6.py
关闭文件
自打开文件后,需要及时关闭,以免对文件造成破坏。
关闭文件的close方法,其中file为打开的file对象:
file.close()
注:close方法先刷新缓冲区中还没有写入的信息,然后再关闭文件。
with语句打开文件
打开文件后,需要关闭。如果忘了,可能存在隐患。
为了避免此类问题,可以使用with语句打开文件,语法如下:
withexpressionastarget:
with-body
expression:制定一个表达式,可以是打开文件的open函数
target:这里指定一个变量,并将expression的结果保存到该变量中
with-body:用于指定with语句体,可以是执行with语句后相关的一些操作,可以用pass语句代替
猫妹的测试代码见41.4.1.py
写入文件内容
可以使用write方法向文件写入内容,其中file为打开的file对象,string为要写入的字符串:
file.write(string)
注:在调用write()方法之前,确定打开文件方式是可写的,w(可写)或a(追加),否则会抛出异常。
猫妹的测试代码见41.5.1.py
猫妹的测试代码见41.5.2.py
读取文件
打开文件后,可以读取内容。有多种方法,可读取指定字符,可读取一行,可读取多行。
读取指定字符:
file.read([size])
file:打开文件对象
size:可选参数,用于读取的字符个数。可以省略,表示读取所有
使用read方法时,打开模式为r(只读)或r+(读写),否则会异常。
猫妹的测试代码见41.6.1.py
使用read方法时。默认是从文件开头读取的。
如果想读取部分内容,又不想从头开始,可以使用seek方法:
file.seek(offset[,whence])
file:已经打开的文件对象
offset:用于指定移动的字符个数,具体位置和whence有关
whence:用于指定从什么位置开始计算,0表示文件开头,1表示当前位置,2表示文件尾部,默认0
猫妹的测试代码见41.6.2.py
使用seek方法时,如果是gbk编码,offset值是一个汉字(包含标点)占两个字符计算。采用utf-8编码,一个汉字占三个字符。
不论何种编码,英文和数字都是占用一个字符计算。
读取一行,file.readline()
猫妹的测试代码见41.6.3.py
读取所有行,file.readlines(),返回的是字符列表,每个元素为文件的一行内容
猫妹的测试代码见41.6.4.py
猫妹的测试代码见41.6.5.py