python文本处理函数,python 处理文本内容

python文本训练后怎么用

1.我们可以把文件想象成一个仓库；可以供我们操作使用

舞钢网站制作公司哪家好，找成都创新互联公司！从网页设计、网站建设、微信开发、APP开发、响应式网站设计等网站项目制作，到程序开发，运营维护。成都创新互联公司自2013年创立以来到现在10年的时间，我们拥有了丰富的建站经验和运维经验，来保证我们的工作的顺利进行。专注于网站建设就选成都创新互联公司。

打开文件并且创建对象；

对该文件内容进行读取写入删除修改等操作

关闭并且保存登录后复制

2.常用操作函数

open()函数打开文件并创建对象

参数：

路径信息(如果不在当前路径下;需要使用绝对路径进行定位)

打开方式:

r 默认读模式如果文件不存在则抛出异常

w 写入模式;使用该模式会清空文本中原有的内容如果该文件不存在则会创建

x 它也是写入模式;如果该文件存在则会抛出异常

a 它是对文件进行追加;不会覆盖文件的原始内容

encoding参数指定该文本的编码格式

colse()使用该函数进行关闭我们创建的文件对象

也可以使用with模式进行操作文件;这样我们就不会忘记使用close函数关闭文件了

with open('python.txt','r',encoding='utf8') as filename:

print(filename.read())

print(filename.read())

# 抛出异常信息 ValueError: I/O operation on closed file. 这是因为我们调用的文件对象已经关闭了

3.测试文件是否可读:

readable() 测试创建的文件对象是否可读;它的返回值是False 和 true我们可以利用这个函数进行判断该文件是否可读

wireable()测试文件时候可写

filename = open('python.txt','r',encoding='utf8')

aa = filename.readable()

print(aa) # 输出打印true 证明这个文件是可读的

4.针对文件对象进行操作的函数

read()函数读文件中所有的内容

readline()读取文件一行的内容也可以读取该行的指定参数

readlines()读取文件中的内容添加到列表中去;换行用\n代替

也是可以使用for循环进行输出文件中的内容

filename = open('python.txt','r',encoding='utf8')

print(filename.readline(4))

filename.close()

# 如果我们不关闭该对象的话;使用readline()读取的4个长度是不会被读取的

filename = open('python.txt','r')

for line in filename:

print(line)

5.异常处理

如何处理异常:通过异常处理可以发现错误所在

异常处理结构: try except

另一种处理异常结构:

try: except: else: 如果try抛出异常则执行except代码;反之执行else中的代码

try: except: finally: finally中的代码是必执行的

例如上面调用的with操作文件报异常我们就可以使用它进行处理异常进行回显

try:

with open('python.txt','r',encoding='utf8') as filename:

print(filename.read())

print(filename.read())

# 抛出异常信息 ValueError: I/O operation on closed file.

except:

print('文件对象已经被关闭') # 输出文件对象已经被关闭

Python 数据处理（三十六）—— 文本数据处理（续）

可以使用 [] 符号直接按位置进行索引，如果索引超过字符串的长度，结果将是 NaN

在 0.23 版本之前， extract 方法的参数 expand 默认为 False 。当 expand=False 时， expand 会根据正则表达式模式返回一个 Series 、 Index 或 DataFrame

当 expand=True 时，它总是返回一个 DataFrame ，这种方式更加符合用户的需求，从 0.23.0 版本开始就是默认的

extract 方法接受一个至少包含一个捕获组的正则表达式

如果是包含多个组的正则表达式将返回一个 DataFrame ，每个捕获组是一列

未匹配的行会填充 NaN ，可以从混乱的字符串序列中提取出有规则的信息。

对于命名分组

对于可选的分组

注意：正则表达式中的任何捕获组名称都将用作列名，否则将使用捕获组号

如果 expand=True ，则返回一个 DataFrame

如果 expand=False ，则返回一个 Series

对于索引，如果 expand=True ，且只有一个捕获组则返回一个只有一列的 DataFrame

此时，如果 expand=False 将会返回一个 Index

对于索引，正则表达式设置多个分组将返回 DataFrame

如果 expand=False 将会抛出 ValueError 异常

对于 extract 只返回第一个匹配项

与 extract 不同， extractall 方法返回每个匹配项，其结果始终是具有 MultiIndex 的 DataFrame 。

MultiIndex 的最后一级名为 match ，标示的是匹配的顺序

对于只有一个匹配的 Series

extractall(pat).xs(0, level='match') 与 extract(pat) 的结果一致

Index 也支持 .str.extractall ，它返回一个 DataFrame ，其结果与 Series.str 相同。

您可以检查字符串元素中是否包含正则匹配模式

或者字符串元素是否与模式匹配

而在 1.1.0 版本中

注意：

match 、 fullmatch 和 contains 之间的区别是：

这三个函数于 re 模块的 re.fullmatch 、 re.match 和 re.search 对应

像 match , fullmatch , contains , startswith 和 endswith 有一个额外的 na 参数，用于将缺失值替换为 True 或 False

您可以从字符串列中提取指标变量。例如，如果使用 '|' 分隔的字符串

字符串 Index 也支持 get_dummies ，它返回一个 MultiIndex

python操作文本文件

在磁盘上读写文件之前，必须先打开这个文件。打开文件就需要提供文件的路径。

在与Python程序同一个目录下，我们有一个名为 pi.txt 的文件，它的内容如下：

现在使用Python来打开和关闭它：

执行此程序不会有任何输出，这表示着打开和关闭文件都得到了正确执行。

可以看到，使用 open() 函数打开文件，参数为文件名（或文件路径）；该函数会返回一个文件句柄，文件句柄并不会实际保存文件的内容，而是代表着一种操作，在上面的例子中，文件句柄被赋值给变量 fhand 。

打开文件后，程序具有读（默认）该文件的权限。

最后，使用文件句柄的 close() 方法关闭文件。这非常重要，因为使用完而没有关闭的文件会占用内存或造成安全问题。

如果Python找不到该文件，则会返回错误，比如下面这样：

Python提示我们没有相应的文件或者目录: 'pii.txt'。

打开文件后就可以对文件进行操作：

fhand.read() 方法将文件内容作为一个字符串返回。

文件中的每一行末尾使用换行符 \n 表示换行，例子中方法 rstrip() 去掉文本中的换行符，然后输出。

程序的运行效果如下：

如果在文件关闭之前程序发生BUG意外退出，则文件不会关闭，为了避免此类事件的发生，可以使用 with 语句：

with 语句的特点是即便在操作文件时发生错误，文件也会自动被清理。

fhand.read() 虽然可以读取文本内容，但是当我们想要逐行处理文件内容，或者文件很大而无法一次性加载进内存的时候，就不适用了。

可以使用 for 语句逐行处理文件内容：

本程序中将文件名保存在变量 filename 中。

打开文件后，使用 for 语句按行读取文件内容。例子中，每次循环依次取一行文本以字符串的格式保存在变量 line 中，每次循环中变量 count 自增1。

这个程序的作用是，打开程序所在目录的 when_old.txt 文件，然后统计行数，并输出结果。

when_old.txt 文件的内容是：

可以使用其他方法操作字符串 line ：

程序将以 'And' 开头的行打印出来。

打开文件后，默认的权限是读（r），如果要写文件，则需要使用写（w）或者追加（a）权限。

w权限，打开一个文件用于写入。如果该文件存在，则覆盖该文件；如果该文件不存在，则创建该文件。

a权限，打开一个文件用于追加。如果该文件存在，在文件末尾追加；如果该文件不存在，则创建该文件。

下面是一个使用w权限打开文件的例子：

例子中使用w权限打开该文件，并写入两行。（如果该文件存在，则内容会被覆盖）

fhand.write() 不会自动添加换行符，所以如果需要换行，需在末尾添加 \n 。

下面我们写一个统计文件中词频的程序。

它会统计文件中各个词的出现的次数，然后由高到低显示出前5个词。

首先我们完成打开和关闭文件的程序内容：

在例子中，由用户输入文件名，并且使用异常捕获以处理文件打开时的错误。

下面对内容进行统计：

这个程序：

如此，我们就在字典中存放了单词:次数的键值对。

由于字典不能保存顺序，所以不能对其进行排序。为此，将每个键值对都添加到一个列表中：

在列表 word_list 中，每一项都是一个元组，每个元组第一个值是单词出现的次数，第二个值是单词内容。

对其进行逆向（由大到小）排序：

打印最终结果：

整个程序如下：

下面是程序运行结果的示例：

分享名称：python文本处理函数,python 处理文本内容
网页URL：http://lszwz.com/article/phchch.html

其他资讯

售后响应及时

7×24小时客服热线

数据备份

更安全、更高效、更稳定

价格公道精准

项目经理精准报价不弄虚作假

合作无风险

重合同讲信誉，无效全额退款

乐山小谭建站工作室是一家专注从事于高品质视觉体验及互联网设计开发，乐山网站建设，乐山网站设计，乐山网页设计，乐山网站制作，品牌网站建设，营销网站建设，集团网站建设，企业网站建设，外贸网站建设，响应式网站建设，小程序开发，微信开发，企业形象设计，企业宣传视频等服务，小谭建站位于乐山市龙岗区大运软件小镇，小谭建站拥有经验丰富的高级网站建设工程师和一流的网页高端设计人员，具备各种规模与类型网站建设的雄厚实力，在网站建设领域树立了自己独特的设计风格。

友情链接交换友情链接

成都网站营销腾讯免备案主机西部信息机房宁波红锐电子装饰公司网站建设方案青羊总部基地达州托管服务器乐山托管服务器成都做手机网站金融行业网站建设方案

Copyright © 2022 青羊区小谭信息技术咨询服务工作室乐山建站工作室 All Rights Reserved 蜀ICP备2021004003号-25

Copyright © 2022 青羊区小谭信息技术咨询服务工作室乐山建站工作室

蜀ICP备2021004003号-25