Python爬虫初学:报错1:UnicodeEncodeError: 'gbk' codec can't encode character '\xbb'……

Ailis ·
更新时间:2024-09-20
· 709 次阅读

大家好,我是庞老板咩,一名浙江大学动力工程20级推免生,最近开始自学Python。这是我的第一篇博客,很高兴可以在CSDN这个平台和大家分享交流^ ^

首先,这是一段我初学爬虫时的代码:

import urllib.request def load_baidu(): url = "http://www.baidu.com" request = urllib.request.Request(url) response = urllib.request.urlopen(url) print(response) data = response.read().decode("utf-8") request_headers = request.headers print(request_headers) with open("02header.html","w")as f: f.write(data) # print(response.headers) load_baidu()

这段代码运行后会出现如下报错:

UnicodeEncodeError: 'gbk' codec can't encode character '\xbb' in position 33874: illegal multibyte sequence

这是由于我们使用with open写入文档时候,没有使用encoding指定file文件的编码,这里我们进行补充:

with open("02header.html","w",encoding="utf-8")as f: f.write(data)

并运行,可以看到,报错解除了:在这里插入图片描述
最后,补充给初学者Python中with open() as f:的常见用法:
1.常见的读写操作:

with open(r'filename.txt') as f: data_user=pd.read_csv(f) #文件的读操作 with open('data.txt', 'w') as f: f.write('hello world') #文件的写操作

2.相关参数:

r: 以只读方式打开文件。文件的指针将会放在文件的开头。这是**默认模式**。 rb: 以二进制格式打开一个文件用于只读。文件指针将会放在文件的开头。这是默认模式。 r+: 打开一个文件用于读写。文件指针将会放在文件的开头。 rb+:以二进制格式打开一个文件用于读写。文件指针将会放在文件的开头。 w: 打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。 wb: 以二进制格式打开一个文件只用于写入。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。 w+: 打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。 wb+:以二进制格式打开一个文件用于读写。如果该文件已存在则将其覆盖。如果该文件不存在,创建新文件。 a: 打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。 ab: 以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。也就是说,新的内容将会被写入到已有内容之后。如果该文件不存在,创建新文件进行写入。 a+: 打开一个文件用于读写。如果该文件已存在,文件指针将会放在文件的结尾。文件打开时会是追加模式。如果该文件不存在,创建新文件用于读写。 ab+:以二进制格式打开一个文件用于追加。如果该文件已存在,文件指针将会放在文件的结尾。如果该文件不存在,创建新文件用于读写。

3.file对象的属性:

file.read([size]) 将文件数据作为字符串返回,可选参数size控制读取的字节数 file.readlines([size]) 返回文件中行内容的列表,size参数可选 file.write(str) 将字符串写入文件 file.writelines(strings) 将字符串序列写入文件 file.close() 关闭文件 file.closed 表示文件已经被关闭,否则为False file.mode Access文件打开时使用的访问模式 file.encoding 文件所使用的编码 file.name 文件名 file.newlines 未读取到行分隔符时为None,只有一种行分隔符时为一个字符串,当文件有多种类型的行结束符时,则为一个包含所有当前所遇到的行结束的列表 file.softspace 为0表示在输出一数据后,要加上一个空格符,1表示不加。这个属性一般程序员用不着,由程序内部使用
作者:庞老板咩



CHARACTER python爬虫 gbk Python

需要 登录 后方可回复, 如果你还没有账号请 注册新账号