我们经常会使用python爬虫爬取网上免费的资源,但常常爬取的都是不是正版网站,这时爬虫就会出现乱码。针对此问题,本文主要介绍Python爬虫爬出乱码解决方法。
问题:学习爬虫时练习爬小说(不是正版网站<doge)遇到的问题,爬出来一章一章的都是乱码。
原因:源网页编码和爬取下来后的编码格式不一致。
如源网页为gbk编码的字节流,而我们抓取下后程序直接使用utf-8进行编码并输出到存储文件中,这必然会引起乱码,即当源网页编码和抓取下来后程序直接使用处理编码一致时,则不会出现乱码;此时再进行统一的字符编码也就不会出现乱码了。
解决方法:
responsee=requests.get(url=url,headers=headers) responsee.encoding = responsee.apparent_encoding
这里根据源网页编码自动调整
response = requests.get(url=detial_url,headers=headers) response.encoding = response.apparent_encoding
以上就是Python爬虫爬出乱码解决方法,大家可以直接套用上述代码解决问题哦~
常见问题FAQ
- 免费下载或者VIP会员专享资源能否直接商用?
- 本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
- 提示下载完但解压或打开不了?
- 找不到素材资源介绍文章里的示例图片?
- 模板不会安装或需要功能定制以及二次开发?
发表评论
还没有评论,快来抢沙发吧!