Python爬虫爬出乱码解决方法

我们经常会使用python爬虫爬取网上免费的资源，但常常爬取的都是不是正版网站，这时爬虫就会出现乱码。针对此问题，本文主要介绍Python爬虫爬出乱码解决方法。

问题：学习爬虫时练习爬小说（不是正版网站<doge）遇到的问题，爬出来一章一章的都是乱码。

原因：源网页编码和爬取下来后的编码格式不一致。

如源网页为gbk编码的字节流，而我们抓取下后程序直接使用utf-8进行编码并输出到存储文件中，这必然会引起乱码，即当源网页编码和抓取下来后程序直接使用处理编码一致时，则不会出现乱码；此时再进行统一的字符编码也就不会出现乱码了。

解决方法：

responsee=requests.get(url=url,headers=headers)
responsee.encoding = responsee.apparent_encoding

这里根据源网页编码自动调整

    response = requests.get(url=detial_url,headers=headers)
    response.encoding = response.apparent_encoding

以上就是Python爬虫爬出乱码解决方法，大家可以直接套用上述代码解决问题哦~

常见问题FAQ

免费下载或者VIP会员专享资源能否直接商用？: 本站所有资源版权均属于原作者所有，这里所提供资源均只能用于参考学习用，请勿直接商用。若由于商用引起版权纠纷，一切责任均由使用者承担。更多说明请参考 VIP介绍。

提示下载完但解压或打开不了？: 最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量，若小于网盘提示的容量则是这个原因。这是浏览器下载的bug，建议用百度网盘软件或迅雷下载。若排除这种情况，可在对应资源底部留言，或联络我们.。

找不到素材资源介绍文章里的示例图片？: 对于PPT，KEY，Mockups，APP，网页模版等类型的素材，文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买，且本站不负责(也没有办法)找到出处。同样地一些字体文件也是这种情况，但部分素材会在素材包内有一份字体下载链接清单。