最新公告
  • 欢迎您光临起源地模板网,本站秉承服务宗旨 履行“站长”责任,销售只是起点 服务永无止境!立即加入钻石VIP
  • python爬虫如何采集知乎信息汇总?

    正文概述    2020-01-22   489

    python爬虫如何采集知乎信息汇总?

    在没有学习python之前,对于数据的提取只局限于复制、粘贴之后的保存,一步步的人工操作还是很慢的。现在的小编已经能够写代码去从网页上获取自己想要的内容了,学习成果方面还是有显著的变化。不知道小伙伴们是不是都会呢?本篇小编就以知乎的数据采集为例,让大家也练练手。


    打开知乎首页-->登陆-->搜索到一个大V,用谷歌浏览器分析点击关注了哪些人后的请求,通过分析:查找他关注的人的请求链接:

    https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data%5B

    python爬虫如何采集知乎信息汇总?

     

    通过观察尝试分析后可知:offset=40是偏移量,通过改变这个值可以实现分页的效果。

    知乎是做了反爬虫的措施的,所以我们要想爬取知乎信息,还必须要设置请求头,下面我们来分析请求头:

    python爬虫如何采集知乎信息汇总?

     

    图片中红箭头所指就是请求必须需要的值,

    authorization:是身份认证信息,每个用户登录后都会产生各自的身份认证信息。

    User-Agent:是验证请求是来自正常的浏览器访问

     

    最终代码如下:

    import requests
    import pandas as pd
    import time
    headers={
        'authorization':'',#此处填写你自己的身份验证信息
        'User-Agent':''#此处填写你自己浏览器的User-Agent
    }
    user_data = []
    def get_user_data(page):
        for i in range(page):#翻页
            url = 'https://www.zhihu.com/api/v4/members/excited-vczh/followees?include=data%5B*%5D.answer_count%2Carticles_count%2Cgender%2Cfollower_count%2Cis_followed%2Cis_following%2Cbadge%5B%3F(type%3Dbest_answerer)%5D.topics&offset={}&limit=20'.format(i*20)
            response = requests.get(url, headers=headers).json()['data']
            user_data.extend(response) #把response数据添加进user_data
            print('正在爬取第%s页' % str(i+1))
            time.sleep(1) #设置爬取网页的时间间隔为1秒
     
    if __name__ == '__main__':
        get_user_data(10)
        df = pd.DataFrame.from_dict(user_data)#以字典保存数据
        df.to_csv('zhihu.csv',encoding='utf_8_sig')#保存到用户名为zhihu的csv文件中,encoding='utf_8_sig'参数是为了解决中文乱码的问题
        print(df)

    运行代码后,我们就可以看到收集的一堆用户信息的汇总了,当然其中不乏一些小伙伴们崇拜的python大神公开的信息哦~更多Python学习推荐:起源地模板网教学中心


    起源地下载网 » python爬虫如何采集知乎信息汇总?

    常见问题FAQ

    免费下载或者VIP会员专享资源能否直接商用?
    本站所有资源版权均属于原作者所有,这里所提供资源均只能用于参考学习用,请勿直接商用。若由于商用引起版权纠纷,一切责任均由使用者承担。更多说明请参考 VIP介绍。
    提示下载完但解压或打开不了?
    最常见的情况是下载不完整: 可对比下载完压缩包的与网盘上的容量,若小于网盘提示的容量则是这个原因。这是浏览器下载的bug,建议用百度网盘软件或迅雷下载。若排除这种情况,可在对应资源底部留言,或 联络我们.。
    找不到素材资源介绍文章里的示例图片?
    对于PPT,KEY,Mockups,APP,网页模版等类型的素材,文章内用于介绍的图片通常并不包含在对应可供下载素材包内。这些相关商业图片需另外购买,且本站不负责(也没有办法)找到出处。 同样地一些字体文件也是这种情况,但部分素材会在素材包内有一份字体下载链接清单。
    模板不会安装或需要功能定制以及二次开发?
    请QQ联系我们

    发表评论

    还没有评论,快来抢沙发吧!

    如需帝国cms功能定制以及二次开发请联系我们

    联系作者

    请选择支付方式

    ×
    迅虎支付宝
    迅虎微信
    支付宝当面付
    余额支付
    ×
    微信扫码支付 0 元