用Selenium爬取微博内容

2020-02-21

微博爬虫数据

微博爬虫教程

如果遇到问题,可以在网上搜索相关提示;若依然无法解决,可到群里@楼楼

配置爬虫运行环境

想要运行爬虫的代码,需要先在电脑上配置好运行环境,最首要的是安装Python:

⚠️安装Python的版本一定要3.x

↑这个链接跳转的是一个Python教程,如果没有接触过Python的小伙伴,可以从这个教程开始学习一下Python的基础语法呀~

请确保Python已经安装完成,再进行下述操作;是否成功安装的标准在上文链接中可以看到。

接下来,我们安装爬虫所需的库文件:selenium。

打开命令行

在命令行中输入以下代码:

pip install selenium

如果电脑中同时存在Python 2.x和3.x 则将上述代码改为:

pip3 install selenium

同时,在代码中因为需要将爬取的数据保存到Word及Excel中,因而还需要安装其所依赖的库文件。

依然是在命令行中,输入以下代码:

pip install xlwt xlrd xlutils docx

如果电脑中同时存在Python 2.x和3.x 则将上述代码改为:

pip3 install xlwt xlrd xlutils docx

安装完爬虫依赖的库文件后,我们还需要安装 Chrome驱动:

找到你电脑中chrome对应的版本下载,若非对应版本有一定几率会报错。

chrome的版本可以在chrome 右上角三个点 -> 设置 -> 关于chrome 中查看。

下载完成后,需要将chromedriver放到系统可以找到的路径下,

如果是Window系统,Windows下配置Chrome WebDriver

如果是MacOS系统,则在命令行中依次输入:

cd /usr/local/bin

open .

然后将下载好的chromedriver文件拖入到此目录下。

至此,如果一切进展顺利,我们就成功完成了爬虫运行环境的配置工作。

接下来就是指使小蜘蛛为我们爬取微博数据的时候啦~

运行爬虫代码

  1. 创建一个你可以找到路径的文件夹
  2. 在命令行中,访问该文件夹

  3. 跳转到你的文件夹之后,在命令行中运行以下代码,就把远程仓库中的爬虫代码克隆到你的电脑上啦~

    git clone git@github.com:jyjcdd/jyjcdd.github.io.git
    
  4. 进入爬虫代码文件夹

    cd jyjcdd.github.io
    
  5. 在命令行中输入代码运行爬虫

    ⚠️ 如果你之前没有接触过代码,请先看代码解释!

    python weiboExcel.py jydd 2020 01 6 [uername] [password]
    

    ⚠️ 代码解释:
    python weiboExcel.py 代表用python运行weiboExcel.py文件

    jydd 代表你要抓取的范围,现有范围为:

    jydd — 就业大队 | xqxz — 消歧小组 | hwzs — 海外之声
    

    2020 01 代表你要抓取的年份和月份

    6 代表当前这个月所发微博的页数,需要到微博查看

    [username] [password] 是大队的微博登录账号和密码

如果一切进展顺利,爬虫将会开始执行代码,然后爬取微博数据啦~

如果进展不顺利,那就多拜拜雍正让他治一治bug吧~