微博爬虫数据

微博爬虫教程

如果遇到问题，可以在网上搜索相关提示；若依然无法解决，可到群里@楼楼

想要运行爬虫的代码，需要先在电脑上配置好运行环境，最首要的是安装Python:

⚠️安装Python的版本一定要3.x

↑这个链接跳转的是一个Python教程，如果没有接触过Python的小伙伴，可以从这个教程开始学习一下Python的基础语法呀~

请确保Python已经安装完成，再进行下述操作；是否成功安装的标准在上文链接中可以看到。

接下来，我们安装爬虫所需的库文件：selenium。

打开命令行

在命令行中输入以下代码：

pip install selenium

如果电脑中同时存在Python 2.x和3.x 则将上述代码改为：

pip3 install selenium

同时，在代码中因为需要将爬取的数据保存到Word及Excel中，因而还需要安装其所依赖的库文件。

依然是在命令行中，输入以下代码：

pip install xlwt xlrd xlutils docx

如果电脑中同时存在Python 2.x和3.x 则将上述代码改为：

pip3 install xlwt xlrd xlutils docx

安装完爬虫依赖的库文件后，我们还需要安装 Chrome驱动：

找到你电脑中chrome对应的版本下载，若非对应版本有一定几率会报错。

chrome的版本可以在chrome 右上角三个点 -> 设置 -> 关于chrome 中查看。

下载完成后，需要将chromedriver放到系统可以找到的路径下，

如果是MacOS系统，则在命令行中依次输入：

cd /usr/local/bin

open .

然后将下载好的chromedriver文件拖入到此目录下。

至此，如果一切进展顺利，我们就成功完成了爬虫运行环境的配置工作。

接下来就是指使小蜘蛛为我们爬取微博数据的时候啦~

创建一个你可以找到路径的文件夹
在命令行中，访问该文件夹
- Win系统下，CMD如何切换目录
- MacOS系统下，mac怎么使用终端cd到这个目录下的命令
跳转到你的文件夹之后，在命令行中运行以下代码，就把远程仓库中的爬虫代码克隆到你的电脑上啦~
```
git clone git@github.com:jyjcdd/jyjcdd.github.io.git
```
进入爬虫代码文件夹
```
cd jyjcdd.github.io
```
在命令行中输入代码运行爬虫

⚠️ 如果你之前没有接触过代码，请先看代码解释！
```
python weiboExcel.py jydd 2020 01 6 [uername] [password]
```
⚠️ 代码解释：
python weiboExcel.py 代表用python运行weiboExcel.py文件

jydd 代表你要抓取的范围，现有范围为:
```
jydd — 就业大队 | xqxz — 消歧小组 | hwzs — 海外之声
```
2020 01 代表你要抓取的年份和月份

6 代表当前这个月所发微博的页数，需要到微博查看

[username] [password] 是大队的微博登录账号和密码

如果一切进展顺利，爬虫将会开始执行代码，然后爬取微博数据啦~

如果进展不顺利，那就多拜拜雍正让他治一治bug吧~