Skip to content

QQ 空间爬虫,基于 selenium 模拟登录空间,破解滑动验证码,拿到 cookies,然后使用 requests 抓取好友留言板的所有留言与回复,并生成词图。只抓了留言,本来还想抓说说,不过因为我已经好多年不玩 QQ 空间,感觉它对我已经没什么意义了,遂作罢。

Notifications You must be signed in to change notification settings

luolongfei/qzone-spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

23 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

闲话

QQ 空间爬虫,基于 selenium 模拟登录空间,拿到 cookies,然后使用 requests 抓取好友留言板的所有留言与回复,并生成词图。只抓了留言,本来还想抓说说,不过因为我已经好多年不玩 QQ 空间,感觉它对我已经没什么意义了,遂作罢。

演示

这是我初中老号的留言板词云图,这个号已经弃用很多年了,里面黑历史满满,回忆满满,时间过得真他妈快。

我初中老号的留言板词云图

使用

获取源码

$ git clone https://github.com/luolongfei/qzone_spider.git qzone_spider/
$ cd qzone_spider/

安装依赖包

$ pip install -r requirements.txt

配置

# 复制配置
$ cp .env.example .env

# 根据 .env 文件中的注释,将其中对应的项目改为你自己的
$ vim .env

抓取

$ python qzone_spider.py

注意:chromedriver 路径需要根据你本地浏览器的实际情况填写,这个玩意儿必须和你浏览器版本相对应,否则启动不了。你可以去 https://chromedriver.chromium.org/downloads 下载对应的 chromedriver 版本,并在 .env 文件中指明 chromedriver 执行文件的路径。

参考

开源协议

MIT

About

QQ 空间爬虫,基于 selenium 模拟登录空间,破解滑动验证码,拿到 cookies,然后使用 requests 抓取好友留言板的所有留言与回复,并生成词图。只抓了留言,本来还想抓说说,不过因为我已经好多年不玩 QQ 空间,感觉它对我已经没什么意义了,遂作罢。

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published