Name		Name	Last commit message	Last commit date
Latest commit History 34 Commits
templates		templates
.gitignore		.gitignore
README.md		README.md
app.py		app.py
config.py		config.py
dbmixin.py		dbmixin.py
proxy_list.txt		proxy_list.txt
requirements.txt		requirements.txt
spider.py		spider.py
utils.py		utils.py

Repository files navigation

说明

用于爬取豆瓣小组的爬虫。
此爬虫我主要用于了爬取豆瓣租房小组的帖子，支持关键字搜索以及发帖、更新时间排序。

依赖

gevent
pymongo
requests
lxml
Flask
boostrap

具体版本参见`requirements.txt`

特别说明

由于豆瓣有防抓机制，故此爬虫使用了代理爬取，防止被封IP。
可从网上收集代理IP，放在项目路径下proxy_list.txt。
每个一行，程序会自动加载，且可以自动定时加载新代理。
或者参考我的代理采集器，自动采集代理。
如果程序运行发现总是出现超时或者403，请更换proxy_list.txt下的代理。

使用

安装MongoDB，具体参考安装文档。
建议使用virtualenv环境
pip install -r requirements.txt
启动爬虫
nohup python spider.py >> douban_spider.log &
启动web服务
nohup python app.py >> app.log &
查看页面
http://localhost:5000

配置

参数配置见config.py，例如MongoDB地址、并发数、爬取页数等。

About

爬取豆瓣小组帖子的爬虫。

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 74.5%
HTML 25.5%