humanSpider

simple python spider util


License
BSD-3-Clause
Install
pip install humanSpider==0.0.1

Documentation

humanSpider

人性化分布式实时监控爬虫框架

概述

该框架致力于解决爬虫的通用性、部署、监控和管理,让爬虫工作更简单

模块

 • 爬虫框架模块 模仿webMagic的爬虫框架(接近完成),食用方法也相似.

  • 爬虫配置
   • 通过代码配置(完成)
   • 通过文件配置(待完成)
  • 爬虫状态
   • 活动的爬虫数(完成)
   • 成功任务数(完成)
   • 失败任务数(完成)
   • 机器性能监控(待完成)
  • 爬虫核心功能
   • 代理(支持)
   • 自动重试(支持)
   • 常见请求参数设置(支持,详见源码)
   • 多线程(支持)
  • 爬虫热启动支持(待完成)
  • 多进程支持(待完成)
  • 分布式支持(待完成)
 • 后台服务(待完成)

  • 爬虫配置
  • 爬虫控制(停止,启动,暂停)
  • 状态展示
  • 单机部署
  • 分布式部署

爬虫例子

JDSpider