humanSpider

simple python spider util


License
BSD-3-Clause
Install
pip install humanSpider==0.0.1

Documentation

humanSpider

人性化分布式实时监控爬虫框架

概述

该框架致力于解决爬虫的通用性、部署、监控和管理,让爬虫工作更简单

模块

  • 爬虫框架模块 模仿webMagic的爬虫框架(接近完成),食用方法也相似.

    • 爬虫配置
      • 通过代码配置(完成)
      • 通过文件配置(待完成)
    • 爬虫状态
      • 活动的爬虫数(完成)
      • 成功任务数(完成)
      • 失败任务数(完成)
      • 机器性能监控(待完成)
    • 爬虫核心功能
      • 代理(支持)
      • 自动重试(支持)
      • 常见请求参数设置(支持,详见源码)
      • 多线程(支持)
    • 爬虫热启动支持(待完成)
    • 多进程支持(待完成)
    • 分布式支持(待完成)
  • 后台服务(待完成)

    • 爬虫配置
    • 爬虫控制(停止,启动,暂停)
    • 状态展示
    • 单机部署
    • 分布式部署

爬虫例子

JDSpider