爬虫者的贴心助手


Keywords
python, requests, spider
License
MIT
Install
pip install wauo==0.5.6

Documentation

更新历史

  • 新增jsonp2json静态方法
  • 爬虫默认保持会话状态
  • 新增get_uuidbase64加解密静态方法
  • 删除download_textdownload_bdata,合并为download
  • 新增update_default_headers方法
  • make_md5支持字符串二进制参数,并且可以加盐

项目说明

  • 基于requests封装的一个爬虫类

Python解释器

  • python3

如何使用?

from wauo import WauoSpider

spider = WauoSpider()

GET

url = 'https://github.com/markadc'
resp = spider.send(url)
print(resp.text)

POST

使用data参数

api = 'https://github.com/markadc'
data = {
    'key1': 'value1',
    'key2': 'value2'
}
resp = spider.send(api, data=data)

使用json参数

api = 'https://github.com/markadc'
json = {
    'key1': 'value1',
    'key2': 'value2'
}
resp = spider.send(api, json=json)

限制响应

限制响应码

  • 如果响应码不在codes范围里则抛弃响应
resp = spider.send('https://github.com/markadc', codes=[200, 301, 302])

限制响应内容

  • 如果checker返回False则抛弃响应
def is_ok(response):
    html = response.text
    if html.find('验证码') != -1:
        return False


resp = spider.send('https://github.com/markadc', checker=is_ok)

为headers增加默认字段

  • 实例化的时候使用default_headers参数
例子1
  • 每一次请求的headers都带上cookie
spider = WauoSpider(default_headers={'Cookie': 'Your Cookies'})
resp = spider.send('https://github.com/markadc')
print(resp.request.headers)