Zpider

这里是Zpider的说明文档，您也可以访问这里 Github-Zpider 查看更多. ##Introduction Zpider是一个非常简单的爬虫库，底层使用的是pysocks，使用socket.http连接方式，进行get和post请求。在请求方式上采用的发送报文的方法。内容上还有许多不足，但是在爬取简单的小网站时，还是可以的，在爬取比较正规的网站时。会因为报文头部的格式的问题无法正确的连接，后续的改进会在头部信息进行优化。 ##Config 配置文件里存放了部分的user-agent代理头供选择 ##GET 该方法包括了六个参数：url, user_agent, proxy_ip, timeout, retry, cookies
url：请求的连接地址
user_agent：默认False不使用代理头，default使用配置文件的代理头，或者自行填写
proxy_ip：默认False不使用代理ip，否则为":"格式传参
timeout：设置链接时长，默认3s
retry：重新连接次数，默认3次
cookies：设置cookie，格式为字典格式
该方法返回一个字典键值为：status, header, text, etree, content
status：服务端响应状态
header：为服务端响应头部
text：解码之后的Html信息，字符串格式
etree：html的树型结构，支持xpath路径直接获取元素
content：未解码的数据，供于文件下载 ##POST POST方法和GET方式的形式大同小异
该方法包括了六个参数：url, data, user_agent, proxy_ip, timeout, retry, cookies
url：请求的连接地址
data：发送报文的正文内容，格式为字典类型
user_agent：默认False不使用代理头，default使用配置文件的代理头，或者自行填写
proxy_ip：默认False不使用代理ip，否则为":"格式传参
timeout：设置链接时长，默认3s
retry：重新连接次数，默认3次
cookies：设置cookie，格式为字典格式
该方法返回一个字典键值为：status, header, text, etree, content
status：服务端响应状态
header：为服务端响应头部
text：解码之后的Html信息，字符串格式
etree：html的树型结构，支持xpath路径直接获取元素
content：未解码的数据，供于文件下载

Zpider
Release 0.0.2

Release 0.0.2

0.0.2

0.0.1

Documentation

Zpider

Stats

Development practices

Releases

Contributors

Zpider Release 0.0.2

Release 0.0.2 Toggle Dropdown 0.0.2 0.0.1

Documentation

Zpider

Stats

Development practices

Releases

Contributors

Zpider
Release 0.0.2

Release 0.0.2

0.0.2

0.0.1