Spider.io

极简网络蜘蛛爬虫，适用任何网站，只需设置一条规则，就可以把你想要网站上的内容整理出来，非常方便，简单！

使用说明

npm install spider.io --save

const Spider = require("spider.io");
new Spider({
  callback: function(hash, data) {
    console.log(hash, data);
  },
  run: true //立即运行
});

OR

const Spider = require("spider.io");
new Spider({
  callback: function(hash, data) {
    console.log(hash, data);
  }
}).run();

参数说明

参数格式如下

const options = {
  init: {
    debug: false,
    delay: 1000,
    timeout: 5000,
    retrys: 3,
    threads: 1,
    loop: false
  },
  links: {
    title: "",
    hash: "",
    url: "",
    rules: [
      // 列表类型的数据，带下一级处理
      {
        list: "a",
        rule: {
          url: {
            // 同级包含links的，必须有此参数
            type: "href",
            text: ""
          },
          title: {
            type: "text",
            text: ""
          }
        },
        links: []
      },
      // 普通类型的数据
      {
        rule: {
          url: {
            // 同级包含links的，必须有此参数
            type: "href",
            text: ""
          },
          title: {
            type: "text",
            text: ""
          }
        }
      },
      // 数组形式的数据
      {
        key: "",
        list: "",
        rule: {
          url: {
            // 同级包含links的，必须有此参数
            type: "href",
            text: ""
          },
          title: {
            type: "text",
            text: ""
          }
        }
      },
      // 自定义处理返回数据，会合并上一级数据
      {
        cb: ($, init) => {
          // $ -> 为格式化的dom对象，可以直接操作，语法规则请查看 jQuery
          // init -> {hash, data}
          // ...code
          // 如果同级包含links，必须要有返回值，并且要包含url；可以返回 array 或 object
          // return [{url: ''}] or {url: ''};
        }
      }
    ]
  },
  callback: (hash, data) => {
    // 数据以单条记录返回，并不会一次返回所有值
  },
  done: () => {
    // 全部处理完毕后回调该函数
  }
};

init (主参数）

参数名	使用说明	默认值
debug	输出调试信息，包括（网站访问时间，网站访问的内容)	false
delay	设置每个网站之间访问延迟	1000
timeout	设置网站访问超时时间	5000
retrys	设置网站访问重试次数	3
threads	设置线程数	1
loop	结束后是否自动重新开始	false

headers (主参数）(具体说明请查看 superagent）

links (主参数）

参数名	使用说明	类型	必须
title	用于说明规则的作用	text	×
hash	用作识别码，在 callback 中完全返回	不限制	×
url	访问的网址	text/array	√
rules	应用于当前网址的规则	array/object	√
max	当 url 中包含{i}时，设置 i 的最大值	number	×
min	当 url 中包含{i}时，设置 i 的最小值, 设置此值必须要设置 max，此默认值：1	number	×

rules

参数名	使用说明	类型	必须
list	设置列表开始地址	text	×
rule	设置获取的内容	array/object	×
links	对于上一层的循环事件中连接另一规则	array/object	×
cb	直接用函数操作，必须要返回值，$为格式化网站内容，必须要返回值	function($)	×

rule （使用 jquery 选择器规则）

参数名	使用说明	类型
key	返回值为<key><text>位置的<type>属性值	text

使用方法：

{
    <key>: {
        type: 'text|val|html|href|src|....', //可以自己设置属性
        text: ''                             //对于循环事件中，可以不设置值
    }
}

links

在使用 links 时，此规则中必须包含 list，并且 rule 中必须包含<key>为 url
在连接的规则中会自动将列表中获取的 url，对 links 的 url 逐个替换，生成新的规则。

callback (主参数）

获取数据后的返回函数，返回值：

参数名	使用说明	类型
hash	返回该条规则中设置的 hash，不做处理，直接返回，用作规则识别	不限制
data	逐个返回最后一层获取的数据	json

Name		Name	Last commit message	Last commit date
Latest commit History 92 Commits
.idea		.idea
bin		bin
libs		libs
python/getHtml		python/getHtml
test		test
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
package.json		package.json
spider.js		spider.js

License

Ireoo/spider.npm

Folders and files

Latest commit

History

Repository files navigation

Spider.io

最新更新

v5.0.9 [2019/7/8]

v5.0.8 [2019/7/8]

v5.0.7 [2019/7/7]

v5.0.6 [2018/11/21]

v5.0.3 [2018/11/18]

v5.0.0 [2018/4/14]

v4.2.7

使用说明

参数说明

参数格式如下

init (主参数）

headers (主参数）(具体说明请查看 superagent）

links (主参数）

rules

rule （使用 jquery 选择器规则）

links

callback (主参数）

About

Topics

Resources

License

Stars

Watchers

Forks

Languages