原文地址:http://board.locoy.com/api.htm
Url参数格式列表如下:
注意:以下示例中省略type,user,pwd这三个参数。
a、所有的请求返回结果格式都可以是Xml或Json的,默认的类型在服务器启动参数里设置,也可以通过type=xml或type=json参数强制指定。
b、在服务器不允许匿名访问的情况下,所有请求Url中必须包含user和pwd这2个参数!
1 操作任务
操作 | mothed | 备注 | 样例 |
---|---|---|---|
查看所有任务 | get | http://127.0.0.1:888/api?model=job&action=list | |
启动任务 | get | http://127.0.0.1:888/api?model=job&action=start&jobid=1 | |
暂停任务 | get | http://127.0.0.1:888/api?model=job&action=pause&jobid=1 | |
停止任务 | get | http://127.0.0.1:888/api?model=job&action=stop&jobid=1 | |
下载任务 | get | http://127.0.0.1:888/api?model=job&action=get&jobid=1 | |
永久更新任务 | post | 上传ljobx格式文件,表单名rulefile | http://127.0.0.1:888/api?model=job&action=update&jobid=1 |
临时更新任务 | post | 上传规则xml文件,表单名jobxmlfile | http://127.0.0.1:888/api?model=job&action=tempupdate&jobid=1 |
重新加载任务 | get | 从数据库中重新加载任务 | http://127.0.0.1:888/api?model=job&action=refresh&jobid=1 |
删除任务 | get | http://127.0.0.1:888/api?model=job&action=delete&jobid=1 | |
创建任务 | post | 上传ljobx格式文件,表单名rulefile,站点id为siteid | http://127.0.0.1:888/api?model=job&action=create |
更新任务运行状态 | get | 必须包含采网址spiderurl、采内容spidercontent、发内容outcontent三个选项中一个,其中1为选中,其它为不选中 | http://127.0.0.1:888/api?model=job&jobid=304&action=changestatus&spiderurl=1&spidercontent=1&outcontent=1 |
2 计划任务
操作 | mothed | 备注 | 样例 |
---|---|---|---|
查看所有计划任务 | get | http://127.0.0.1:888/api?model=scheduler&action=list | |
查看计划任务 | get | http://127.0.0.1:888/api?model=scheduler&action=view&jobid=1 | |
创建计划任务 | post | http://127.0.0.1:888/api?model=scheduler&action=create&jobid=1 | |
更新计划任务 | post | 计划任务表单名为cron | http://127.0.0.1:888/api?model=scheduler&action=update&jobid=1 |
删除计划任务 | get | http://127.0.0.1:888/api?model=scheduler&action=delete&jobid=1 |
3 查看采集数据
操作 | mothed | 备注 | 样例 |
---|---|---|---|
查看采集数据 | get | http://127.0.0.1:888/api?model=data&action=view&pn=1&rn=20&jobid=1 | |
统计采集数据量 | get | opreator参数:0为全部数量,1为已采数量,2为未采数量,3为已发数量,4为未发数量 | http://127.0.0.1:888/api?model=data&action=count&opreator=1&jobid=1 |
4 分组操作
操作 | mothed | 备注 | 样例 |
---|---|---|---|
查看所有分组 | get | http://127.0.0.1:888/api?model=site&action=list | |
新建分组 | get | sitename为分组名,parentid为上级分类,根级为0 | http://127.0.0.1:888/api?model=site&action=create&sitename=testname |
5 正文提取
操作 | mothed | 备注 | 样例 |
---|---|---|---|
对链接内容进行正文提取 | get | pageurl参数,程序自动获取pageurl链接对应html源码,此参数不可缺少。returntype指定采集模式,pure纯净,raw完全。pagetype指定正文提取模式,bbs论坛问答模式。returntype和pagetype两个参数可缺少,returntype 的默认值为标准模式,pagetype默认值为新闻模式。 | http://127.0.0.1:888/api?model=text&pageurl=http://news.qq.com/a/20121212/123456.htm&returntype=pure&pagetype=bbs |
对源码内容进行正文提取 | get | html参数提交html源码,此参数不可缺少。returntype指定采集模式,pure纯净,raw完全。pagetype指定正文提取模式,bbs论坛问答模式。returntype和pagetype两个参数可缺少,returntype的默认值为标准模式,pagetype默认值为新闻模式。 | http://127.0.0.1:888/api?model=text&html=testhtml&returntype=raw&pagetype=bbs |
6 分词
操作 | mothed | 备注 | 样例 |
---|---|---|---|
对指定内容分词 | get | 指定内容用以wordsegtxt开头的参数提交,可提交多个分词内容。splitnum最高频词个数,提取前splitnum个最高频词,此参数可缺少,默认值为5。splitsep分隔符,对前splitnum个最高频词用分隔符splitsep连接。 | http://127.0.0.1:888/api?model=wordseg&wordsegtxt1=testtxt1&wordsegtxt2=testtxt2&splitnum=6&splitsep=| |
7 图片识别
操作 | mothed | 备注 | 样例 |
---|---|---|---|
对图片内容进行识别 | get | ocrfile为指定一个ocr的配置文件,该文件要放在采集器根目录Configuration/ocr目录下,文件名不带后缀的。 imgurl图片链接地址,此参数若有来源页可用参数refer指定。对于base64编码的图片用参数base64提交图片base64编码即可,用 base64参数时不能使用参数imgurl。 | http://127.0.0.1:888/api?model=ocr&ocrfile=test&imgurl=http://www.qincai.net/png/tele_1642174.png |
8 操作扩展任务
操作 | mothed | 备注 | 样例 |
---|---|---|---|
更新单条记录的单个值 | get | appname和jobid两个参数不可缺少,appname为扩展英文名,jobid为任务id。更新单条记录的单个值,参数action=updatedata,content为更新内容,labelname为更新字段(任务标签名),dataid为更新记录id。 | http://127.0.0.1:888 /api?model=app&appname=locoyspider&jobid=292& action=updatedata&content=test&labelname=内容&dataid=1 |
获取单条链接数据 | get | appname和jobid两个参数不可缺少,appname为扩展英文名,jobid为任务id。采集指定链接内容,pageurl为指定链接。 | http://127.0.0.1:888/api?model=app&appname=locoyspider&jobid=292&pageurl=http://news.qq.com/a/20121022/000983.htm |
9 关于
操作 | mothed | 备注 | 样例 |
---|---|---|---|
获取平台信息 | get | http://127.0.0.1:888/api?model=about |