业务-网络爬虫
吓人的鸟
程序员
展开
-
关于web页面清洗的一些记录,杂乱、待梳理和深入
页面模板匹配,开源库,web页面清洗 是否可以考虑提供一个样本页面,由用户选中要提取的数据块,程序再把所有类似页面中该数据块所在位置的数据提取出来? 页面清洗器 WPAR,Webwiper,JunkBuster html解析器 CyberNeko HTML Parser 页面清洗(http://hi.baidu.com/vanjor/blog/item/原创 2012-06-03 00:31:30 · 2262 阅读 · 0 评论 -
casperjs小结
官网http://casperjs.org/环境:[dongsong@localhost ~]$ casperjs --version1.0.0-RC2[dongsong@localhost ~]$ phantomjs --version1.7.01.casperjs按照start()、then*()、wait*()、open()等流程往下做导航(注意,如果有原创 2012-07-12 06:47:58 · 14844 阅读 · 5 评论 -
新浪开放平台---用code获取access_token(oauth2)
# -*- coding: utf-8 -*-import urllib2, urllibappKey = "you guess number"appSecret = "you guess"redirectUri = "http://www.centos6.com:8000/youguess/bind/"code = "you guess"if __name__ == "__ma原创 2012-05-31 19:37:42 · 3347 阅读 · 0 评论 -
新浪开放平台---oauth2认证流程 casperjs自动登录和授权 api需要注意的问题及bug
官网 http://open.weibo.com/API http://open.weibo.com/wiki/API%E6%96%87%E6%A1%A3_V2SDK http://open.weibo.com/wiki/SDK商业API http://open.weibo.com/wiki/Business_API%E6%96%87%E6%A1%A3一、OAuth认证原创 2012-05-26 20:40:28 · 7412 阅读 · 2 评论 -
python学习笔记
官网http://www.python.org/官网library http://docs.python.org/library/中文手册,适合快速入门 http://download.csdn.net/detail/xiarendeniao/4236870python cook book中文版 http://download.csdn.net/detail/XIAREND原创 2011-09-14 06:49:57 · 75359 阅读 · 6 评论