自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

你真有意思的博客

努力成为码农,再成为程序员

  • 博客(11)
  • 收藏
  • 关注

原创 python爬虫表单总结

动态内容,ajax的数据在XHR里面,刷新可以查看新抓的包里面有没有自己想要的数据。IF-TargetVerb: POSTIF-TargetContent: [{"Lbl":"attachmentWrapper","Src":"div.InFlightAttachment:first","Data":"null","HWA":".","Ch

2018-05-28 17:14:56 1242

原创 wordcloud库

安装:http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud下载python -m pip install wordcloud-1.4.1-cp36-cp36m-win_amd64.whlw = wordcloud.WordCloud(<参数>)参数:width(默认400)、heigth(默认200)、min_font_size(默认...

2018-05-10 21:05:49 921

原创 关于爬虫错误信息

1.raise ValueError('Missing scheme in request url: %s' % self._url)结局问题: 1.下载图片files_url需要list类型       2.http不要忘记加

2018-05-09 15:13:39 346

原创 dateutil库

安装:pip install python-dateutil导入:from dateutil.parser._parser import parse方法:parse(strtime).timestamp()#时间戳,浮点数类型          parse(strtime).date()#字符串类型...

2018-05-07 12:44:34 638

原创 jieba库

精    确   模式:jieba.lcut(s)#不存在冗余全    模      式:jieba.lcut(s,cut_all = True)#存在冗余搜索引擎模式:jieba.lcut_for_search(s)#存在冗余

2018-05-06 22:23:36 504

原创 scrapy连接myqsl

在pipeline中:def __init__(self): self.connect = pymysql.connect( host='localhost', port=3306, db='****', user='root', passwd='****', charset='utf8') ...

2018-05-06 14:02:20 1262

原创 RIDES

github下载地址:https://github.com/MSOpenTech/redis/tags启动命令redis-server redis.windows.conf启动失败:连接失败:1.redis-cli.exe2.shutdown3.exit4.redis-server redis.windows.conf设置服务命令redis-server --service-install red...

2018-05-04 16:01:36 2630

原创 XPATH

今天学习了scrapy中的spiders部分,爬虫名name,start_url起始点,以及xpath的语法:nodename选取此节点的所有子节点。/从根节点选取。//从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。.选取当前节点。..选取当前节点的父节点。@选取属性。bookstore选取 bookstore 元素的所有子节点。/bookstore选取根元素 bookstore。注释...

2018-05-03 15:48:18 262

原创 scrapy框架

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。安装scrapy的时候用的是pip安装的,一直报错twisted,于是下载Twisted.whl再pip install Twisted也是失败,必须到文件所在位置,再pip install Twisted-18.4.0-cp36-cp36m-win32.whl才成功Scrapy运行流程大概如下:引擎从调度器中取出一个链接(URL...

2018-05-02 11:35:27 184

原创 HTTP首部字段

通用首部字段Cache-Control 控制缓存的行为Connection 逐跳首部、连接的管理Date 创建报文的日期时间Pragma 报文指令Trailer 报文末端的首部一览Transfer-Encoding 指定报文主体的传输编码方式Upgrade 升级为其他协议Via 代理服务器的相关信息Warning 错误通知请求首部字段Accept 用户代理可处理的媒体类型Accept-Charse...

2018-05-02 08:20:24 219

原创 HTTP状态码

200 ok204 no content206 partial content301 Moved Permanently永久性重定向。该状态码表示请求的资源已被分配了新的 URI,以后应使用资源现在所指的 URI。302 Found临时性重定向。该状态码表示请求的资源已被分配了新的 URI,希望用户(本次)能使用新的 URI 访问。303 See Other该状态码表示由于请求对应的资源存在着另一...

2018-05-02 08:18:42 115

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除