爬虫
五维生物
这个作者很懒,什么都没留下…
展开
-
正则表达学习笔记
1. 基础^b代表字符串必须以b开头3$代表必须以3结尾.代表任意字符*代表前面字符可以重复任意多次1+代表1至少出现一次(w.{2}w)w与w中间的字符出现2次{3,}最少3次{3,6}最少3次,最多6次import reline = "wuwei123"regex_str = "^w.*3$" if re.match(regex_str, line): print...原创 2019-07-25 10:22:53 · 188 阅读 · 0 评论 -
Googlebot研究报告
引言以前看别人爬虫的时候,直接设置ROBOTSTXT_OBEY = False就完事了,却不知道那是什么东西。此报告即是对Googlebot相关的研究。工程结构及关键代码图片链接可改进内容1. robots.cc 354使用’strlen(str)> 0’构造来识别空字符串,不如检查:str [0]!=’\ 0’。如果整个字符串不为空,则不必遍历整个字符串。Frombool...原创 2019-07-21 22:53:39 · 316 阅读 · 0 评论