![](https://img-blog.csdnimg.cn/20201014180756918.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
PoorYoung
这个作者很懒,什么都没留下…
展开
-
Python with as
with as1.基本思想是with所求值的对象必须有一个__enter__()方法,一个__exit__()方法。2.紧跟with后面的语句被求值后,返回对象的__enter__()方法被调用,这个方法的返回值将被赋值给as后面的变量。当with后面的代码块全部被执行完之后,将调用前面返回对象的__exit__()方法。class Sample: def __enter__(sel...原创 2018-12-17 20:49:11 · 327 阅读 · 0 评论 -
完整爬虫
主要代码:import randomimport requestsfrom fake_useragent import UserAgentfrom retrying import retry #重置下载import hashlib #信息摘要算法 md5import queue #队列import re #正则from urllib import robot...原创 2018-12-22 19:34:31 · 301 阅读 · 0 评论 -
爬虫 爬糗事百科前十页内容
import requestsclass QiuShi: def __init__(self): """ 初始化必要参数,完成基础设置 :param qiusshi_name_craw: """ # self.qiushi_name = qiushi_name_craw self.url..原创 2018-12-18 20:03:37 · 163 阅读 · 0 评论 -
抓取网页中的十个IP http://datamining.comratings.com/exam
解题思路1.把网页里面的js反混淆,查看源码,里面有session生成算法2.用python重写session生成算法3.利用session把网页里面的数据抓取下来4.利用xpath,正则等把真正的IP筛选出来在<style></style>里面定义的有四个属性,去除含有这四个属性的标签和‘display:none’的标签,把真正的IP筛选出来解题代码:...原创 2018-12-26 09:03:22 · 526 阅读 · 0 评论