爬虫
PoorYoung
这个作者很懒,什么都没留下…
展开
-
Python with as
with as 1.基本思想是with所求值的对象必须有一个__enter__()方法,一个__exit__()方法。 2.紧跟with后面的语句被求值后,返回对象的__enter__()方法被调用,这个方法的返回值将被赋值给as后面的变量。当with后面的代码块全部被执行完之后,将调用前面返回对象的__exit__()方法。 class Sample: def __enter__(sel...原创 2018-12-17 20:49:11 · 348 阅读 · 0 评论 -
完整爬虫
主要代码: import random import requests from fake_useragent import UserAgent from retrying import retry #重置下载 import hashlib #信息摘要算法 md5 import queue #队列 import re #正则 from urllib import robot...原创 2018-12-22 19:34:31 · 320 阅读 · 0 评论 -
爬虫 爬糗事百科前十页内容
import requests class QiuShi: def __init__(self): """ 初始化必要参数,完成基础设置 :param qiusshi_name_craw: """ # self.qiushi_name = qiushi_name_craw self.url..原创 2018-12-18 20:03:37 · 188 阅读 · 0 评论 -
抓取网页中的十个IP http://datamining.comratings.com/exam
解题思路 1.把网页里面的js反混淆,查看源码,里面有session生成算法 2.用python重写session生成算法 3.利用session把网页里面的数据抓取下来 4.利用xpath,正则等把真正的IP筛选出来 在<style></style>里面定义的有四个属性,去除含有这四个属性的标签和‘display:none’的标签,把真正的IP筛选出来 解题代码: ...原创 2018-12-26 09:03:22 · 548 阅读 · 0 评论