爬虫
荒城以北
这个作者很懒,什么都没留下…
展开
-
万维网基础知识总结
一.什么是万维网: 万维网是一个大规模的,联机式的信息存储所,英文简称Web。二.超文本,超媒体: 所谓超文本是指包括制定其它文档的链接的文本(text)。 所谓超媒体是指出了包涵文档text之外,还包含其它表示方式的信息,如图形,图像,声音,动画,视频图像等。三.实现万维网需要的几个必须解决的关键问题 1.怎样标志分布在整个互联网上的万维网文档?-----》URL URL(统一资源定为符) 资源位置和访问这些资源的方法;资源地址;互联网上的所有原创 2020-06-05 17:30:48 · 4447 阅读 · 0 评论 -
爬虫基础代理ip cookie&session
1. Response常用的属性response.headers 响应头rsponse.request.headers 请求头response.status_code 状态码response.request.url 请求的urlresponse.url 响应的url2. 带headers的请求headers = {"User-Agent":"从浏览器复制"}request.ge...原创 2019-01-09 18:41:01 · 338 阅读 · 0 评论 -
爬虫-某直播平台图片批量爬取url并下载
import jsonimport timeimport requestsfrom selenium import webdriverclass HuYa(object): def __init__(self): self.start_url = "https://www.hxyx.com/l"#某直播平台的url地址"x"为缺省值:地址自己定义 ...原创 2019-01-15 21:23:58 · 3062 阅读 · 0 评论 -
爬虫----selenium和xpath的使用
selenium在淘宝镜像中下载指定的chromedriver,windwos的用户将其放在 虚拟环境的scripts或者python3的环境文件中,总之要和python.exe同级目录,Linux和Mac用户放入/usr/local/bin目录下selenium入门pip install seleniumfrom selenium import webdirverdriver =...原创 2019-01-15 21:31:15 · 2449 阅读 · 4 评论 -
bloom布隆过滤器
布隆过滤器哈希函数的特性:输入域无限,输出域有限相同的输入一定得到相同的输出结果不同的输入也可能得到相同的输出结果(哈希碰撞)输出域的每个结果在整个输出域中是均分分布的(离散性)哈希表哈希表又称为散列表、链表散列等,由列表+链表构成,每个列表的元素项都是一个链表,在python中,字典(dict)就是利用哈希表结构实现的,链表中的每个结点就是一个键值对当向哈希表插入一个(ke...原创 2019-01-27 13:32:34 · 356 阅读 · 0 评论 -
最全爬虫总结没有之一拿走不谢
爬虫总结1. 爬虫流程?准备url列表发起请求、获得响应提取数据,提取url放入url列表保存数据聚焦爬虫的流程注意:提取的数据以url对应的响应为准,浏览器element只能作为参考2. requests的使用pip install requests2.1 基本使用resp = request.get(url,headers=headers,params=parma...原创 2019-01-27 18:39:08 · 1627 阅读 · 0 评论 -
苏宁图书爬取
苏宁图书爬取:创建项目工程:Scrapy startprojeect suning(项目名称)创建爬虫:Scrapy genspider sn book.suning.com获取大分类的分组:div_list = response.xpath("//div[@class=‘menu-list’]/div[@class=‘menu-item’]")4. 获取大分类下面的子菜单:d...原创 2019-01-27 19:29:47 · 809 阅读 · 0 评论 -
mongodb数据库 linux端常用操作
比较运算符⼩于:$lt (less than)⼩于等于:$lte (less than equal)⼤于:$gt (greater than)⼤于等于:$gte不等于:$nedb.stu.insert([{“name” : “郭靖”, “hometown” : “蒙古”, “age” : 20, “gender” : true },{“name” : “⻩蓉”, “hometown”...原创 2019-01-16 20:39:13 · 171 阅读 · 0 评论 -
爬虫,爬bing图片搜索,给定关键词,多线程爬虫,图片
爬虫,爬bing图片搜索,给定关键词,多线程爬虫,图片哗啦啦的来#####utf-8import urllib.requestimport urllib.parseimport osimport reimport sys,threading,timeimport socketclass Bing: def openurl(self,url): tml=ur...原创 2019-03-14 13:21:17 · 1282 阅读 · 3 评论 -
爬虫--多线程-多进程-协程以及池的使用
多线程线程的创建和运行import threadingdef task(num): passt = threading.Thread(target=task,args=(num,))t.start()守护线程一般情况下,主线程代码执行完毕后不会结束,会等待所有子线程任务结束后才结束如果将子线程设置为守护线程,意味着:主线程代码执行完毕,主线程和子线程一起立即结...原创 2019-01-14 17:18:34 · 351 阅读 · 0 评论 -
爬虫基础 requests
爬虫基础 requests1. 爬虫的用途爬去数据用做网站展示爬去数据用来为大数据或者人工智能服务2. 什么是爬虫?模拟浏览器发送请求,获取响应的程序3. 爬虫的分类3.1 通用爬虫搜索引擎的爬虫,爬去整个互联网的数据3.2 聚焦爬虫针对特定网站专门写的抓取数据的程序聚焦爬虫的流程准备url列表拿到一个url发起请求,获取响应响应提取提取的是数据,数据保存...原创 2019-01-08 20:45:20 · 184 阅读 · 0 评论 -
爬虫的概念
爬虫的概念爬虫就是:模拟浏览器发送网络请求,获取请求响应爬虫的流程url – > 发送请求,获取响应---->提取数据—》保存获取响应 --》提取url地址,继续请求浏览器的请求过程浏览器获取的数据包含:url地址对应的响应+js+css+jpg爬虫会获取:url地址对应的响应爬虫获取的内容和elements内容不一样,进行数据提取的时候,需要根据url地址对应的响应为...原创 2019-01-11 10:54:58 · 102 阅读 · 0 评论 -
response
发送带headers的请求headers = {“User-Agent”:“从浏览器中复制”}requests.get(url,headers=headers)发送带参数的请求params = {"":""}url_temp = “不完整的URL地址”requests.get(url_temp,params=params)列表推导式In [41]: [i for i in rang...原创 2019-01-11 10:56:29 · 97 阅读 · 0 评论 -
Cookie&form
三元运算符if 条件成立,if前面的结果赋值给to,否则else后面的内容赋值给toto = "en" if lan=="zh" else "zh"requests进行携带cookie登录cookie字符串放在headers中把cookie字典交给requests请求方法的cookies字典推导式In [8]: {i:i+10 for i in range(10)}Out[...原创 2019-01-11 10:57:51 · 227 阅读 · 0 评论 -
闭包
原创 2019-01-11 16:01:09 · 90 阅读 · 0 评论 -
requests 爬虫
三元运算符a = b if b else c # 如果b为真,a=b,否则a=cif b: a = belse: a = crequests处理cookies将cookie字符串直接放入headers中准备cookie字典,在requests请求实传入cookies参数中cookies_dict = {}requests.get(url,headers=hea...原创 2019-01-12 09:03:51 · 326 阅读 · 0 评论 -
豆瓣爬取
import requestsimport jsonclass Douban(object):def init(self):#api接口请求地址#Request URL: https://m.douban.com/rexxar/api/v2/subject_collection/tv_american/items?os=ios&for_mobile=1&callback=...原创 2019-01-12 09:32:01 · 491 阅读 · 0 评论 -
爬虫-正则表达式-lxml$xpath
1. 正则表达式1.1 单个字符\d 数字0-9\s 空白字符 空格 \t \n\w 单词字符. 除了\n的任意字符[a-d0-9] 匹配a-d或者0-9中任意一个1.2 多个字符{m,n}前一个字符出现m-n次(包含m和n)* 匹配前一个字符任意次(0,1,多次)+ 匹配前一个字符至少一次(1或者多次)? 匹配前一个字符0次或1次1.3 re模块re.fin...原创 2019-01-13 21:18:56 · 556 阅读 · 0 评论 -
爬虫中seeting中的设置
一、setting 自动生成的内容含义-- coding: utf-8 --Scrapy settings for taoCarTest projectFor simplicity, this file contains only settings considered important orcommonly used. You can find more settings consu...原创 2019-01-19 11:11:01 · 597 阅读 · 0 评论 -
关于爬虫里面的Cookie
requests 进行cookie携带登录把cookie放到headers中直接登录获取数据把cookie单独拿出来利用字符串切割转换成字典然后放到请求的url中进行请求响应获取参数;cookie_dict = {}requests.get(url, headers = headers = headers, cookies = cookie_dict)三元运算符a = b if ...原创 2019-01-11 10:52:57 · 743 阅读 · 0 评论