网络爬虫
是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
缘 源 园
这个作者很懒,什么都没留下…
展开
-
get请求与post请求的一般区别
get方法用来请求资源 在url中传输实体数据 传输的数据量小(受浏览器限制)post方法 用来传输实体数据(本质上更专业) 在实体中传输数据 传输的数据量大原创 2021-05-10 23:42:30 · 75 阅读 · 0 评论 -
python爬虫
Requests用来获取页面BeautifulSoupurl=‘https://sh.lianjia.com/zufang/’需要先安装pip install requestspip install bs4谷歌浏览器检查,搜狗浏览器审查元素>>> import requests>>> from bs4 import BeautifulSoup>>> url='https://sh.lianjia....原创 2021-04-07 11:49:01 · 143 阅读 · 1 评论 -
python爬虫作函数封装
Python 3.8.2 (tags/v3.8.2:7b3ab59, Feb 25 2020, 22:45:29) [MSC v.1916 32 bit (Intel)] on win32Type "help", "copyright", "credits" or "license()" for more information.>>> import requests>>> from bs4 import BeautifulSoup>>> ur.原创 2021-03-30 17:40:44 · 306 阅读 · 0 评论 -
requests模块
1. requests模块介绍requests文档http://docs.python-requests.org/zh_CN/latest/index.html1.1 requests模块的作用:发送http请求,获取响应数据1.2 requests模块是一个第三方模块,需要在你的python(虚拟)环境中额外安装pip/pip3 install requests1.3 requests模块发送get请求 需求:通过requests向百度首页发送请求,获取该页面的..原创 2021-03-29 00:10:33 · 311 阅读 · 0 评论 -
http协议
一提起http协议,大家都会想起它是一个应用层协议,那么http协议跟爬虫有什么关系呢?请看下图:1. http以及https的概念和区别HTTPS比HTTP更安全,但是性能更低HTTP:超文本传输协议,默认端口号是80 超文本:是指超过文本,不仅限于文本;还包括图片、音频、视频等文件 传输协议:是指使用共用约定的固定格式来传递转换成字符串的超文本内容 HTTPS:HTTP + SSL(安全套接字层),即带有安全套接字层的超本文传输协,默认端口号:443 SSL对传输的内容原创 2021-03-29 00:10:09 · 149 阅读 · 0 评论 -
爬虫的流程
爬虫的基本流程如图所示获取一个url 向url发送请求,并获取响应(需要http协议) 如果从响应中提取url,则继续发送请求获取响应 如果从响应中提取数据,则将数据进行保存...原创 2021-03-29 00:09:52 · 146 阅读 · 0 评论 -
爬虫的分类
3.1 根据被爬取网站的数量不同,可以分为:通用爬虫,如 搜索引擎 聚焦爬虫,如12306抢票,或专门抓取某一个(某一类)网站数据3.2 根据是否以获取数据为目的,可以分为:功能性爬虫,给你喜欢的明星投票、点赞 数据增量爬虫,比如招聘信息3.3 根据url地址和对应的页面内容是否改变,数据增量爬虫可以分为: 基于url地址变化、内容也随之变化的数据增量爬虫 url地址不变、内容变化的数据增量爬虫 ...原创 2021-03-29 00:09:39 · 488 阅读 · 0 评论 -
爬虫的作用
爬虫在互联网世界中有很多的作用,比如: 数据采集 抓取微博评论(机器学习舆情监控) 抓取招聘网站的招聘信息(数据分析、挖掘) 新浪滚动新闻 百度新闻网站 软件测试 爬虫之自动化测试 虫师 12306抢票 网站上的投票 投票网 网络安全 短信轰炸 注册页面1 注册页面2 注册页面3 web漏洞扫描 ...原创 2021-03-29 00:09:17 · 1387 阅读 · 0 评论 -
爬虫的概念
模拟浏览器,发送请求,获取响应网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟客户端(主要指浏览器)发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。原则上,只要是客户端(浏览器)能做的事情,爬虫都能够做 爬虫也只能获取客户端(浏览器)所展示出来的数据...原创 2021-03-29 00:09:03 · 135 阅读 · 0 评论