python爬虫
ydqq
这个作者很懒,什么都没留下…
展开
-
Requests爬取网页内容
Requests的简单用法Requests主要方法:requests.request() #构造一个请求,支撑以下各方法的基础方法requests.get() #get方法获取网页requests.head() #获取网页头信息的方法,对应HTTP的HEADrequests.post() #post方法获取网页信息requests.put() # put方法获取网页信息(一般用...原创 2019-08-23 16:15:36 · 2250 阅读 · 0 评论 -
爬虫介绍
什么是爬虫网络爬虫又称网页蜘蛛,是一种按照一定规则自动地抓取互联网信息的程序或脚本。爬虫有什么用市场分析:电商分析,商圈分析,一二级市场分析等;市场监控:电商,新闻,房源监控等;商机发现:招标情报发现,客户资料发掘,企业客户发现等。网页的两种加载方式同步加载(静态加载):改变URL的参数网页内容就会发生变化;异步加载(动态加载):改变URL的参数网页内容不发生变化。网页构成HT...原创 2019-08-20 11:49:00 · 173 阅读 · 0 评论 -
HTTP协议
概念架构C/S架构:客户端,服务器B/S架构:浏览器,服务器什么是HTTP协议:HTTP(HyperText Transfer Protocol)即超文本传输协议,这种协议将HTML文档从Web服务器床送到Web浏览器。发起HTTP请求:URL:统一资源定位符,俗称网页地址。格式: 协议://服务器IP[:端口]/访问路径/[?参数]浏览器发起:直接在输入URLLi...原创 2019-08-21 10:17:55 · 153 阅读 · 0 评论 -
初始Python爬虫
Python2与Python3的区别:Python2将在2020年停止维护。语法;默认编码;print用法;Xrange等函数变化;创建实例:Python中主要由urllib和Request来获取网页内容。创建urllib实例:from urllib.request import urlopen #调用urlopen函数f = urlopen('http://w...原创 2019-08-21 15:00:08 · 185 阅读 · 0 评论 -
Session与Cookies
静态页面和动态页面静态页面:整个页面的内容完全来自自身文件,页面没有与后台有任何交互。动态页面:页面通过js调用后台数据库和文件数据提取到前端显示,前端内容根据后台内容变化而变化。HTTP是无状态的HTTP的特性是无状态,即HTTP向服务器发送请求,服务器返回请求后,服务端与客户端的连接中断并不会持续保持与客户端的连接状态。会话客户端与服务端通信的过程,可以理解为客户端发送请求服务端接...原创 2019-08-22 09:31:30 · 169 阅读 · 0 评论 -
Python3.5解析网页汉字都是乱码解决方法
python3.5解析网页之后,汉字成了乱码,解决方法如下:#加上一个编码方法html.encoding = html.apparent_encoding例:import requestsfrom bs4 import BeautifulSouphtml = requests.get('http://www.baidu.com')html.encoding = html.appe...原创 2019-08-22 16:09:36 · 921 阅读 · 0 评论 -
urllib和urllib2
参考:https://blog.csdn.net/duxu24/article/details/77414298https://www.jianshu.com/p/2e190438bd9c原创 2019-08-28 16:30:26 · 303 阅读 · 0 评论