![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
zhangyu4863
这个作者很懒,什么都没留下…
展开
-
抓取淘宝商品信息爬虫
目标:获取淘宝搜索页面信息,爬取商品的名称和价格方法:淘宝的搜索接口 翻页处理库:requests对比网址:起始页 第二页s=44第三页s=88得到 第n页是s=(n-1)*44淘宝网站的robots协议(一般网站的robots协议约定放在网站的主目录下的/robots.txt中)可以看出爬虫不得对淘宝的搜索页面进行爬取(爬取速度就像人类的速度则是允许的)User-agen...原创 2018-05-17 20:02:22 · 48624 阅读 · 2 评论 -
**kwargs及params的使用介绍
requests.requests(method,url,**kwargs)**kwargs:控制访问的参数params:字典或字节序列,作为参数增加到url中例:>>>kv = {'key1: value1','key2: value2'}>>>r = requests.requests('GET','https://www.baidu.com',params...原创 2018-05-08 01:40:22 · 1776 阅读 · 0 评论 -
HTTP协议与requests库 Requests库的异常
Requests库的异常异常说明requests.Connection网络连接错误异常,如DNS查询失败、拒绝连接等requests.HTTPErrorHTTP错误异常requests.URLRequiredURL缺失异常requests.TooManyRedirects超过最大重定向次数,产生重定向异常requests.ConnectTimeout连接远程服务器超时异常requests.Time...原创 2018-05-08 01:13:36 · 1758 阅读 · 0 评论 -
requests库的七个主要方法(http的请求方法)及response对象的属性
Requests库的七个主要方法:方法 说明requests.request()构造一个请求,支撑一下各方法的基础方法requests.get()获取HTML网页的主要方法,对应HTTP的GETrequests.head()获取HTML网页头的信息方法,对应HTTP的HEADrequests.post()向HTML网页提交POST请求方法,对应HTTP的POSTrequests.put()向HTM...原创 2018-05-08 00:52:16 · 52563 阅读 · 0 评论 -
正则表达式 (python)
编译:将符合正则表达式语法的字符串转换成正则表达式特征正则表达式的常用操作符:实例:re库的使用:raw string类型(原生字符串类型)string类型,更繁琐re库主要功能函数 另外等价用法:Match对象的属性:Match对象的方法:贪婪匹配:Re库默认采用贪婪匹配,即输出匹配最长的子串 最小匹配最小匹配操作符...原创 2018-05-13 21:39:59 · 31375 阅读 · 1 评论 -
爬虫实例(中国大学排名定向排名)
功能:输入:大学排名URL链接输出:大学排名信息的屏幕输出(排名,大学名称,总分)技术路线:requests-bs4定向爬虫:仅对输入的URL进行爬取,不扩展爬取步骤:1.从网络上获取大学排名网页内容2.提取网页中信息到合适的数据结构3.利用数据结构展示并输出结果程序的结构设计:1. 从网络上获取大学排名网页内容getHTMLText()2. 提取网页内容中信息到合适的数据结构fill...原创 2018-05-13 21:05:30 · 33003 阅读 · 0 评论 -
提取HTML中所有URL链接 (没有示例)
思路:1)搜索到所有的<a>标签2)解析<a>标签格式,提取href后的链接内容原创 2018-05-13 17:46:14 · 33227 阅读 · 0 评论 -
信息标记形式(网络信息传输的方法)
信息标记的三种形式:XML JSON YAMLXML (eXtensible Markup Language)JSON (JavaScript Object Notation)有类型的键值对key:valueYAML (YAML Ain't Markup Language)无类型键值对key:value注:通过缩进表明关系-表达并列关系|表示整块数据 #表示注释...原创 2018-05-13 17:20:39 · 31819 阅读 · 0 评论 -
基于bs4库的HTML内容遍历方法
HTML基本格式:标签树的下行遍历:例:标签树的下行遍历:标签树的上行遍历:例:标签树的上行遍历:标签树的平行遍历:例:标签树的平行遍历:原创 2018-05-13 15:38:11 · 31655 阅读 · 0 评论 -
Beautiful Soup库的基本元素和简单应用
官网:https://www.crummy.com/software/BeautifulSoup安装:在cmd命令提示符中输入pip install beautifulsoup4使用beautifulsoup库:>>>imoprt requests>>>r = requests.get(https://python123.io/ws/demo.html')>...原创 2018-05-13 13:35:13 · 31472 阅读 · 0 评论 -
网络爬虫简单实例
京东:亚马逊:更改了头部信息,模拟浏览器对网站进行访问百度/360通过输入关键词获得搜索信息:只需要将其中的keyword替换为自己搜索的关键词即可 网络图片的爬取:将图片从url这个网址下载到本地的root的路径下>>>import requests>>>url = "https://himg.bdimg.com/sys/portrait/item/d8e3e...原创 2018-05-13 12:24:16 · 36015 阅读 · 0 评论 -
网络爬虫 Robots协议
Robots协议Robots Exclusion Standard 网络爬虫排除标准作用:告知网络爬虫哪些可以爬取,哪些不可以形式:在网站根目录下的robots.txt文件例如京东的网站:Robots协议基本语法:#注释 *代表所有 \代表根目录User-agent: *Disallow: /Robots协议的使用网络爬虫:自动或人工的识别robots.txt,在进行内容爬取约束性:Robot...原创 2018-05-13 10:42:09 · 728 阅读 · 0 评论 -
Scrapy命令行
>scrapy <command> [ options ] [ args ]command 命令原创 2018-05-17 22:57:00 · 31309 阅读 · 0 评论 -
requests和scrapy框架比较
相同点:对比:小的项目,或者深度定制建议使用requests大的项目,并发量大的建议使用scrapy原创 2018-05-17 22:52:57 · 42725 阅读 · 0 评论 -
Scrapy爬虫框架介绍
scrapy安装:在cmd命令行中执行pip install scrapy测试安装成功:执行scrapy -h结构:Engine:控制所有模块之间的数据流,根据条件触发事件(不需要用户修改)Downloader:根据用户请求下载网页(不需要用户修改)Scheduler:对所有爬取请求进行调度管理(不需要用户修改)Downloader Middleware 目的:实施Engine、Sc...原创 2018-05-17 22:46:47 · 316 阅读 · 0 评论 -
股票数据爬虫
目标:爬取上交所和深交所所有股票的名称和交易信息输出:保存在文件中使用库:requests库,beautifulsoup4库,re库网站:http://finance.sina.com.cn/stock/ https://gupiao.baidu.com/stock/选取网站的原则:所需信息在HTML中,如果是js生成的话难度大,最好没有robots协议限制程序结构设计: ...原创 2018-05-17 21:43:06 · 34002 阅读 · 1 评论 -
编写Spider.py
# -*- coding:utf-8 -*-# urllib库from urllib.request import urlopen# 从urllib库的requests模块导入urlopen函数html = urlopen("http://pythonscraping.com/pages/page1.html")# 抓取信息print(html.read())# 读取信息并打...原创 2018-06-22 22:55:42 · 31405 阅读 · 0 评论