Python3网络爬虫
文章平均质量分 89
code2rich
小小搬砖人
展开
-
Python3 网络爬虫 简易的猫眼电影排行榜爬虫
import requestsimport urllibimport re#首先获得请求一个界面,这是一个通用的代码,包括伪装浏览器,状态码验证等。def get_one_page(url): headers ={ 'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, l...原创 2018-05-17 10:59:03 · 705 阅读 · 0 评论 -
网络爬虫基本原理
【网络爬虫基本原理】其实,刚开始学爬虫是挺痛苦的,一是爬虫需要的知识挺杂的,网页方面的,还有网络方面,数据库方面都需要,然后市面上目前而言的爬虫书籍很多都是用Python2来写的。之前看了《Python网络数据采集》这本书,但是发现可能是翻译过来的书,有些地方不是很好使用,所以买了一本崔庆才老师的《Python3网络爬虫开发实战》并且配合他在网上的教学视频一起使用,了解崔庆才老师之后,发现他真的很...原创 2018-05-05 13:47:22 · 616 阅读 · 0 评论 -
【Python3 网络爬虫】 解析库的使用 XPath选择器的使用
对于网络节点而言,可以定义id 或 class属性 。而且这些节点之间还有层次关系,在网页中可以通过XPath或CSS选择器来定位一个或多个节点。那么,在页面解析的时候,利用XPath或CSS选择器来提取某个节点,然后再调用相应的方法获取它的正文内容或属性,就可以提取我们需要的信息了。在Python中这类解析库已经非常的多了,常用的有lxml、BeautifulSoup、pyquery。有了他们,...原创 2018-05-18 00:30:46 · 2734 阅读 · 0 评论 -
字符编码:Unicode和UTF-8之间的关系
Unicode和UTF-8之间的关系1. ASCII码我们知道,在计算机内部,所有的信息最终都表示为一个二进制的字符串。每一个二进制位(bit)有0和1两种状态,因此八个二进制位就可以组合出256种状态,这被称为一个字节(byte)。也就是说,一个字节一共可以用来表示256种不同的状态,每一个状态对应一个符号,就是256个符号,从0000000到11111111。上个世纪60年代,美国制定了一套字...转载 2018-05-18 10:29:43 · 178 阅读 · 0 评论 -
【Python3网络爬虫】 requests库的使用
1.requests库可以使Cookies,登陆验证,代理设置更加简单。一段代码,去对比urllib库的使用:import requestsr = requests.get('https://wwww.baidu.com')print(type(r))print(r.status_code)print(type(r.text))print(r.cookies)这些可以体现在请求上的相对...原创 2018-05-14 18:41:16 · 2696 阅读 · 0 评论 -
【Python3网络爬虫】 urllib库的使用
1.库的作用,让我们在使用时不需要关心底层,不再需要关心怎么做,而是只需要关心做什么。2.urllib is a package that collects several modules for working with URLs:urllib.request for opening and reading URLsurllib.error containing the exceptions(例...原创 2018-05-12 01:16:12 · 1602 阅读 · 0 评论 -
【Python3网络爬虫】 正则表达式
正则表达式是处理字符串的强大工具,它有自己的特定语法结构,有了它,实现字符串的检索、替换、匹配 验证都不在话下。当然、对于爬虫而言,有了它,从HTML中提取信息就变得非常方便。1.正则表达式介绍开源中国的一个网站:http://tool.oschina.com/regex写好正则表达式之后,就可以拿他去一个长的字符串里面匹配查找了。不论这个字符串里面有什么,只要匹配符合我们所写的规则,统统可以查找...原创 2018-05-14 23:18:59 · 286 阅读 · 0 评论 -
【Python3网络爬虫】 抓取猫眼电影排行榜
#抓取猫眼电影排行榜前100#目标: 提取出猫眼电影TOP100的电影名称、时间、评分、图片等信息#提取站点 :http://maoyan.com/board/4 提取的结果以文件形式保存#使用知识: 网页基础 、网络基础 、urllib、requests、正则表达式1.抓取分析:1.网站页面 有效信息:影片名称 主演 上映时间 上映地区 评分 图片 一页10条2.点击 第二页 发现上方的URL ...原创 2018-05-15 10:23:03 · 4975 阅读 · 1 评论