![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
徐加七
对不起大家,我转岗了,代码实在是没学会
展开
-
urllib和urllib2的高级用法
发送POST请求时,需要了解的headers一些属性:Content-Length: 100: 是指发送的表单数据长度为100,也就是url编码字符串的字符个数是100个。Content-Type: application/x-www-form-urlencoded : 表示浏览器提交 Web 表单时使用,表单数据会按照 name1=value1&name2=value2 键值对形...原创 2019-11-02 14:11:31 · 290 阅读 · 0 评论 -
urllib和urllib2库的基本使用
四、urllib和urllib2库的基本使用所谓网页抓取,就是把URL地址中指定的网络资源从网络流中抓取出来。在Python中有很多库可以用来抓取网页,我们先学习urllib2。urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用)urllib2 官方文档:https://docs.python.org/2/library/urllib2.htmlurllib2 ...原创 2019-11-02 14:10:46 · 207 阅读 · 0 评论 -
mutiporxy
mitmporxy[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IJjoQ4jD-1572674868809)(assets/mitmproxy.png)]window安装教程:https://cloud.tencent.com/developer/news/387396 安装后运行报错---->Microsoft Visual C++ 14....原创 2019-11-02 14:09:20 · 321 阅读 · 0 评论 -
mongdb练习题
第一大题:1.清空并创建school数据库,并查看有哪些集合use school;db.dropDatabase();use school;show tables;2.创建三年级二班(class_3_2), 三年级五班(class_3_5), 三年级八班(class_3_8)共3个班,并给每个班随机添加 10 名学生, 包含学生的姓名(s_name), 学生的性别(s_sex), ...原创 2019-11-02 14:07:34 · 1710 阅读 · 0 评论 -
lxml库
lxml库lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。lxml python 官方文档:http://lxml.de/index.html需要安装C语言库,可使用 pip...原创 2019-11-02 14:07:00 · 2824 阅读 · 0 评论 -
Linux终端命令格式
Linux终端命令格式1. 终端命令格式 command [-options] [parameter] command: 命令,比如ls -options: 选项 , 用于修饰命令, 比如说查看详细列表 ls -l parameter:参数 , 描述命令要操作的对象 ,比如 ls -l /opt /opt是参数 -l 是选项 ...原创 2019-11-02 14:06:21 · 253 阅读 · 0 评论 -
linux命令
linux命令1. | : 管道命令 管道:一个命令的输出可以通过管道作为另一个命令的输入 示例1: 分别用ls 和 tree命令查看 根目录/ 的内容,且分屏显示 1. ls / | more 2. tree / | more2. ln : 链接命令 格式: ln [选项] 目标 链接名 ln 目标 链接名: 默认...原创 2019-11-01 15:40:06 · 100 阅读 · 0 评论 -
爬虫第五课 Scrapy 框架
八、Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,...原创 2019-11-01 15:39:30 · 679 阅读 · 0 评论 -
Selenium
七、SeleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。S...原创 2019-11-01 15:36:49 · 764 阅读 · 0 评论 -
爬虫第二课
三、抓包工具FiddlerFiddler是一款强大Web调试工具,它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候,默认IE的代理设为了127.0.0.1:8888,而其他浏览器是需要手动设置。工作原理Fiddler 是以代理web服务器的形式工作的,它使用代理地址:127.0.0.1,端口:8888[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(...原创 2019-11-01 15:36:27 · 549 阅读 · 0 评论 -
页面操作
# IPython2 测试代码# 导入 webdriverimport timefrom selenium import webdriver# 调用环境变量指定的PhantomJS浏览器创建浏览器对象driver = webdriver.PhantomJS()# 如果没有在环境变量指定PhantomJS位置# driver = webdriver.PhantomJS(execu...原创 2019-11-01 15:34:49 · 616 阅读 · 0 评论 -
Requests 让 HTTP 服务人类
—————————————————————————————————————————————————————————————————————————————————————五、Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Hum...原创 2019-11-01 15:34:11 · 147 阅读 · 0 评论 -
爬虫简介
数据工程: 数据采集 和 数据存储(爬虫系统) 数据计算、分析 和 数据可视化(数据分析) 数据建模 和 数据训练(数据挖掘、机器学习)1. 什么是爬虫? 抓取网页数据的程序。2. 爬虫是怎么抓取网页数据? 网页三大特征: -1. 网页都有自己的URL(统一资源定位符)来进行互联网定位; -2. 网页都使用 HTML(超文本标记语言)来描述页面信息; -3...原创 2019-11-01 15:32:50 · 351 阅读 · 0 评论 -
非结构化的数据处理
非结构化的数据处理普通文本文件(如提取电话号码、邮箱地址等)正则表达式JavaScript 文件、CSS 文件(提取特定值等)正则表达式二进制文件(图片、音乐、视频等)无法提取,直接保存指定格式的磁盘文件(一)正则为什么要学正则表达式实际上爬虫一共就四个主要步骤:明确目标 (要知道你准备在哪个范围或者网站去搜索)爬 (将所有的网站的内容全部爬下来)取 (去掉...原创 2019-10-31 09:26:23 · 5334 阅读 · 0 评论 -
Scrapy 框架
八、Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,...原创 2019-10-31 09:25:16 · 195 阅读 · 0 评论 -
MongoDB快速入门
MongoDB快速入门MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PRLS6Nul-1572485041491)(assets/01-crud-annotated-document.png...原创 2019-10-31 09:24:38 · 225 阅读 · 0 评论 -
MongoDB的使用2
MongoDB的使用mongod:mongo 是启动MongoDB shell客户端的命令mongod 是启动MongoDB数据库服务的命令,主要提供了三种启动方式:1. 命令行方式直接启动MongoDB默认的存储数据目录为/data/db(需要事先创建),默认端口27017,也可以修改成不同目录:# 直接启动mongod,默认数据存储目在 /data/dbpython@ubun...原创 2019-10-31 09:23:48 · 247 阅读 · 0 评论 -
MongoDB的安装与使用
MongoDB的安装与使用下载mongodb的版本,两点注意根据业界规则,偶数为稳定版,如3.2.X;奇数为开发版,如3.3.X32bit的mongodb最大只能存放2G的数据,64bit就没有限制MongoDB官网安装包下载地址:http://www.mongodb.org/downloadsMongoDB安装文档:https://docs.mongodb.com/gettin...原创 2019-10-31 09:22:47 · 121 阅读 · 0 评论 -
Http协议认识
一、tcp与upd应用场景:1. udp: 面向无连接的,可一对一或一对多,相对tcp速度更快,实时性更好,耗资源更少,但稳定性、可靠性比tcp差 - 多点通信,比如广播通信 - 当对网络通讯质量要求不高的时候,要求网络通讯速度能尽量的快,更实时,使用UDP ,比如语音,实时视频2. tcp: 面向连接,且一对一,比udp更稳定,可靠,适合通信质量要求较高的场...原创 2019-10-31 09:22:04 · 2032 阅读 · 0 评论 -
什么是数据库
一、什么是数据库?一般一个数据库系统(Database System)可分为两个部分:数据库(Database)数据管理系统(Database Management System,DBMS)A Database is an organized collection of data. —— Wikipedia数据库 就是 有组织的数据集合 ,存储在一个或多个磁盘文件中,俗称「数...原创 2019-10-31 09:21:36 · 6986 阅读 · 0 评论 -
数据提取之JSON与JsonPATH
案例:使用BeautifuSoup4的爬虫我们以网易社招页面来做演示:使用BeautifuSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间,以及每个职位详情的点击链接存储出来。import jsonimport requestsfrom bs4 import BeautifulSoupclass WangYiSpider(object): ...原创 2019-10-31 09:20:51 · 665 阅读 · 0 评论 -
什么是XML
——————————————————————————————————————————有同学说,我正则用的不好,处理HTML文档很累,有没有其他的方法?有!那就是XPath,我们可以先将 HTML文件 转换成 XML文档,然后用 XPath语法 查找 HTML 节点或元素。(二)什么是XMLXML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记...原创 2019-10-31 09:18:50 · 684 阅读 · 0 评论 -
浏览器处理网页的过程
网络爬虫工作过程可以理解为模拟浏览器操作的过程,浏览器的主要功能是向服务器发出请求,在浏览器窗口中展示服务器返回的网络资源。(一)浏览器处理网页的过程:我们先来看一下浏览网页的基本过程,比如我们在浏览器地址栏输入:http://www.baidu.com,回车后会浏览器会显示百度的首页。这段网络通信过程中到底发生了什么?简单来说这段过程发生了以下四个步骤:当我们在浏览器输入URL htt...原创 2019-10-31 09:17:59 · 1302 阅读 · 0 评论