徐加七-CSDN博客

原创 urllib和urllib2的高级用法

发送POST请求时，需要了解的headers一些属性：Content-Length: 100：是指发送的表单数据长度为100，也就是url编码字符串的字符个数是100个。Content-Type: application/x-www-form-urlencoded ：表示浏览器提交 Web 表单时使用，表单数据会按照 name1=value1&name2=value2 键值对形...

2019-11-02 14:11:31 300

原创 urllib和urllib2库的基本使用

四、urllib和urllib2库的基本使用所谓网页抓取，就是把URL地址中指定的网络资源从网络流中抓取出来。在Python中有很多库可以用来抓取网页，我们先学习urllib2。urllib2 是 Python2.7 自带的模块(不需要下载，导入即可使用)urllib2 官方文档：https://docs.python.org/2/library/urllib2.htmlurllib2 ...

2019-11-02 14:10:46 216

原创 mutiporxy

mitmporxy[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IJjoQ4jD-1572674868809)(assets/mitmproxy.png)]window安装教程：https://cloud.tencent.com/developer/news/387396 安装后运行报错---->Microsoft Visual C++ 14....

2019-11-02 14:09:20 327

原创 mongdb练习题

第一大题：1.清空并创建school数据库，并查看有哪些集合use school;db.dropDatabase();use school;show tables;2.创建三年级二班（class_3_2)，三年级五班(class_3_5)，三年级八班(class_3_8)共3个班，并给每个班随机添加 10 名学生，包含学生的姓名（s_name), 学生的性别（s_sex), ...

2019-11-02 14:07:34 1723

原创 lxml库

lxml库lxml 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据。lxml和正则一样，也是用 C 实现的，是一款高性能的 Python HTML/XML 解析器，我们可以利用之前学习的XPath语法，来快速的定位特定元素以及节点信息。lxml python 官方文档：http://lxml.de/index.html需要安装C语言库，可使用 pip...

2019-11-02 14:07:00 2834

原创 Linux终端命令格式

Linux终端命令格式1. 终端命令格式 command [-options] [parameter] command: 命令，比如ls -options: 选项，用于修饰命令，比如说查看详细列表 ls -l parameter:参数 , 描述命令要操作的对象，比如 ls -l /opt /opt是参数 -l 是选项 ...

2019-11-02 14:06:21 260

原创 linux命令

linux命令1. | : 管道命令管道:一个命令的输出可以通过管道作为另一个命令的输入示例1: 分别用ls 和 tree命令查看根目录/ 的内容，且分屏显示 1. ls / | more 2. tree / | more2. ln : 链接命令格式： ln [选项] 目标链接名 ln 目标链接名：默认...

2019-11-01 15:40:06 107

原创爬虫第五课 Scrapy 框架

八、Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，...

2019-11-01 15:39:30 690

原创爬虫第四课数据处理

页面解析和数据提取一般来讲对我们而言，爬虫需要抓取的是某个网站或者某个应用的内容，提取有用的数据。响应内容一般分为两种，非结构化的数据和结构化的数据。结构化数据：先有结构、再有数据非结构化数据：先有数据，再有结构，不同类型的数据，我们需要采用不同的方式来处理。六、数据处理结构化的数据处理HTML 文件正则表达式XPathCSS选择器JSON 文件JsonPa...

2019-11-01 15:38:24 6074

原创爬虫第三课 AJAX

获取AJAX加载的内容有些网页内容使用AJAX请求加载，这种数据无法直接对网页url进行获取。但是只要记住，AJAX请求一般返回给网页的是JSON文件，只要对AJAX请求地址进行POST或GET，就能返回JSON数据了。如果非要从HTML页面里获取展现出来的数据，也不是不可以。但是要记住，作为一名爬虫工程师，你更需要关注的是数据的来源。案例：豆瓣电影数据采集# demo1url =...

2019-11-01 15:37:27 545

七、SeleniumSelenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。Selenium 可以根据我们的指令，让浏览器自动加载页面，获取需要的数据，甚至页面截屏，或者判断网站上某些动作是否发生。S...

2019-11-01 15:36:49 773

原创爬虫第二课

三、抓包工具FiddlerFiddler是一款强大Web调试工具，它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候，默认IE的代理设为了127.0.0.1:8888，而其他浏览器是需要手动设置。工作原理Fiddler 是以代理web服务器的形式工作的，它使用代理地址：127.0.0.1，端口：8888[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(...

2019-11-01 15:36:27 565

原创爬虫第一课

一、概要课程背景我们生活在一个充满数据的时代。每天，来自商业、社会以及我们的日常生活所产生「图像、音频、视频、文本、定位信息」等各种各样的海量数据，注入到我们的万维网（WWW)、计算机和各种数据存储设备，其中万维网则是最大的信息载体。数据的爆炸式增长、规模庞大和广泛可用的数据，使得我们真正进入到了“大数据（Big Data）时代”。我们急需功能强大的数据处理技术（Data Technolo...

2019-11-01 15:35:44 1066

原创页面操作

# IPython2 测试代码# 导入 webdriverimport timefrom selenium import webdriver# 调用环境变量指定的PhantomJS浏览器创建浏览器对象driver = webdriver.PhantomJS()# 如果没有在环境变量指定PhantomJS位置# driver = webdriver.PhantomJS(execu...

2019-11-01 15:34:49 624

原创 Requests 让 HTTP 服务人类

—————————————————————————————————————————————————————————————————————————————————————五、Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 自称 “HTTP for Hum...

2019-11-01 15:34:11 154

原创聚合 aggregate

聚合 aggregate聚合(aggregate)主要用于计算数据，类似sql中的sum()、avg()语法db.集合名称.aggregate([ {管道 : {表达式}} ])管道管道在Unix和Linux中一般用于将当前命令的输出结果作为下一个命令的输入ps aux | grep mongod在mongodb中，管道具有同样的作用，文档处理完毕后，通过管道...

2019-11-01 15:33:07 622

原创爬虫简介

数据工程：数据采集和数据存储（爬虫系统）数据计算、分析和数据可视化（数据分析）数据建模和数据训练（数据挖掘、机器学习）1. 什么是爬虫？抓取网页数据的程序。2. 爬虫是怎么抓取网页数据？网页三大特征： -1. 网页都有自己的URL（统一资源定位符）来进行互联网定位； -2. 网页都使用 HTML（超文本标记语言）来描述页面信息； -3...

2019-11-01 15:32:50 366

原创 django初步

#一 hello django创建虚拟环境**(virtualenv 和virtualenvwrapper)1.1, virtualenv的概述virtualenv是用来创建Python的虚拟环境的库，虚拟环境能够独立于真实环境存在，并且可以同时有多个互相独立的Python虚拟环境，每个虚拟环境都可以营造一个干净的开发环境，对于项目的依赖、版本的控制有着非常重要的作用。虚拟环境有什么...

2019-10-31 09:33:22 309

原创非结构化的数据处理

非结构化的数据处理普通文本文件（如提取电话号码、邮箱地址等）正则表达式JavaScript 文件、CSS 文件（提取特定值等）正则表达式二进制文件（图片、音乐、视频等）无法提取，直接保存指定格式的磁盘文件（一）正则为什么要学正则表达式实际上爬虫一共就四个主要步骤：明确目标 (要知道你准备在哪个范围或者网站去搜索)爬 (将所有的网站的内容全部爬下来)取 (去掉...

2019-10-31 09:26:23 5373

原创 Scrapy 框架

八、Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，...

2019-10-31 09:25:16 205

原创 MongoDB快速入门

MongoDB快速入门MongoDB 将数据存储为一个文档，数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档，数组及文档数组。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PRLS6Nul-1572485041491)(assets/01-crud-annotated-document.png...

2019-10-31 09:24:38 234

原创 MongoDB的使用2

MongoDB的使用mongod：mongo 是启动MongoDB shell客户端的命令mongod 是启动MongoDB数据库服务的命令，主要提供了三种启动方式：1. 命令行方式直接启动MongoDB默认的存储数据目录为/data/db（需要事先创建），默认端口27017，也可以修改成不同目录：# 直接启动mongod，默认数据存储目在 /data/dbpython@ubun...

2019-10-31 09:23:48 254

原创 MongoDB的安装与使用

MongoDB的安装与使用下载mongodb的版本，两点注意根据业界规则，偶数为稳定版，如3.2.X；奇数为开发版，如3.3.X32bit的mongodb最大只能存放2G的数据，64bit就没有限制MongoDB官网安装包下载地址：http://www.mongodb.org/downloadsMongoDB安装文档：https://docs.mongodb.com/gettin...

2019-10-31 09:22:47 130

原创 Http协议认识

一、tcp与upd应用场景：1. udp：面向无连接的，可一对一或一对多,相对tcp速度更快，实时性更好，耗资源更少，但稳定性、可靠性比tcp差 - 多点通信，比如广播通信 - 当对网络通讯质量要求不高的时候，要求网络通讯速度能尽量的快，更实时，使用UDP ，比如语音，实时视频2. tcp：面向连接，且一对一，比udp更稳定，可靠，适合通信质量要求较高的场...

2019-10-31 09:22:04 2047

原创什么是数据库

一、什么是数据库？一般一个数据库系统（Database System）可分为两个部分：数据库（Database）数据管理系统（Database Management System，DBMS）A Database is an organized collection of data. —— Wikipedia数据库就是有组织的数据集合，存储在一个或多个磁盘文件中，俗称「数...

2019-10-31 09:21:36 7075

原创数据提取之JSON与JsonPATH

案例：使用BeautifuSoup4的爬虫我们以网易社招页面来做演示：使用BeautifuSoup4解析器，将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间，以及每个职位详情的点击链接存储出来。import jsonimport requestsfrom bs4 import BeautifulSoupclass WangYiSpider(object): ...

2019-10-31 09:20:51 676

原创什么是XML

——————————————————————————————————————————有同学说，我正则用的不好，处理HTML文档很累，有没有其他的方法？有！那就是XPath，我们可以先将 HTML文件转换成 XML文档，然后用 XPath语法查找 HTML 节点或元素。（二）什么是XMLXML 指可扩展标记语言（EXtensible Markup Language）XML 是一种标记...

2019-10-31 09:18:50 694

原创浏览器处理网页的过程

网络爬虫工作过程可以理解为模拟浏览器操作的过程，浏览器的主要功能是向服务器发出请求，在浏览器窗口中展示服务器返回的网络资源。（一）浏览器处理网页的过程：我们先来看一下浏览网页的基本过程，比如我们在浏览器地址栏输入：http://www.baidu.com，回车后会浏览器会显示百度的首页。这段网络通信过程中到底发生了什么？简单来说这段过程发生了以下四个步骤：当我们在浏览器输入URL htt...

2019-10-31 09:17:59 1326

原创 tornado简单项目

tornado简单项目链接： https://blog.csdn.net/xc_zhou/article/details/80637714异步阻塞等概念： https://www.cnblogs.com/zhangyafei/p/9606765.htmlTornado既是一个web server，也是web framework。而它作为web server 采用的是asynchronous ...

2019-09-19 10:03:32 603

原创 flask简介

flask简介flask深入学习文档： http://docs.jinkan.org/docs/flask/api.html#flask.requestPython有很多Web框架，可谓是百家争鸣，我这里列出几个比较叼的几个框架Django 市场占有率最高，官方文档几近完美，但是适合比较大的项目，小项目会显得累赘。Tornado 可异步，性能高，提供更多的底层细节，还能进...

2019-09-19 10:02:57 113

原创 mysql进阶

mysql表关系https://www.cnblogs.com/bypp/p/7755307.html创建Mysql表：User用户表，Order订单表，Orderdetail订单详情，item商品表一个用户对应多个订单，一个订单只能对应一个用户；一个订单对应多个订单详情，一个订单详情只对应一个订单；一个订单详情只对应一个商品，一个商品可以包括在多个订单详情中；所以，用户和商品之间是多对多关...

2019-09-19 10:02:26 159

原创 django补充

django补充cbv模式Django的视图函数，可以基于FBV模式，也可以基于CBV模式。基于FBV的模式就是在Django的路由映射表里进行url和视图函数的关联，而基于CBV的模式则是在views.py文件中定义视图类，在视图类中视图函数，如get,post,put,delete等使用Django新建一个项目，新建一个路由映射from django.conf.urls import...

2019-09-19 10:01:13 98

原创 form的使用

form的主要作用：1.在html中生成表单框架，2.验证数据https://www.cnblogs.com/zongfa/p/7709639.html1.在model里创建一些数据类型class Users(models.Model): uname = models.CharField(max_length=30,unique=True,verbose_name="用户名")...

2019-09-19 10:00:35 272

原创 django_templatess使用

templates Django自带的是DTL(Django Templates language) DTL模版是一种带有特殊语法的HTML文件。渲染模版方式有两种方式1: render_to_string()找到模版，然后将模版编译后渲染成Python的字符串格式。最后再通过HttpResource类包装成一个HttpResponse对象返回from dja...

2019-09-18 14:02:31 178 1

原创 ORM-models(1)

django ORMsetting配置使用mysql数据库，settings中配置如下： DATABASES = { 'default': { 'ENGINE': 'django.db.backends.mysql', 'NAME': 'student', 'USER': 'root', 'PASSWORD':...

2019-09-18 14:01:28 153

原创 mysql数据库(2)

mysql数据库Mysql数据库Mysql是最流行的关系型数据库管理系统，在WEB应用方面MySQL是最好的RDBMS(Relational Database Management System：关系数据库管理系统)应用软件之一。由瑞典MySQL AB公司开发，目前属于Oracle公司。MySQL是一种关联数据库管理系统，关联数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样...

2019-09-18 14:00:54 1381

原创 mysql数据库(1)基本语句

mysql数据库Mysql数据库Mysql是最流行的关系型数据库管理系统，在WEB应用方面MySQL是最好的RDBMS(Relational Database Management System：关系数据库管理系统)应用软件之一。由瑞典MySQL AB公司开发，目前属于Oracle公司。MySQL是一种关联数据库管理系统，关联数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样...

2019-09-18 14:00:28 545

原创 mysql数据库

mysql数据库Mysql数据库Mysql是最流行的关系型数据库管理系统，在WEB应用方面MySQL是最好的RDBMS(Relational Database Management System：关系数据库管理系统)应用软件之一。由瑞典MySQL AB公司开发，目前属于Oracle公司。MySQL是一种关联数据库管理系统，关联数据库将数据保存在不同的表中，而不是将所有数据放在一个大仓库内，这样...

2019-09-18 13:59:49 2906

原创 redis简介

redis简介简介： https://www.cnblogs.com/guotianbao/p/8683037.htmlredis是主流的key-value nosql 数据库之一。和Memcached类似，它支持存储的value类型相对更多，包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash（哈希类型）。这些数据类型都支持p...

2019-09-18 13:59:17 139

原创 request

TERM: 终端模拟器SHELL: 为使用者提供操作界面”的软件（命令解析器）TMPDIR: 临时目录Apple_PubSub_Socket_Render: 苹果发布套接字渲染USER: 用户SSH_AUTH_SOCK: 环境变量__CF_USER_TEXT_ENCODING: __存储用户的默认文本编码和首选语言VIRTUAL_ENV: 虚拟环境PATH...

2019-09-18 13:58:59 358

空空如也

空空如也