自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

徐加七的博客

一个还在努力的Python工程师

  • 博客(69)
  • 收藏
  • 关注

原创 urllib和urllib2的高级用法

发送POST请求时,需要了解的headers一些属性:Content-Length: 100: 是指发送的表单数据长度为100,也就是url编码字符串的字符个数是100个。Content-Type: application/x-www-form-urlencoded : 表示浏览器提交 Web 表单时使用,表单数据会按照 name1=value1&name2=value2 键值对形...

2019-11-02 14:11:31 300

原创 urllib和urllib2库的基本使用

四、urllib和urllib2库的基本使用所谓网页抓取,就是把URL地址中指定的网络资源从网络流中抓取出来。在Python中有很多库可以用来抓取网页,我们先学习urllib2。urllib2 是 Python2.7 自带的模块(不需要下载,导入即可使用)urllib2 官方文档:https://docs.python.org/2/library/urllib2.htmlurllib2 ...

2019-11-02 14:10:46 216

原创 mutiporxy

mitmporxy[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-IJjoQ4jD-1572674868809)(assets/mitmproxy.png)]window安装教程:https://cloud.tencent.com/developer/news/387396 安装后运行报错---->Microsoft Visual C++ 14....

2019-11-02 14:09:20 327

原创 mongdb练习题

第一大题:1.清空并创建school数据库,并查看有哪些集合use school;db.dropDatabase();use school;show tables;2.创建三年级二班(class_3_2), 三年级五班(class_3_5), 三年级八班(class_3_8)共3个班,并给每个班随机添加 10 名学生, 包含学生的姓名(s_name), 学生的性别(s_sex), ...

2019-11-02 14:07:34 1723

原创 lxml库

lxml库lxml 是 一个HTML/XML的解析器,主要的功能是如何解析和提取 HTML/XML 数据。lxml和正则一样,也是用 C 实现的,是一款高性能的 Python HTML/XML 解析器,我们可以利用之前学习的XPath语法,来快速的定位特定元素以及节点信息。lxml python 官方文档:http://lxml.de/index.html需要安装C语言库,可使用 pip...

2019-11-02 14:07:00 2834

原创 Linux终端命令格式

Linux终端命令格式1. 终端命令格式 command [-options] [parameter] command: 命令,比如ls -options: 选项 , 用于修饰命令, 比如说查看详细列表 ls -l parameter:参数 , 描述命令要操作的对象 ,比如 ls -l /opt /opt是参数 -l 是选项 ...

2019-11-02 14:06:21 260

原创 linux命令

linux命令1. | : 管道命令 管道:一个命令的输出可以通过管道作为另一个命令的输入 示例1: 分别用ls 和 tree命令查看 根目录/ 的内容,且分屏显示 1. ls / | more 2. tree / | more2. ln : 链接命令 格式: ln [选项] 目标 链接名 ln 目标 链接名: 默认...

2019-11-01 15:40:06 107

原创 爬虫第五课 Scrapy 框架

八、Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,...

2019-11-01 15:39:30 690

原创 爬虫第四课 数据处理

页面解析和数据提取一般来讲对我们而言,爬虫需要抓取的是某个网站或者某个应用的内容,提取有用的数据。响应内容一般分为两种,非结构化的数据 和 结构化的数据。结构化数据:先有结构、再有数据非结构化数据:先有数据,再有结构,不同类型的数据,我们需要采用不同的方式来处理。六、数据处理结构化的数据处理HTML 文件正则表达式XPathCSS选择器JSON 文件JsonPa...

2019-11-01 15:38:24 6074

原创 爬虫第三课 AJAX

获取AJAX加载的内容有些网页内容使用AJAX请求加载,这种数据无法直接对网页url进行获取。但是只要记住,AJAX请求一般返回给网页的是JSON文件,只要对AJAX请求地址进行POST或GET,就能返回JSON数据了。如果非要从HTML页面里获取展现出来的数据,也不是不可以。但是要记住,作为一名爬虫工程师,你更需要关注的是数据的来源。案例:豆瓣电影数据采集# demo1url =...

2019-11-01 15:37:27 545

原创 Selenium

七、SeleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。S...

2019-11-01 15:36:49 773

原创 爬虫第二课

三、抓包工具FiddlerFiddler是一款强大Web调试工具,它能记录所有客户端和服务器的HTTP请求。 Fiddler启动的时候,默认IE的代理设为了127.0.0.1:8888,而其他浏览器是需要手动设置。工作原理Fiddler 是以代理web服务器的形式工作的,它使用代理地址:127.0.0.1,端口:8888[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(...

2019-11-01 15:36:27 565

原创 爬虫第一课

一、概要课程背景我们生活在一个充满数据的时代。每天,来自商业、社会以及我们的日常生活所产生「图像、音频、视频、文本、定位信息」等各种各样的海量数据,注入到我们的万维网(WWW)、计算机和各种数据存储设备,其中万维网则是最大的信息载体。数据的爆炸式增长、规模庞大和广泛可用的数据,使得我们真正进入到了“大数据(Big Data)时代”。我们急需功能强大的数据处理技术(Data Technolo...

2019-11-01 15:35:44 1066

原创 页面操作

# IPython2 测试代码# 导入 webdriverimport timefrom selenium import webdriver# 调用环境变量指定的PhantomJS浏览器创建浏览器对象driver = webdriver.PhantomJS()# 如果没有在环境变量指定PhantomJS位置# driver = webdriver.PhantomJS(execu...

2019-11-01 15:34:49 624

原创 Requests 让 HTTP 服务人类

—————————————————————————————————————————————————————————————————————————————————————五、Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 Requests 自称 “HTTP for Hum...

2019-11-01 15:34:11 154

原创 聚合 aggregate

聚合 aggregate聚合(aggregate)主要用于计算数据,类似sql中的sum()、avg()语法db.集合名称.aggregate([ {管道 : {表达式}} ])管道管道在Unix和Linux中一般用于将当前命令的输出结果作为下一个命令的输入ps aux | grep mongod在mongodb中,管道具有同样的作用,文档处理完毕后,通过管道...

2019-11-01 15:33:07 622

原创 爬虫简介

数据工程: 数据采集 和 数据存储(爬虫系统) 数据计算、分析 和 数据可视化(数据分析) 数据建模 和 数据训练(数据挖掘、机器学习)1. 什么是爬虫? 抓取网页数据的程序。2. 爬虫是怎么抓取网页数据? 网页三大特征: -1. 网页都有自己的URL(统一资源定位符)来进行互联网定位; -2. 网页都使用 HTML(超文本标记语言)来描述页面信息; -3...

2019-11-01 15:32:50 366

原创 django初步

#一 hello django创建虚拟环境**(virtualenv 和virtualenvwrapper)1.1, virtualenv的概述virtualenv是用来创建Python的虚拟环境的库,虚拟环境能够独立于真实环境存在,并且可以同时有多个互相独立的Python虚拟环境,每个虚拟环境都可以营造一个干净的开发环境,对于项目的依赖、版本的控制有着非常重要的作用。虚拟环境有什么...

2019-10-31 09:33:22 309

原创 非结构化的数据处理

非结构化的数据处理普通文本文件(如提取电话号码、邮箱地址等)正则表达式JavaScript 文件、CSS 文件(提取特定值等)正则表达式二进制文件(图片、音乐、视频等)无法提取,直接保存指定格式的磁盘文件(一)正则为什么要学正则表达式实际上爬虫一共就四个主要步骤:明确目标 (要知道你准备在哪个范围或者网站去搜索)爬 (将所有的网站的内容全部爬下来)取 (去掉...

2019-10-31 09:26:23 5373

原创 Scrapy 框架

八、Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架,...

2019-10-31 09:25:16 205

原创 MongoDB快速入门

MongoDB快速入门MongoDB 将数据存储为一个文档,数据结构由键值(key=>value)对组成。MongoDB 文档类似于 JSON 对象。字段值可以包含其他文档,数组及文档数组。[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-PRLS6Nul-1572485041491)(assets/01-crud-annotated-document.png...

2019-10-31 09:24:38 234

原创 MongoDB的使用2

MongoDB的使用mongod:mongo 是启动MongoDB shell客户端的命令mongod 是启动MongoDB数据库服务的命令,主要提供了三种启动方式:1. 命令行方式直接启动MongoDB默认的存储数据目录为/data/db(需要事先创建),默认端口27017,也可以修改成不同目录:# 直接启动mongod,默认数据存储目在 /data/dbpython@ubun...

2019-10-31 09:23:48 254

原创 MongoDB的安装与使用

MongoDB的安装与使用下载mongodb的版本,两点注意根据业界规则,偶数为稳定版,如3.2.X;奇数为开发版,如3.3.X32bit的mongodb最大只能存放2G的数据,64bit就没有限制MongoDB官网安装包下载地址:http://www.mongodb.org/downloadsMongoDB安装文档:https://docs.mongodb.com/gettin...

2019-10-31 09:22:47 130

原创 Http协议认识

一、tcp与upd应用场景:1. udp: 面向无连接的,可一对一或一对多,相对tcp速度更快,实时性更好,耗资源更少,但稳定性、可靠性比tcp差 - 多点通信,比如广播通信 - 当对网络通讯质量要求不高的时候,要求网络通讯速度能尽量的快,更实时,使用UDP ,比如语音,实时视频2. tcp: 面向连接,且一对一,比udp更稳定,可靠,适合通信质量要求较高的场...

2019-10-31 09:22:04 2047

原创 什么是数据库

一、什么是数据库?一般一个数据库系统(Database System)可分为两个部分:数据库(Database)数据管理系统(Database Management System,DBMS)A Database is an organized collection of data. —— Wikipedia数据库 就是 有组织的数据集合 ,存储在一个或多个磁盘文件中,俗称「数...

2019-10-31 09:21:36 7075

原创 数据提取之JSON与JsonPATH

案例:使用BeautifuSoup4的爬虫我们以网易社招页面来做演示:使用BeautifuSoup4解析器,将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间,以及每个职位详情的点击链接存储出来。import jsonimport requestsfrom bs4 import BeautifulSoupclass WangYiSpider(object): ...

2019-10-31 09:20:51 676

原创 什么是XML

——————————————————————————————————————————有同学说,我正则用的不好,处理HTML文档很累,有没有其他的方法?有!那就是XPath,我们可以先将 HTML文件 转换成 XML文档,然后用 XPath语法 查找 HTML 节点或元素。(二)什么是XMLXML 指可扩展标记语言(EXtensible Markup Language)XML 是一种标记...

2019-10-31 09:18:50 694

原创 浏览器处理网页的过程

网络爬虫工作过程可以理解为模拟浏览器操作的过程,浏览器的主要功能是向服务器发出请求,在浏览器窗口中展示服务器返回的网络资源。(一)浏览器处理网页的过程:我们先来看一下浏览网页的基本过程,比如我们在浏览器地址栏输入:http://www.baidu.com,回车后会浏览器会显示百度的首页。这段网络通信过程中到底发生了什么?简单来说这段过程发生了以下四个步骤:当我们在浏览器输入URL htt...

2019-10-31 09:17:59 1326

原创 tornado简单项目

tornado简单项目链接: https://blog.csdn.net/xc_zhou/article/details/80637714异步阻塞等概念: https://www.cnblogs.com/zhangyafei/p/9606765.htmlTornado既是一个web server,也是web framework。而它作为web server 采用的是asynchronous ...

2019-09-19 10:03:32 603

原创 flask简介

flask简介flask深入学习文档: http://docs.jinkan.org/docs/flask/api.html#flask.requestPython有很多Web框架,可谓是百家争鸣,我这里列出几个比较叼的几个框架Django 市场占有率最高,官方文档几近完美,但是适合比较大的项目,小项目会显得累赘。Tornado 可异步,性能高,提供更多的底层细节,还能进...

2019-09-19 10:02:57 113

原创 mysql进阶

mysql表关系https://www.cnblogs.com/bypp/p/7755307.html创建Mysql表:User用户表,Order订单表,Orderdetail订单详情,item商品表一个用户对应多个订单,一个订单只能对应一个用户;一个订单对应多个订单详情,一个订单详情只对应一个订单;一个订单详情只对应一个商品,一个商品可以包括在多个订单详情中;所以,用户和商品之间是多对多关...

2019-09-19 10:02:26 159

原创 django补充

django补充cbv模式Django的视图函数,可以基于FBV模式,也可以基于CBV模式。基于FBV的模式就是在Django的路由映射表里进行url和视图函数的关联,而基于CBV的模式则是在views.py文件中定义视图类,在视图类中视图函数,如get,post,put,delete等使用Django新建一个项目,新建一个路由映射from django.conf.urls import...

2019-09-19 10:01:13 98

原创 form的使用

form的主要作用:1.在html中生成表单框架,2.验证数据https://www.cnblogs.com/zongfa/p/7709639.html1.在model里创建一些数据类型class Users(models.Model): uname = models.CharField(max_length=30,unique=True,verbose_name="用户名")...

2019-09-19 10:00:35 272

原创 django_templatess使用

templates​ Django自带的是DTL(Django Templates language)​ DTL模版是一种带有特殊语法的HTML文件。​渲染模版方式有两种方式1: render_to_string()找到模版,然后将模版编译后渲染成Python的字符串格式。最后再通过HttpResource类包装成一个HttpResponse对象返回from dja...

2019-09-18 14:02:31 178 1

原创 ORM-models(1)

django ORMsetting配置使用mysql数据库,settings中配置如下: DATABASES = { 'default': { 'ENGINE': 'django.db.backends.mysql', 'NAME': 'student', 'USER': 'root', 'PASSWORD':...

2019-09-18 14:01:28 153

原创 mysql数据库(2)

mysql数据库Mysql数据库Mysql是最流行的关系型数据库管理系统,在WEB应用方面MySQL是最好的RDBMS(Relational Database Management System:关系数据库管理系统)应用软件之一。由瑞典MySQL AB公司开发,目前属于Oracle公司。MySQL是一种关联数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样...

2019-09-18 14:00:54 1381

原创 mysql数据库(1)基本语句

mysql数据库Mysql数据库Mysql是最流行的关系型数据库管理系统,在WEB应用方面MySQL是最好的RDBMS(Relational Database Management System:关系数据库管理系统)应用软件之一。由瑞典MySQL AB公司开发,目前属于Oracle公司。MySQL是一种关联数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样...

2019-09-18 14:00:28 545

原创 mysql数据库

mysql数据库Mysql数据库Mysql是最流行的关系型数据库管理系统,在WEB应用方面MySQL是最好的RDBMS(Relational Database Management System:关系数据库管理系统)应用软件之一。由瑞典MySQL AB公司开发,目前属于Oracle公司。MySQL是一种关联数据库管理系统,关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样...

2019-09-18 13:59:49 2906

原创 redis简介

redis简介简介: https://www.cnblogs.com/guotianbao/p/8683037.htmlredis是主流的key-value nosql 数据库之一。和Memcached类似,它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set --有序集合)和hash(哈希类型)。这些数据类型都支持p...

2019-09-18 13:59:17 139

原创 request

TERM: 终端模拟器SHELL: 为使用者提供操作界面”的软件(命令解析器)TMPDIR: 临时目录Apple_PubSub_Socket_Render: 苹果发布套接字渲染USER: 用户SSH_AUTH_SOCK: 环境变量__CF_USER_TEXT_ENCODING: __存储用户的默认文本编码和首选语言VIRTUAL_ENV: 虚拟环境PATH...

2019-09-18 13:58:59 358

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除