自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

zhang__init__的博客

Python小霸王!

  • 博客(21)
  • 收藏
  • 关注

原创 2021-01-04;C#类型转换之Convert.ToInt32()与int.TryParse()的区别

C#类型转换之Convert.ToInt32()与int.TryParse()的区别

2021-01-04 11:14:06 147

原创 http协议详解之二:http请求周期

一:CS即Client/Server客户端与服务器结构系统,是一种提供服务和使用服务的关系.例如,我们去银行取钱,我们就是银行的Client,而银行作为一个整体是我们的Server.Client和Server相互依存而存在.计算机里的Client/Server系统就是某一部分程序充当服务的使用者,另外一部分程序充当服务的提供者这样而构成的系统,比如:1,操作系统和硬件系统之间的关系,就

2018-02-27 23:03:58 727

原创 http协议详解之一:http思维导图

2018-02-27 22:04:46 2075 1

原创 Linux基础命令(二)

查找文件: findgrep 在文件里面按内容查找find 在指定的路径里面找文件find ./ -name "*name*" 查找当前目录下所有文件名包含name的文件find /tmp -size 2M 查找在/tmp目录下大小等于2M的文件find /tmp -size +2M 查找在/tmp目录下大于2M的文件find /tmp -size -2M 查找在/tmp目录下小于2M的文件fin...

2018-02-27 21:55:13 325

原创 PyQuery详解

一:安装pyquerypip install pyquery二:初始化1,字符串初始化html='''<div> <ul>   <li class="item-0">first item</li>   <li class="item-1"><a href="link2.html"&a

2018-02-25 13:39:29 406

原创 Linux基础命令(一)

ls 查看当前路径下的内容clear 清除当前页面bin 存放程序相关的文件boot 存放开机相关的文件cdrom 存放光盘相关的文件dev 存放外接设备相关的文件etc 是程序或服务器配置的地方lib 程序库home 除了此文件夹,其他文件夹都不可动/斜杠 \反斜杠 -横杠 _下划线 |树杠pwd 显示当前路径cd 切换路径to

2018-01-20 13:54:17 380

原创 数据存储(无数据库版)之四:Email提醒

#coding:utf-8''' Email主要起到提醒作用,当爬虫在运行过程中遇到异常或者服务器遇到问题时,可以通过Email及时向自己报告 发送邮件的协议是STMP,python内置对SMTP的支持,可以发送纯文本邮件,HTML邮件以及带附件的邮件。python对SMTP支持有smtplib和email两个模块,email负责构造邮件,smtplib负责发送邮件。

2017-10-25 11:11:43 587

原创 数据存储(无数据库版)之三:多媒体文件抽取

#coding:utf-8#存储文件的两种方式:1,只获取文件的URL链接(见5.1节);# 2,直接将媒体文件下载到本地(本节讲解);#本节主要介绍urllib模块的urlretrieve()函数。urlretrieve()方法直接将远程数据下载到本地;#函数原型:#urlretrieve(url, filename=None, reporthoo

2017-10-25 11:10:03 549

原创 数据存储(无数据库版)之二:存储为CSV

#coding:utf-8''' CSV(Comma-Separated Values,逗号分割值,或字符分割值),文件已纯文本形式存储表格数据(数字和文本)。纯文本意味着该文件是一个字符序列,不含必须像二进制数字那样被破解的数据 CSV文件由任意数目的记录组成,记录间以某种换行符分隔;每条记录由字段组成,字段间的分隔符是其他字符或字符串,最常见的是逗号或制表符。通常,所有记录都

2017-10-25 11:07:53 526

原创 数据存储(无数据库版)之一:存储为JSON

#coding:utf8#使用Requests访问http://seputu.com/,获取并打印HTML文档内容import requestsuser_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'headers = {'User-Agent':user_agent}r = requests.get('http://s

2017-10-24 21:14:01 1986

原创 HTML解析之五:lxml的XPath解析

#coding:utf8# BeautifulSoup可以将lxml作为默认的解析器使用,lxml亦可以单独使用;# 比较BeautifulSoup和lxml:#(1)#BeaufulSoup基于DOM,会在如整个文档,解析整个DOM树,比较消耗内存和时间;#lxml是使用XPath技术查询和处理HTML/XML文档库,只会局部遍历,所以速度较快。#现在BeautifulSoup可以使

2017-10-23 20:08:35 648

原创 HTML解析之四:BeautifulSoup4的使用

#coding:utf8# 一:快速开始#导入bs4库from bs4 import BeautifulSoup#创建包含HTML代码的字符串html_str = """The Dormouse's storyThe Dormouse's storyOnce upon a time there were three little sisters; and their names

2017-10-22 22:32:37 1798

原创 HTML解析之三:安装BeautifulSoup4

Beautiful Soup是一个可以从HTML或XML文件提取数据的python库能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式在爬虫中主要用到Beautiful Soup的查找提取功能推荐使用Beautiful Soup4安装Beautiful Soup4一:ubuntu或Debain可以执行 apt-get-install Python-bs4二:通过命令安装

2017-10-21 22:30:08 416

原创 HTML解析之二:python与正则表达式

#coding:utf8# re中的compile函数,将一个正则表达式的字符串转化为pattern匹配对象# 如 pattern = re.compile(r'\d+')# 生成一个匹配数字的pattern对象,给接下来的函数做参数#一:re.match(pattern,string[,flags])#从输入参数string(匹配的字符串)开头开始,尝试匹配pattern,一直向

2017-10-21 22:27:10 596

原创 HTML解析之一:正则表达式

一:入门小例子\bwe\b匹配we\b 是元字符,不代表空格,标点符号,换行,只是用来匹配位置. 元字符,匹配除换行符的任意字符* 元字符,匹配数量.* 匹配任意数量的不换行字符二:常用元字符四种作用:匹配字符,匹配位置,匹配数量,匹配模式. 匹配除换行符的任意字符\b 匹配单词的开始或结束\d 匹配数字\w 匹配字母,数字,下划线或汉字\s 匹配任意空白符,包括空格

2017-10-21 22:25:08 1558

原创 初始网络爬虫之三:网络爬虫最常用的requests库

#coding:utf8#python中用第三方库requests实现HTTP请求,是python中最常见的。#一:请求与响应模型#GET请求import requestsr = requests.get('https://www.baidu.com/')print r.content#POST请求import requestspostdata = {'username' :

2017-10-20 22:14:43 442

原创 初识网络爬虫之二:httplib与urllib实现

#coding:utf8#GET请求import httplibconn = Nonetry: conn = httplib.HTTPConnection("www.baidu.com") conn.request("GET", "/") response = conn.getresponse() print response.status, respon

2017-10-20 22:13:05 291

原创 初识爬虫之一:urllib2与urllib实现

#coding:utf8#一:请求与响应#GET请求#1,直接用urlopen函数:通过URL发出的请求获取数据import urllib2response = urllib2.urlopen('http://www.zhihu.com')html = response.read()print html#2,分两步:先请求再响应import urllib2#请求reque

2017-10-20 22:10:10 371

翻译 Django-REST之1:serializers序列器-翻译及自己的学习笔记(更新完善中...)

教程1:序列化介绍本教程将介绍如何创建一个简单的粘贴代码,突出显示Web API。一路上,将介绍组成REST框架的各种组件,并全面了解一切如何融合在一起。该教程是相当深入的,所以你应该在开始之前获得一个cookie和一杯你最喜欢的酿造。如果您只想快速浏览,请改用快速入门文档。注意:本教程的代码可在GitHub 的tomchristie / rest-framework-tutorial存储库中找到...

2017-09-28 17:17:05 1690 1

翻译 Django-REST之quickstart快速开始-翻译及自己的学习笔记(更新完善中...)

快速开始我们将创建一个简单的API,以允许管理员用户查看和编辑系统中的用户和组。项目设置创建一个名为Django的新项目tutorial,然后启动一个新的应用程序quickstart。# Create the project directorymkdir tutorialcd tutorial# Create a virtualenv to isolate our package depe...

2017-09-28 17:07:59 627

原创 MVC框架与MVT框架详解(更新完善中...)

MVC大部分开发语言中都有MVC框架MVC框架的核心思想是:解耦降低各功能模块之间的耦合性,方便变更,更容易重构代码,最大程度上实现代码的重用m表示model,主要用于对数据库层的封装v表示view,用于向用户展示结果c表示controller,是核心,用于处理请求、获取数据、返回结果高可扩展性向后兼容 : 后面的版本都可以兼容低耦合 :模块与模块之间不要有太强的依耐性高内聚 : 指一个软件模块是...

2017-09-14 16:42:56 12899 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除