2016年07月_zhuhengv

转载 Python爬虫入门四之Cookie的使用

为什么要使用Cookie呢？Cookie，指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据（通常经过加密）比如说有些网站需要登录后才能访问某个页面，在登录之前，你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie，然后再抓取其他页面就达到目的了。在此之前呢，我们必须先介绍一个opener的概念。1.Op

2016-07-30 22:24:52 2031

转载 Python爬虫入门三之URLError异常处理

1.URLError首先解释下URLError可能产生的原因：网络无连接，即本机无法上网连接不到特定的服务器服务器不存在在代码中，我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子，先感受下它的风骚import urllib2requset = urllib2.Request('http://www.xxxxx.

2016-07-30 14:34:14 1937

转载 Python爬虫入门二之Urllib库的高级用法

1.设置Headers有些网站不会同意程序直接用上面的方式进行访问，如果识别有问题，那么站点根本不会响应，所以为了完全模拟浏览器的工作，我们需要设置一些Headers 的属性。首先，打开我们的浏览器，调试浏览器F12，我用的是Chrome，打开网络监听，比如知乎，点登录之后，我们会发现登陆之后界面都变化了，出现一个新的界面，实质上这个页面包含了许许多多的内容，这些内容也不是一次性就

2016-07-30 14:14:07 380

转载 Python爬虫入门一之Urllib库的基本使用

1.分分钟扒一个网页下来怎样扒网页呢？其实就是根据URL来获取它的网页信息，虽然我们在浏览器中看到的是一幅幅优美的画面，但是其实是由浏览器解释才呈现出来的，实质它是一段HTML代码，加 JS、CSS，如果把网页比作一个人，那么HTML便是他的骨架，JS便是他的肌肉，CSS便是它的衣服。所以最重要的部分是存在于HTML中的，下面我们就写个例子来扒一个网页下来。import urllib2

2016-07-30 13:01:13 648

原创利用python进行数据分析-时间序列1

1.日期和时间数据类型及工具结果为：2016-07-14 22:03:47.9690002016 7 14datetime是以毫秒形式存储日期和时间。datetime.timedelta表示两个datetime对象之间的时间差delta=datetime.datetime(2011,1,7)-datetime.datetime(2008,6,24,8,15)print de

2016-07-29 21:20:43 6774 1

原创 MySQL学习笔记三

1.插入记录insert第一种方式insert [into] tbl_name [(col_name,…)] {values|value} ({expr | default},…),(…),…案例： create table users(id smallint unsigned primary key auto_increment,username varchar(20

2016-07-22 23:18:13 317

原创 MySQL学习笔记二

外键约束：foreign key编辑数据表的默认存储引擎，MySQL配置文件，default-storage-engine=INNODB案例： create table provices( id smallint unsigned primary key auto_increment, pname varchar(20) not null )

2016-07-21 21:41:42 290

原创利用python进行数据分析-数据聚合与分组运算2

1.分组级运算和转换聚合只不过是分组运算的其中一种而已。介绍transform和apply方法，它们能够执行更多其他的分组运算假设我们想要为一个DataFrame添加一个用于存放各索引分组平均值的列。一个办法是先聚合再合并print dfk1_means=df.groupby('key1').mean().add_prefix('mean_')print k1_meansp

2016-07-14 21:51:49 4988

zhuhengv的博客