自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(14)
  • 收藏
  • 关注

转载 爬虫工具:PhantomJS

前言:Phantomjs 帮助我们像浏览器一样渲染JS处理的页面。安装:下载地址官方文档1.第一个程序新建一个 js 文件,命名为 helloworld.js。 console.log(‘Hello, world!’); phantom.exit();命令行输入: phantomjs helloworld.js程序输出了 Hello,world!程序第二句话终止了 phantom

2017-02-25 20:50:11 310

转载 Mysql入门

(I)一、前言  Mysql是目前最流行的关系型数据库管理系统,在web应用方面Mysql是最好的RDBMS(关系数据库管理系统)应用软件之一。二、什么是数据库?  数据库(database)是按照数据结构来组织、存储和管理数据的仓库,每个数据库都有一个或多个API用于创建,访问,管理,搜索和复制所保存的数据。   所谓关系型数据库,是建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来

2017-02-24 22:08:48 640

转载 urllib2 实现简单爬取12306网站

开发工具:python2.7主要是用的库:urllib2爬取对象:12306购票系统1、首先我们的任务是选取合适的网页入口,打开12306官网:我们先试试进入余票查询: 第一次进入这个网站我们发现报错了,在网址http处红色显示证书不符合要求,我们暂时忽略。点击查询按钮,这时候我们看到页面并没有变化。我们按F12进入开发者工具看看: 我们进入Network选项,再次点击查询发现下方显示拒绝访

2017-02-24 00:22:47 1484

转载 Flask 之模板

3.1 Jinja2 模板引擎3.1.1 渲染模板 3.1.2 变量 3.1.3 控制结构3.2 使用 Flask-Bootstrap 集成 Twitter Bootstrap

2017-02-23 23:39:50 365

转载 2017年二月

matlplotlib 什么是动态语言,优缺点。 isinstance 在Python中可以使用type()与isinstance()这两个函数判断对象类型,而isinstance()函数的使用上比type更加方便 列表的sort()方法没有返回值 num.isdigit() num.isnumeric()sort sorted Python 列表排序方法reverse、sort、so

2017-02-21 20:49:59 203

转载 有趣的编程题

1、甲乙做一个游戏叫做pick a number ,给定一个数字list,甲先从list首尾选一个数字,然后乙从剩下数字首尾选一个数字,已知甲乙都足够聪明,以保证自己拿到的最终分数最高,用递归写出PICK A NUMBER的程序 比如list=[3,5,2,1],最终甲乙得分为[6,5]。2、Arthur最近搬到了新的别墅,别墅特别大,原先的桌子显得比较小,所以他决定换一张新的桌子。他买了一张...

2017-02-21 19:26:27 958

转载 python基础知识之常用函数

1、格式化字符串的函数str.format() 语法: 它通过{}和:来代替%。 “映射”示例>>>'{0},{1}'.format('kzc',18) 'kzc,18'>>>'{},{}'.format('kzc',18) 'kzc,18'>>>'{1},{0},{1}'.format('kzc',18) '18,kzc,18'2、getattr() getattr(object

2017-02-21 16:40:49 436

转载 爬虫工具lxml库的使用和Xpath语法

安装 pip install lxmlXpath 语法: Xpath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性遍历。XPath是W3C XSLT标准的主要元素,并且XQuery和XPointer都构建于Xpath表达之上。 具体语法知识参考 w3schoollmxl用法 利用它解析HTML代码:from lxml import etreetext

2017-02-20 21:53:22 1232

转载 爬取糗事百科

目标:1、抓取糗事百科热门段子。2、过滤带有图片的端子。3、实现每按依次回车显示一个段子的发布时间,发布人,段子内容,点赞数。(这个网站不需要登陆,不需要用到cookie)1、确定URL抓取页面代码 http://www.qiushibaike.com/hot/page/1,其中最后一个数字代表页数。-*-coding:utf-8-*-import urllibimport urllib2pa

2017-02-20 17:48:46 340

转载 python基础教程里的项目2:画幅好画

本项目介绍如何在python中创建图形,利用图形创建一个pdf文件,将文本文件数据可视化。 程序要求满足:1、从网上下载数据。2、分析数据并提取感兴趣的部分。3、根据数据生成PDF文件。 本文用到的工具包是ReportLab,首先安装(linux系统下): pip install reportlab待续。。。

2017-02-20 16:10:22 659

转载 Hadoop初识之

Hadoop 历史 雏形开始于2002年的Apache的Nutch,Nutch是一个开源java实现的搜索引擎。它提供我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。 随后在2003年Google发表了一篇技术学术论文谷歌系统(GFS)。(GFS)也就是google File System, google 公司为了让存储海量搜索数据而设计的专门文件系统。 2004年N

2017-02-19 00:39:47 471

转载 2017开始学爬虫

记录一下学习打造收集数据网站的过程  链接:www.mite8.com,学习如何做出类似这样的网站。  这个网站特点主要体现在爬虫+数据分析+数据可视化,现在将学习如何打通从收集数据,到处理,到分析,到网站数据可视化整套流程。   技术方面需要关注:    1.如何解决数据源的问题:爬,所以需要爬虫知识    2.如何做数据存储:MYSQL    3.如何做数据分析:

2017-02-18 13:39:46 1116

转载 python:文件的相关操作

一、创建新文件,内容是abcdefg,每个字母占一行:f = open('f.txt', 'w')#r只读,w可写,a追加for i in 'abcdefg': f.write(str(i)+'\n')f.close()二、文件内容追加,从0到9的10个随机整数:import randomf = open('f.txt','a')for i in range(0,10): f

2017-02-17 21:01:27 242

转载 学习python爬虫之菜鸟日记(一)

学习python已经有快半年了,感觉零零碎碎的也看了不少东西,总感觉自己是在原地踏步无法入门,十分苦恼啊。本着鼓励自己学习的目的,开通了一个博客来激励自己好好学习。 作为小白一枚,目前只能简单的做做搬运工,看到好的东西记录下来,慢慢来咯。 最近在看网络爬虫,记录一下。这个makedown第一次用,写起来略感困难啊,我个渣渣啊。废话不多说,开始搬砖。一、爬虫入门之URLError异常处理1.URL

2017-02-17 20:00:11 897

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除