2017年02月_喂鱼W_y

转载爬虫工具：PhantomJS

前言：Phantomjs 帮助我们像浏览器一样渲染JS处理的页面。安装：下载地址官方文档1.第一个程序新建一个 js 文件，命名为 helloworld.js。 console.log(‘Hello, world!’); phantom.exit();命令行输入： phantomjs helloworld.js程序输出了 Hello，world！程序第二句话终止了 phantom

2017-02-25 20:50:11 310

转载 Mysql入门

(I)一、前言　　Mysql是目前最流行的关系型数据库管理系统，在web应用方面Mysql是最好的RDBMS(关系数据库管理系统)应用软件之一。二、什么是数据库？　　数据库（database）是按照数据结构来组织、存储和管理数据的仓库，每个数据库都有一个或多个API用于创建，访问，管理，搜索和复制所保存的数据。　　所谓关系型数据库，是建立在关系模型基础上的数据库，借助于集合代数等数学概念和方法来

2017-02-24 22:08:48 640

转载 urllib2 实现简单爬取12306网站

开发工具:python2.7主要是用的库：urllib2爬取对象：12306购票系统1、首先我们的任务是选取合适的网页入口，打开12306官网：我们先试试进入余票查询：第一次进入这个网站我们发现报错了，在网址http处红色显示证书不符合要求，我们暂时忽略。点击查询按钮，这时候我们看到页面并没有变化。我们按F12进入开发者工具看看：我们进入Network选项，再次点击查询发现下方显示拒绝访

2017-02-24 00:22:47 1484

转载 Flask 之模板

3.1 Jinja2 模板引擎3.1.1 渲染模板 3.1.2 变量 3.1.3 控制结构3.2 使用 Flask-Bootstrap 集成 Twitter Bootstrap

2017-02-23 23:39:50 365

转载 2017年二月

matlplotlib 什么是动态语言，优缺点。 isinstance 在Python中可以使用type()与isinstance()这两个函数判断对象类型，而isinstance()函数的使用上比type更加方便列表的sort()方法没有返回值 num.isdigit() num.isnumeric()sort sorted Python 列表排序方法reverse、sort、so

2017-02-21 20:49:59 203

1、甲乙做一个游戏叫做pick a number ，给定一个数字list，甲先从list首尾选一个数字，然后乙从剩下数字首尾选一个数字，已知甲乙都足够聪明，以保证自己拿到的最终分数最高，用递归写出PICK A NUMBER的程序比如list=[3,5,2,1]，最终甲乙得分为[6,5]。2、Arthur最近搬到了新的别墅，别墅特别大，原先的桌子显得比较小，所以他决定换一张新的桌子。他买了一张...

2017-02-21 19:26:27 958

转载 python基础知识之常用函数

1、格式化字符串的函数str.format() 语法：它通过{}和:来代替%。 “映射”示例>>>'{0},{1}'.format('kzc',18) 'kzc,18'>>>'{},{}'.format('kzc',18) 'kzc,18'>>>'{1},{0},{1}'.format('kzc',18) '18,kzc,18'2、getattr() getattr(object

2017-02-21 16:40:49 436

转载爬虫工具lxml库的使用和Xpath语法

安装 pip install lxmlXpath 语法：Ｘpath是一门在XML文档中查找信息的语言。XPath可用来在XML文档中对元素和属性遍历。XPath是W3C XSLT标准的主要元素，并且XQuery和XPointer都构建于Xpath表达之上。具体语法知识参考 w3schoollmxl用法利用它解析HTML代码：from lxml import etreetext

2017-02-20 21:53:22 1232

转载爬取糗事百科

目标：１、抓取糗事百科热门段子。２、过滤带有图片的端子。３、实现每按依次回车显示一个段子的发布时间，发布人，段子内容，点赞数。(这个网站不需要登陆，不需要用到cookie)１、确定ＵＲＬ抓取页面代码 http://www.qiushibaike.com/hot/page/1,其中最后一个数字代表页数。-*-coding:utf-8-*-import urllibimport urllib2pa

2017-02-20 17:48:46 340

转载 python基础教程里的项目２：画幅好画

本项目介绍如何在python中创建图形，利用图形创建一个pdf文件，将文本文件数据可视化。程序要求满足：１、从网上下载数据。２、分析数据并提取感兴趣的部分。３、根据数据生成PDF文件。本文用到的工具包是ReportLab,首先安装(linux系统下)： pip install reportlab待续。。。

2017-02-20 16:10:22 659

转载 Hadoop初识之

Hadoop 历史雏形开始于2002年的Apache的Nutch,Nutch是一个开源java实现的搜索引擎。它提供我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。随后在2003年Google发表了一篇技术学术论文谷歌系统(GFS)。(GFS)也就是google File System, google 公司为了让存储海量搜索数据而设计的专门文件系统。 2004年N

2017-02-19 00:39:47 471

转载 2017开始学爬虫

记录一下学习打造收集数据网站的过程　　链接：www.mite8.com，学习如何做出类似这样的网站。　　这个网站特点主要体现在爬虫＋数据分析＋数据可视化，现在将学习如何打通从收集数据，到处理，到分析，到网站数据可视化整套流程。　　技术方面需要关注: 　　 1.如何解决数据源的问题：爬，所以需要爬虫知识　　 2.如何做数据存储：ＭＹＳＱＬ　　 3.如何做数据分析：

2017-02-18 13:39:46 1116

转载 python：文件的相关操作

一、创建新文件，内容是abcdefg,每个字母占一行：f = open('f.txt', 'w')#r只读，w可写，a追加for i in 'abcdefg': f.write(str(i)+'\n')f.close()二、文件内容追加，从０到９的１０个随机整数：import randomf = open('f.txt','a')for i in range(0,10): f

2017-02-17 21:01:27 242

转载学习python爬虫之菜鸟日记（一）

学习python已经有快半年了，感觉零零碎碎的也看了不少东西，总感觉自己是在原地踏步无法入门，十分苦恼啊。本着鼓励自己学习的目的，开通了一个博客来激励自己好好学习。作为小白一枚，目前只能简单的做做搬运工，看到好的东西记录下来，慢慢来咯。最近在看网络爬虫，记录一下。这个makedown第一次用，写起来略感困难啊，我个渣渣啊。废话不多说，开始搬砖。一、爬虫入门之URLError异常处理１.URL

2017-02-17 20:00:11 897

wyisfish的博客