Python数据分析
文章平均质量分 78
自学总结
知行流浪
不务正业的IT男
展开
-
中国大学排名定向爬取实例
一、功能描述 功能:中国大学排名定向排名爬取。 展示:以简单表格的形式输出大学排名结果,包括排名、大学名称、地点、总得分。 定向URL:http://www.zuihaodaxue.cn/zuihaodaxuepaiming2016.html。二、源代码#coding=utf-8'''Created on 2017年原创 2017-10-25 17:13:06 · 1811 阅读 · 2 评论 -
信息标记与提取方法(XML、JSON、YAML)
信息标记 实际应用中的原始数据往往是杂乱无章的,为了更加方便组织和存储各种信息,以及为计算机处理、传播消息提供一种统一的方法。必须对信息进行一定的标记,信息标记的特点一般有以下几点: 1、标记后的信息可形成信息组织结构,增加了信息维度 2、标记的结构与信息一样具有重要价值 3、标记后的信息可用于通信、存储或展示原创 2017-10-17 21:54:47 · 2841 阅读 · 1 评论 -
Beautiful Soup库入门
Beautiful Soup简介与安装简介 简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup提供一些简单的python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程原创 2017-10-16 19:09:56 · 2054 阅读 · 0 评论 -
Python网络爬虫基础及Requests库入门
Robots协议网络爬虫的问题 在讲python网络爬虫之前,先来看看网络爬虫的一些问题以及robots协议。首先python爬虫功能主要使用的库有Requests库和Scrapy库。他们的区别如下: 正常情况下Web服务器默认接收人类访问,受限于编写水平和目的,网络爬虫将会带来一些问题: 1、性能骚扰:为Web服务器带来巨大的资源开销原创 2017-10-13 22:28:57 · 1384 阅读 · 1 评论 -
Python时间与日期操作(datetime、time、calendar)
名词解释 UTC(CoordinatedUniversal Time,世界协调时)亦即格林威治天文时间,世界标准时间。在中国为UTC+8。 DST(DaylightSaving Time)即夏令时。是一种为节约能源而人为规定地方时间的制度,一般在天亮早的夏季人为将时间提前一小时。相关模块模块说明原创 2017-08-27 16:51:52 · 12918 阅读 · 0 评论 -
Python绘图Turtle库详解
Turtle库是Python语言中一个很流行的绘制图像的函数库,想象一个小乌龟,在一个横轴为x、纵轴为y的坐标系原点,(0,0)位置开始,它根据一组函数指令的控制,在这个平面坐标系中移动,从而在它爬行的路径上绘制了图形。turtle绘图的基础知识:1. 画布(canvas) 画布就是turtle为我们展开用于绘图区域,我们可以设置它的大小和初始位置。 设原创 2017-08-02 17:36:45 · 729037 阅读 · 104 评论 -
Python程序打包成exe可执行文件
Python程序打包工具Python是一个脚本语言,被解释器解释执行。它的发布方式:.py文件:对于开源项目或者源码没那么重要的,直接提供源码,需要使用者自行安装Python并且安装依赖的各种库。(Python官方的各种安装包就是这样做的)。.pyc文件:有些公司或个人因为机密或者各种原因,不愿意源码被运行者看到,可以使用pyc文件发布,pyc文件是Python解释器可以识原创 2017-08-02 16:04:20 · 132353 阅读 · 4 评论 -
Pandas数据特征分析
Pandas数据特征分析 数据的排序.sort_index()方法在指定轴上根据索引进行排序,默认升序。默认0轴升序:.sort_index(axis=0, ascending=True)。.sort_values()方法在指定轴上根据数值进行排序,默认升序。Series.sort_values(axis=0, ascending=True)DataFram原创 2017-07-17 10:32:41 · 6846 阅读 · 0 评论 -
Pandas库入门
Pandas库Pandas是Python第三方库,提供高性能易用数据类型和分析工具import pandas as pdPandas基于NumPy实现,常与NumPy和Matplotlib一同使用 Pandas库的理解两个数据类型:Series, DataFrame基于上述数据类型的各类操作:基本操作、运算操作、特征类操作、关联类操作NumPy原创 2017-07-16 21:20:20 · 18307 阅读 · 2 评论 -
Matplotlib基础绘图函数示例
Pyplot基础图标函数:函数说明plt.plot(x,y,fmt,…)绘制一个坐标图plt.boxplot(data,notch,position)绘制一个箱形图plt.bar(left,height,width,bottom)绘制一个条形图pl原创 2017-07-04 23:06:51 · 5016 阅读 · 0 评论 -
Matplotlib库入门
Matplotlib库:Python优秀的数据可视化第三方库。Matplotlib库由各种可视化类构成,内部结构复杂,受Matlab启发;matplotlib.pyplot是绘制各类可视化图形的命令子库,相当于快捷方式;import matplotlib.pyplot as plt (plt引入模块的别名)。 基本使用# -*- coding: utf-8 -*-原创 2017-07-03 22:32:45 · 5321 阅读 · 2 评论 -
图像的手绘效果
图像的RGB色彩模式: 图像一般使用RGB色彩模式,即每个像素点的颜色由红(R)、绿(G)、蓝(B)组成。 RGB三个颜色通道的变化和叠加得到各种颜色,其中 • R 红色,取值范围,0‐255 • G 绿色,取值范围,0‐255 • B 蓝色,取值范围,0‐255 RGB形成的颜色包括了人类原创 2017-07-03 17:00:58 · 1210 阅读 · 0 评论 -
Numpy数据存取与函数
CSV文件: CSV (Comma‐Separated Value, 逗号分隔值),CSV是一种常见的文件格式,用来存储批量数据。 np.savetxt(frame, array, fmt='%.18e', delimiter=None) 参数说明:frame : 文件、字符串或产生器,可以是.gz或.bz2的压缩文件;array : 存入文件原创 2017-07-01 22:01:02 · 2074 阅读 · 0 评论 -
数据分析Numpy库入门
NumPy库入门Python组织不同维度数据的方式 一维数据:用列表,例如:[3.1398, 3.1349, 3.1376] 有序;和集合类型,例如: {3.1398, 3.1349, 3.1376} 无序。 二维数据:列表类型 多维数据:列表类型,例如:[ [3.1398, 3.1349, 3.1376], [3.1413, 3.140原创 2017-06-10 00:17:32 · 7327 阅读 · 0 评论 -
Python文件操作详解
打开和关闭文件open 函数你必须先用Python内置的open()函数打开一个文件,创建一个file对象,相关的方法才可以调用它进行读写。语法:file object = open(file_name [, access_mode][, buffering])各个参数的细节如下:file_name:file_name变量是一个包含了你要原创 2016-12-21 15:02:43 · 21432 阅读 · 4 评论 -
Python实现简单爬虫
import reimport urllib.requestdef getHtml(url): page = urllib.request.urlopen(url) html = page.read() html=html.decode() return htmldef getImg(html): reg = r'src="(.原创 2016-12-16 00:10:57 · 663 阅读 · 0 评论