利用Python进行数据分析
文章平均质量分 67
Evan_Tech
这个作者很懒,什么都没留下…
展开
-
ch05-pandas入门
pandas库是本书后续内容的首选库。它含有使数据分析工作变得更快更简单的高级数据结构和操作工具。pandas是基于NumPy构建的。让以NumPy为中心的应用变得更加简单 要使用pandas, 首先得熟悉它的两个主要数据结构:Series和DataFrame,虽然它们不能解决所有问题,但它们为大多数应用提供了一种可靠的、易于使用的基础本文摘要SeriesDataFra原创 2018-01-31 15:59:18 · 410 阅读 · 0 评论 -
ch06-数据加载、存储与文件格式
ch06-数据加载、存储与文件格式 如果不能将数据导入导出Python,本书所介绍的这些工具就没什么大用内容提要读取文本格式数据逐块读取文本文件将数据写出到文本格式手工处理分隔符格式读写文本格式的数据path = 'C:\\...\\ex1.csv'跟前面美国婴儿出生数据一文中相似,这个地方打开文件需要借助os模块(这与Python版本是有所关联的)原创 2018-02-01 15:17:49 · 289 阅读 · 0 评论 -
思维导图-利用Python进行数据分析
前面连着几篇笔记介绍了 Wes MxKinney 的利用Python 进行数据分析,这里给出整理的思维导图原创 2018-02-01 16:19:01 · 743 阅读 · 0 评论 -
ch02-MovieLens-1M数据集
MovieLens是一组从20世纪90年代末到21世纪初的由MovieLens用户提供的电影评分数据。这些数据其中包括了电影评分、电影元数据(类型风格和年代)以及关于用户的人口统计学数据(年龄、邮编、性别和职业)。基于机器学习算法的推荐系统一般都会对此类数据感兴趣,这里将会告诉读者如何对数据进行切片切块以满足实际需求。内容提要载入pandas格式数据,并将不同文件的数据基于相同列进原创 2018-01-29 13:30:18 · 4641 阅读 · 0 评论 -
利用Python进行数据分析-ch02-来自bit.ly的1.usa.gov数据
ch02 ’本书将要向你介绍的是用于高效处理数据的Python工具。虽然读者各自工作的最终目的千差万别,但基本上都需要完成一下几个大类的任务: 与外界进行交互 准备 转换 建模和计算 展示 内容提要从txt读入json格式数据,转化为字典使用Python字典函数对字典中某一特定元素进行计数绘制柱状图,并运用原创 2018-01-28 13:32:15 · 1050 阅读 · 0 评论 -
ch03-IPython:一种交互式计算和开发环境
ch03-IPython:一种交互式计算和开发环境 本章的目的是让你对IPython所提供的功能有一个全面的了解本章提要Tab键自动完成魔术指令中断代码给代码段计时Tab键自动完成1)提供拼写辅助an_apple = 27an2)提供方法预览和快捷输入b = [1,2,3]b.3)同样适用于包import numpynumpy.Ta原创 2018-01-29 23:19:48 · 158 阅读 · 0 评论 -
ch04-NumPy基础:数组和矢量计算
NumPy(Numerical Python的简称)是高性能科学计算和数据分析的基础包。它是本书所介绍的几乎所有高级工具的构建基础。其部分功能如下ndarray, 一个具有矢量算数运算和复杂广播能力的快速且节省空间的多维数组用于对证书数据进行快速运算的标准数学函数(无需编写循环)用于读写磁盘数据的工具以及用于操作内存映射文件的工具线性代数、随机数生成以及傅里叶变换工具用于集成由C、原创 2018-01-30 12:23:43 · 420 阅读 · 0 评论 -
ch02-1880-2010年间全美婴儿姓名
ch02-1880-2010年间全美婴儿姓名 美国社会保障总署(SSA)提供了一份从1880年到2010年的婴儿姓名频率数据。Hadley Wickham(许多流行R包的作者)经常用这份数据来演示R的数据处理功能。内容提要了解数据载入数据婴儿出生数变化分析命名趋势评估命名多样性的增长“最后一个字母”的变革了解数据可能是考虑到数据量比较大,本文中采用的原创 2018-01-29 17:50:29 · 3536 阅读 · 3 评论