数据分析
在大数据背景下,各种信息鱼龙混杂,如何找到自己想要的很重要,分析信息得出结论更重要。如何一觅即中,这里告诉你。
Steven·简谈
博观而约取,厚积而薄发
展开
-
sklearn文本聚类分析
面对如今的大数据时代,各种各样的信息令人眼花缭乱,你根本不知道哪些信息是自己所需要的,而一个个看又会浪费很多时间,更不用说对一大堆信息进行分类或总结了。对于聚类处理,这里使用 birch...原创 2020-05-10 19:04:15 · 5533 阅读 · 4 评论 -
Pandas操作csv文件
读取csv文件:read_csv(),对于一般情况下的 csv 数据文件,导入过程非常简单。而且 Pandas 识别到 CSV 的第一行包含列名,并自动使用它们。写入csv文件:to_csv()...原创 2019-05-04 20:53:31 · 6399 阅读 · 0 评论 -
Pandas的绘图方法
一般情况下,通过数据绘图都会使用 Matplotlib 库,当然本篇文章的内容也和它有关。在 Pandas 库中,有一些封装了 Matplotlib 的方法可以更简单地通过处理后的数据来绘制图表,当然要先导入 Matplotlib 库才能使用。不管是 Series 还是 DataFrame 类型的数据,调用的方法都是一样的,只是后者要多处理一下。折线图import pandas as pd...原创 2019-03-06 14:00:08 · 10223 阅读 · 0 评论 -
Matplotlib绘制图表
Matplotlib 库功能十分强大,内容也非常多,本篇简单介绍一下各种常用图表的绘制。Matplotlib是一个Python 2D绘图库,可以生成各种硬拷贝格式和跨平台交互式环境的出版物质量数据。Matplotlib可用于Python脚本,Python和IPython shell,Jupyter笔记本,Web应用程序服务器和四个图形用户界面工具包。Matplotlib试图让简单易事的事...原创 2019-03-01 19:51:48 · 5775 阅读 · 0 评论 -
Pandas的计数方法
value_counts() 是一种查看表格某列中有多少个不同值的快捷方法,并计算每个不同值有在该列中有多少重复值。是 Series 拥有的方法,统计所有非零元素的个数,默认以降序的方式输出Series,一般在 DataFrame 中使用时,需要指定对哪一列或行使用。在Series类型中:只有一条数据,不需要指定列数:import pandas as pd...原创 2019-02-26 00:30:32 · 12657 阅读 · 0 评论 -
Pandas的排序、排名方法
Pandas 是一个灵活而强大的Python数据分析 / 操作库,提供快速、灵活和富有表现力的数据结构,旨在使“关系”或“标记”数据的使用既简单又直观,功能十分强大。本文旨在讲解一下排序、排名的函数,毕竟内容还是太多了,不是一篇文章可以讲解完全的。这里挑选一部分,可以写得更清楚一点,当然这些内容也是很重要的。排序sort_index(axis=0, ascending=True)根据行或...原创 2019-02-20 13:47:17 · 27974 阅读 · 0 评论 -
Python数据分析豆瓣电影Top250
初学数据分析,这次就来分析一下电影信息。豆瓣电影的实战项目网上文章也不少,不过还是要自己操作一下才能理解得更深刻一点,也顺便了解一下这些电影的特点。。项目涉及的是一个特殊的电影排行榜,能上榜的想必都是非常受欢迎的电影,毕竟豆瓣上的评分还有热度都是很有参考性的。所以在这里对这个排行榜的排列标准探索一下,当然也只是粗略地分析。豆瓣用户每天都在对“看过”的电影进行“很差”到“力荐”的评价,豆瓣根据每...原创 2019-02-18 21:13:47 · 15274 阅读 · 12 评论