数据分析
数据清洗、分析、可视化等
南洲.
写以致用,学以致深
展开
-
简单Python爬虫获取指定网页内容示例
本文使用BeautifulSoup工具,根据网页源码字段分析指定网页网址后,爬取对应字段并储存到文件中,供参考。 刚开始参考了一篇文章:Python获取网页指定内容(BeautifulSoup工具的使用方法),自己尝试后,发现出现错误:urllib.error.HTTPError: HTTP Error 418,查询后发现是:某些网页有反爬虫的机制。解决方法参考原创 2020-10-15 17:03:51 · 16505 阅读 · 1 评论 -
《利用Python 进行数据分析》第十章:时间序列
对《利用Python 进行数据分析》(Wes Mckinney著)一书中的第十章中时间序列进行代码实验。原书中采用的是Python2.7,而我采用的Python3.7在Pycharm调试的,因此对书中源代码进行了一定的修改,每步结果与原文校验对照一致(除了随机函数外;输出结果在注释中,简单的输出就没写结果),全手工敲写,供参考。 Pdf文档和数据集参见:《利用P原创 2020-09-30 14:21:12 · 488 阅读 · 0 评论 -
《利用Python 进行数据分析》第九章:数据聚合与分组运算
对《利用Python 进行数据分析》(Wes Mckinney著)一书中的第九章中数据聚合与分组运算进行代码实验。原书中采用的是Python2.7,而我采用的Python3.7在Pycharm调试的,因此对书中源代码进行了一定的修改,每步结果与原文校验对照一致(除了随机函数外;输出结果在注释中,简单的输出就没写结果),全手工敲写,供参考。 Pdf文档和数据集参见原创 2020-09-28 10:32:51 · 635 阅读 · 0 评论 -
《利用Python 进行数据分析》第八章:绘图和可视化
对《利用Python 进行数据分析》(Wes Mckinney著)一书中的第八章中绘图和可视化进行代码实验。原书中采用的是Python2.7,而我采用的Python3.7在Pycharm调试的,因此对书中源代码进行了一定的修改,每步结果与原文校验对照一致(输出结果在注释中,简单的输出就没写结果),全手工敲写,供参考。 Pdf文档和数据集参见:《利用Python原创 2020-09-24 22:54:34 · 844 阅读 · 0 评论 -
《利用Python 进行数据分析》第七章:数组规整化:清理、转换、合并、重塑
对《利用Python 进行数据分析》(Wes Mckinney著)一书中的七章中数组规整化:清理、转换、合并、重塑进行代码实验。原书中采用的是Python2.7,而我采用的Python3.7在Pycharm调试的,因此对书中源代码进行了一定的修改,每步打印结果(除“随机”相关外)与原文校验对照一致(输出结果在注释中,简单的输出就没写结果),全手工敲写,供参考。 数据加载、储存和文件格式:1、合并数原创 2020-09-22 17:39:12 · 411 阅读 · 0 评论 -
《利用Python 进行数据分析》第六章:数据加载、储存和文件格式
对《利用Python 进行数据分析》(Wes Mckinney著)一书中的六章中数据加载、储存和文件格式进行代码实验。原书中采用的是Python2.7,而我采用的Python3.7在Pycharm调试的,因此对书中源代码进行了一定的修改,每步打印结果(除“随机”相关外)与原文校验对照一致(输出结果在注释中,简单的输出就没写结果),全手工敲写,供参考。 数据加载、储存和文件格式:1、数据加载1.1原创 2020-09-19 22:48:46 · 516 阅读 · 0 评论 -
《利用Python 进行数据分析》第五章:Pandas入门
对《利用Python 进行数据分析》(Wes Mckinney著)一书中的第五章中pandas 入门进行代码实验。原书中采用的是Python2.7,而我采用的Python3.7在Pycharm调试的,因此对书中源代码进行了一定的修改,每步打印结果(除“随机”相关外)与原文校验对照一致(输出结果在注释中,简单的输出就没写结果),全手工敲写,供参考。# -*- coding:utf-8 -*-from pandas import S原创 2020-09-17 23:33:53 · 276 阅读 · 0 评论 -
《利用Python 进行数据分析》第四章:Numpy基础
对《利用Python 进行数据分析》(Wes Mckinney著)一书中的第四章中Numpy基础进行代码实验。原书中采用的是Python2.7,而我采用的Python3.7利用Pycharm调试的,因此对书中源代码进行了一定的修改,每步打印结果原文校验对照一致(部分打印结果已经关闭,需要查看结果则可以打开)供参考。#-*- coding:utf-8 -*-import numpy as np# Numpy基础:数组和矢量计算原创 2020-09-15 14:08:32 · 559 阅读 · 0 评论 -
《利用Python 进行数据分析》第二章:引言中的分析(含pdf和数据集下载链接)
对利用Python 进行数据分析数据中的第二章中的第二部分——1880-2010全美婴儿姓名分析进行代码实验。原书中采用的是Python2.7,而我采用的Python3.7,因此对源代码进行了一定的修改,并且增加了部分画图代码,每步打印结果和画图与原文校验对照一致(部分打印结果已经关闭,需要查看结果则可以打开)供参考。其中《利用Python 进行数据分析》数据集链接如下:  原创 2020-09-12 23:54:58 · 688 阅读 · 0 评论 -
Python list的双循环列表推导
最近看了一个代码,list列表里有一个双循环,看的有点晕,就是如下面代码中的给y的赋值,常见的列表推导是:x = [i for i in range(10)] 但加了两个循环,第一次没看懂(是我见的少了),仔细思考了一下才明白。代码如下:x = [["a","b","c"],["b","e"],["a","d"]]y = list(set([i fo原创 2020-08-12 20:24:30 · 6051 阅读 · 0 评论 -
数据可视化工具介绍
收藏几个数据展示工具,以备后续数据分析展示使用。1、echartshttps://echarts.apache.org/zh/index.html这是一个前端的数据展示工具,里面包含各种炫酷的的数据展示示例,令人惊叹!2、plotyhttps://plotly.com/Plotly是开挂的作图神器,可以供js, python, R, DB等使用3、seabornhttp://seaborn.pydata.org/Seaborn是基于matplotlib的图形可视化python包。它提供了一原创 2020-08-06 16:29:36 · 291 阅读 · 0 评论 -
Python DataFrame 字段中连续相同值定位查找
1、概述 最近数据清洗,需要清除dataframe中每列中有死值(即字段中出现连续同样值的行数,继续出现认为可能数据有异常,例如如果数据连续出现3次相同的值即认为死值),做了一些测试。例如,dataframe的序列值为:[2, 3, 3, 3, 4, 6, 6, 6, 6, 6, 7, 9, 10],连续的“3”和“6”值即判断为死值,找出其下标,即找到下标[1, 2, 3]、 [5, 6, 7, 8, 9]。原创 2020-07-24 12:49:35 · 4713 阅读 · 0 评论 -
Python DataFrame 固定周期内统计每列的非零值
1、概述 最近做一个数值统计,统计固定周期内(比如100行统一次)每列的非零值,实现不难,先统计0值个数,再计算非零值个数,主要是有些关于dataframe的操作技巧可以作为以后的参考。 data.csv文件数据示例格式如下: &nbs原创 2020-07-24 11:23:52 · 3094 阅读 · 0 评论