数据分析
天天卡丁
这个作者很懒,什么都没留下…
展开
-
阿里云原生大数据计算服务maxcompute学习体验
这两天有兴趣学习了下阿里的maxcompute大数据,随便谈谈自己的感受。原创 2023-06-28 22:43:45 · 1055 阅读 · 0 评论 -
每日10行代码169:使用xlwings修改excel格式,设置中国式报表
背景:工作上,经常需要从数据库产出报表,由于这种报表需要提交给领导看,所以对格式的要求要比平常高不少,每次设置格式虽然花的时间不算太多,但是长期下来,积少成多,花在格式上的时间就会太多,为了方便调整格式,我写了下面的脚本,主要功能是设置中国式报表,具体为:表格上面有一行合并居中的标题,标题下面左边是查询日期,单位,表格最下面有合计行。...原创 2022-07-05 08:49:04 · 1691 阅读 · 0 评论 -
每日10行代码168:认识np.array对象——np.array数组创建
np.array可以从python列表创建数组:创建整型数组:In [6]: np.array([1,4,2,5,3])Out[6]: array([1, 4, 2, 5, 3])跟python列表 不同的时,Nunpy要求数组必须包含同一类型的数据。如果类型不匹配,Numpy将会隐式的转换。In [7]: np.array([3.14,4,2,3])Out[7]: array([3.14, 4. , 2. , 3. ])上面的整型被转换成了浮点型。如果希望明确设置数组的数据类型,原创 2022-05-12 15:02:30 · 2190 阅读 · 2 评论 -
每日10行代码167:认识pandas中的DataFrame 数据结构4
接上一章:也可以用包含字典的嵌套字典来创建DataFrameIn [5]: pop = {'Nevada': {2001:2.4, 2002: 2.9},'Ohio': {2000:1.5, 2001:1.7, 2002:33.6}}In [6]: frame3 = pd.DataFrame(pop)In [7]: frame3Out[7]: Nevada Ohio2001 2.4 1.72002 2.9 33.62000 NaN 1.5原创 2022-05-09 19:39:21 · 582 阅读 · 0 评论 -
每日10行代码166:认识pandas中的DataFrame 数据结构3
接上一章可以直接对列进行赋值,比如赋一个常量:In [97]: frame2['dept']Out[97]:one NaNtwo NaNthree NaNfour NaNfive NaNsix NaNName: dept, dtype: objectIn [98]: frame2['dept']=16.5In [99]: frame2Out[99]: year state pop deptone原创 2022-05-08 07:34:51 · 624 阅读 · 0 评论 -
每日10行代码165:认识pandas中的DataFrame 数据结构2——DateFrame中的定位
接上一章能创建DateFrame后,自然会关注怎么从DateFrame中取到数据。首先可以用字典的方式:In [73]: frame2Out[73]: year state pop deptone 2000 Ohio 1.5 NaNtwo 2001 Ohio 1.7 NaNthree 2002 Ohio 3.6 NaNfour 2001 Nevada 2.4 NaNfive 2002 Nevada 2.9 N原创 2022-05-04 18:12:28 · 867 阅读 · 0 评论 -
每日10行代码164:认识pandas中的DataFrame 数据结构1——创建DataFrame
DataFrame可以说是pandas的核心,如果熟悉DataFrame对象的各种操作,可以说已经学会了pandas.DataFrame表示的是矩阵的数据表,有点像数据库中的表,它包含已排序的列集合,每一列可以是不同的数据类型。DataFrame既有行索引也有列索引 ,DataFrame一般是二维的,但是可以通过分层索引来展现更高维度的数据。有多种方式可以构建DataFrame,其中最常用的方式是利用包含等长度列表或 Numpy数组的字典来形成DataFrame:In [66]: data = {'s原创 2022-05-02 16:25:20 · 842 阅读 · 0 评论 -
每日10行代码163:认识pandas中的series数据结构3
接上一章Series中有一种自动对齐索引的特性,这也是一种很有用的特性。In [32]: obj3Out[32]:Ohio 35000Texas 71000Oregon 160000Utah 5000dtype: int64In [33]: obj4Out[33]:California NaNOhio 35000.0Oregon 160000.0Texas 71000.原创 2022-05-02 15:45:02 · 1930 阅读 · 0 评论 -
每日10行代码161:认识pandas中的series数据结构1
最近在做数据分析,所以用了一些pandas,但是在用的过程中,深感基础不扎实,不能达到灵活运用的程度,于是想着深入学一下pandas. 那么就先从series开始。Series是pandas里最基础的一个数据结构,虽然DateFrame常常用得更多,但series仍然是pandas里基础的基础,DateFrame中的列也都是一个series.series是一种一维的数组型对象,有点类似于python原生的列表,但考虑到他也有索引,所以跟字典也有一些类似 。In [2]: import pandas a原创 2022-05-01 07:45:39 · 777 阅读 · 0 评论 -
每日10行代码160:对比sql学习pandas-1
sql是我数据分析时经常用到的工具,但是进入更深层的数据分析时,需要用到python,这时就不得不跟pandas打交道。在用pandas时会不自觉的想到怎么用pandas实现一些常用的sql语句功能。示例:假如我有一张公司开具的发票明细数据表fp, pandas中的dataframe对象为df对比一sql实现:select * from fppandas实现:df但是这样数据可能会显示不全,这一点跟sql有所区别,pl/sql里默认是显示所有列和部分行,如果想查看所有行列,可能进行如下操作原创 2022-04-25 21:34:14 · 785 阅读 · 0 评论 -
每日10行代码153:pandas在指定索引处插入列
import pandas as pddf = pd.DataFrame({'B': [1,2,3], 'C': [4,5,6]})df B C 0 1 4 1 2 5 2 3 6 idx=0new_col = [7,8,9]df.in原创 2021-07-26 12:08:13 · 199 阅读 · 0 评论