自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

会飞的大象

数仓,Python,爬虫

  • 博客(135)
  • 资源 (4)
  • 问答 (7)
  • 收藏
  • 关注

原创 【Pandas与SQL系列】Pandas实现分布函数percent_rank、cume_dist

Pandas实现分布函数percent_rank、cume_dist应用场景:快速查看某个记录所归属的组内的比例percent_rank()cume_dist()

2023-05-14 10:58:00 561 1

原创 【读书笔记】商业模式三:互联网广告

互联网广告,是指通过网站、网页、互联网应用程序等互联网媒介,以文字、图片、音频、视频或者其他形式,直接或者间接地推销商品或者服务的商业广告。

2023-03-30 23:36:38 224

原创 【读书笔记】商业模式二:SaaS

SaaS是Software as a Service的缩写,意为软件即服务。SaaS是一种软件部署模式,**第三方供应商在云基础设施上构建应用程序,并以付费订阅的形式,通过互联网向客户提供这些应用程序,不要求客户预先建设底层基础设施**。这意味着软件可以在任何有互联网连接和网络浏览器的设备上访问使用,而不像传统软件那样只能在本地机器上安装使用。

2023-03-26 10:50:00 744

原创 【读书笔记】电子商务

四种业务模式、三种电商模式、电商运营、电商指标体系

2023-03-19 20:51:50 394

原创 【读书笔记】《深入浅出数据分析》第十、十一章 回归、合理误差

在大数据分析中,回归分析是一种预测性的建模技术,它研究的是因变量(目标)和自变量(预测器)之间的关系。这种技术通常用于预测分析,时间序列模型以及发现变量之间的因果关系。例如,司机的鲁莽驾驶与道路交通事故数量之间的关系,最好的研究方法就是回归。标准差、方差、协方差、残差、均方误差、标准误差

2023-03-12 13:18:41 254

原创 【读书笔记】《深入浅出数据分析》第八章 启发法

那什么是启发法?如何去分析活动效果呢?

2023-03-06 23:21:25 115

原创 【读书笔记】《深入浅出数据分析》第六章 贝叶斯统计

朴素贝叶斯分类就是运用贝叶斯公式,把P(A)称为"先验概率"(Prior probability),即在B事件发生之前,我们对A事件概率的一个判断。P(A|B)称为"后验概率"(Posterior probability),即在B事件发生之后,我们对A事件概率的重新评估。P(B|A)/P(B)称为"可能性函数"(Likelyhood),这是一个调整因子,使得预估概率更接近真实概率。

2023-03-02 22:29:30 87

原创 【读书笔记】《深入浅出数据分析》第四章 图像让你更精明

一,为什么要做可视化?数据本身是有沟通障碍的,很难通过语言沟通将一组数据表达清楚,尤其是当我们的客户或者leader对数据不敏感时,此时的可视化就相当于是一种“翻译”。**所谓“字不如表,表不如图。”**,纵使数据分析师表达能力再强,效果也会大打折扣。可视化目的就是将数据以及数据背后的逻辑,准确又高效地传递给对方。

2023-02-28 09:30:00 130

原创 【读书笔记】《深入浅出数据分析》第三章 寻找最大值

Excel却是最基础、最高频、最有机会展示的一款数据分析工具,作为数据工作者,实际工作中,不管用不用的上,至少到达会的水准

2023-02-25 21:07:09 304

原创 【读书笔记】《深入浅出数据分析》第二章 检验你的理论

本章主要说明了两个问题:1,相关性不等于因果关系2,如何判断两种数据之间是相关性,还是因果关系?

2023-02-23 22:39:31 413 1

原创 【读书笔记】《深入浅出数据分析》第一章 分解数据

当业务方或者leader给你提诉求时,往往都是会比较模糊,他们会简单的说下诉求,然后给你一些数据。**这时候也许就会用提供的数据做些可视化,可视化时可以发现些问题,但是此时,问题或者目标是未明确,没有切入点。

2023-02-21 21:50:46 249

原创 【Python】Python操作MySQL详解——PyMySQL

PyMySQL模块简介纯Python实现的模块,可以与Python代码兼容衔接,并也几乎兼容MySQL-python。遵循 Python 数据库 API v2.0 规范。安装PyMySQL需要满足以下需求。

2023-01-31 22:37:49 7673 2

原创 【Python】函数参数分类、用法与新特性

函数参数看似很平常,在深究后发现其中还是有很多东西,参数分类、用法和新特性等,都可以体会到Python是真的灵活好用。

2023-01-19 00:05:58 1379

原创 【数据说第四期】篮球比赛中的投篮选择

参加过篮球比赛的同学,在球场上是否有这样的经历?当上一次投篮未命中时,你会倾向于比上一次更近的距离出手投篮,当上一次投篮稳稳命中时,你会想尝试下比上一次更更远距离的出手。于是,抓取了一些NBA球员的数据,来看看他们在这些情况下,做出怎样的投篮选择?

2022-11-20 17:41:18 425

原创 【Python】Python 匿名函数—— lambda 函数

lambda 函数在 Python 编程语言中使用频率非常高,使用起来非常灵活、巧妙;lambda 函数是一个匿名函数(即,没有名称定义),它可以接受任意数量的参数,但与普通函数不同,它只计算并返回一个表达式

2022-10-22 21:33:08 2525

原创 【Linux】使用 ssh 远程连接Ubuntu 报错“server responded “algorithm negotiation failed”

在阿里云购买了一台服务器,并安装了Ubuntu20.04后,使用ssh 远程登录时,报错"server responded "algorithm negotiation failed”看了网上的解决方法都是在 /etc/ssh/sshd_config 中添加对应一些加密算法,再重启ssh服务。这方法我信了,结果ssh直接挂了,,,结果阿里云自带的远程都没法连接服务器了,幸好有快照可以恢复、挂掉的原因是添加的算法中,不是所有算法都可以支持!!(可能是版本问题导致)使用 sshd -T 可以查看ss

2022-01-02 20:18:38 1219 1

原创 【Python】再来聊一聊这道面试题:Python 2和Python 3中range()有何区别?

一,经典面试题在python面试题中有一道经典的基础面试题:Python 2和Python 3中range()有何区别?相信大家也都知道答案了,Python2.x range() 函数可创建一个整数列表,Python3 range() 函数返回的是一个可迭代对象(类型是对象),而不是列表类型。迭代是Python最强大的功能之一,平时的开发都会使用到迭代,就再来聊一聊Python这个强大的功能。二,再来聊一聊迭代器与生成器平时自学的时候都会使用到迭代,但看到可迭代对象(iterable)、迭代器(i

2021-08-08 22:22:42 228 2

原创 【数据结构】Python 递归创建二叉树以及遍历二叉树

一,二叉树二,二叉树的创建和遍历三,Binarytree库的使用

2021-07-05 21:43:08 3528 2

原创 【数据结构】全网最全!!Python实现常用队列

一,队列和栈一样,队列是一种特殊的线性表,特殊之处在于它只允许在表的前端(front)进行删除操作,而在表的后端(rear)进行插入操作。队列是一种操作受限制的线性表,进行插入操作的端称为队尾,进行删除操作的端称为队头。队列中没有元素时,称为空队列。二,常见队列1,FIFO队列直接调用queue.Queue链表实现List实现2,LIFO队列直接调用queue.LifoQueue链表实现List实现3,双向队列直接调用collections .deque链表实现List实现4,

2021-06-15 23:35:29 669 3

原创 【数据结构】Python实现栈,以及经典算法题实现

一,Python实现栈1,栈栈(stack)又名堆栈,它是一种特殊的线性表,这种线性表只能在尾部(栈顶)插入、删除元素。它按照先进后出(FILO)的原则存储数据,先进入的数据被压入栈底,最后的数据在栈顶,所以后进的元素最先被弹出栈,先进的元素后弹出。2,List 实现栈使用Python 中基本的数据结构——List就可以实现栈,使用List是因为1,List也可以看出一种线性表;2,List方法中的append、pop已经实现了尾部插入、删除,可直接调用;关于List可看看之前的博文:【数据

2021-06-06 16:50:57 827 2

原创 【数据结构】Python 中实现链表

一,课本的链表二,Pyhton的链表1,单链表2,静态链表3,单向循环链表4,双向循环链表

2021-05-27 22:49:38 701

原创 【数据结构】Python中的顺序表——List

大学必修课《数据结构与算法》是计算机一门必修课,不管是在哪个大学。记得当时学这门课程是还是有C语言实现的,接触到的第一种数据结构是线性表中的顺序表,是使用数组实现,结构代码如下:#define MAXSIZE 20typedef int ElemType;typedef struct{ ElemType data[MAXSIZE]; int length ;//顺序表当前长度}Sqlist;这里封装了一个结构,其实是对数据进行封装,数据的最大长度定义为MAXSIZE,另外增加一个记录数据

2021-05-02 12:52:29 747 4

原创 【Python】collections.deque用法,以及双向队列实现

一,概述deque 是Python标准库 collections 中的一个类,是 double-ended queue的缩写,实现了两端都可以操作的队列,相当于双端队列。类似于 list,与list不同的是,deque实现拥有更低的时间和空间复杂度。二,内置方法1,添加元素from collections import dequedq = deque(maxlen=3) # 创建固定长度的队列# append(x) 在队列右端(尾部)添加x,和普通的列表append方法一样dq.appen

2021-04-24 18:03:14 1406 2

原创 【数据说第三期】基金经理观察录

对于基金和理财的关注,很早就已经开始,现在不买点基金理财,都不好融入90后的社交圈,除了聊购买的基金,还会常聊到基金经理。虽然没有购买过大神管理的基金,但是也会时常憧憬着自己可以跟随着他们实现财富自由。拥有高收益,高回报也承担着高风险的基金经理到底是一群怎么样的人?有超过7成的基金经理都是男性,基金经理也是个发际线越来越高的职业。高学历也是基金经理特征之一,高开高走的人生不需要解释太多。从职业年限来看。1年以下和5至6年的经理居多。职业年限最高的是王茜女士,从2003年10月开始从事基金经理。职

2021-03-03 22:06:03 181 2

原创 【数据说第二期】联盟第一人詹姆斯四个时期大PK

前言NBA2020-2021赛季已经差不多进行了1个多月,本赛季也是詹姆斯的第17个赛季,前不久也度过了36岁生日。虽然已经36岁,但是老詹依然排在本赛季MVP榜前5。本赛季老詹的数据依旧20+5+5,湖人本赛季也位居西部前三。回顾詹姆斯17年职业生涯,可以划分为四个时期:1.0前骑士詹,2.0热火詹,3.0后骑士詹,4.0湖人詹那么,问题来了,你觉得哪个时期的詹姆斯是最前形态?额。。。从2k能力值看,詹姆斯似乎没有怎么进步呀!?四个时期大PK1,投篮点,投篮命中率从投篮点分布看,詹

2021-02-01 22:27:41 4906

原创 【数据说第一期】数说广东的冬天

前言2021年新年伊始,广东也入冬,开启速冻模式,虽然迟到但从不缺席,最近几天广东各地最低气温都降到10℃以下,不少地方地方都出现霜降和结冰。前段时间,大家都在吐槽“全国瞒着广东过冬”,“广东对冬天的尊重”,而如今广东就开启速冻模式,让广东银感受下冬天的感觉。本文爬取广东境内37个气象观测站,2010-2019年气象数据进行可视化。数据来源地址:http://data.sheshiyuanyi.com/WeatherData/数据包括气温、相对湿度、风速以及日照时长,降水数据由于缺失太多,不采用。

2021-01-10 22:45:17 487 1

原创 【Pandas 小记】不同场景下的Excel、sheet合并

在日常数据处理分析过程中,大家都会遇到将一个Excel内的多个sheet合并,或者多个Excel的相同sheet合并的情况。手动复制粘贴或者使用VBA都可以实现,但是数据量多时就GG,即使是VBA也会卡住,至从学了Pandas后,都可以搞定。1,同一个Excel内不同sheet合并def oexcel_msheet(dirpath): file_list = os.listdir(dirpath) for file in file_list: dfs = []

2020-12-15 23:48:15 459 1

原创 【Python】 os.listdir 引发的思考,Windows 中c: 与 c:\ 的不同

1,问题来源os.listdir() 方法用于返回指定的文件夹包含的文件或文件夹的名字的列表。那么以下这段代码的输出结果会是如何?import osdpath = 'E:'path = 'E:\\'print(os.getcwd()) # 当前工作目录 E:\jupyterprint(dpath,os.listdir(dpath))print(path,os.listdir(path))对于 os.listdir(dpath) 与 os.listdir(path) 的结果,大家

2020-11-21 21:14:00 1373

原创 【Linux】浅析文件属性与权限相关命令

1,chown该命令用于修改文件的所有者,或者同时修改所有者与用户组。注意1,只要root才能执行该命令,普通用户无法执行,即使是文件的所有者。2,用户必须已存在于系统,也就是在/etc/passwd中有记录的用户名。[yang@localhost tmp]$ lltotal 4-rwxrw-r--. 1 yang yang1 8 Nov 15 23:09 test[yang@localhost tmp]$ chown -v alex test # 只要root才能执行该命令,普通

2020-11-16 23:36:52 258

原创 【总结】工作两年小结与思考

2018年6月毕业后,入职深圳一家SAP实施企业,成为一名BI工程师,到碧桂园总部做实施顾问,其实也就做报表,期间接触,了解房地产行业业务,怎么说呢,这家公司蛮不错的,公司里的人都很活力,并且对待新人很乐意教你,带你。只是后来自己觉得SAP的后面的路有点窄,因为SAP有自己一套生态,一入行就一直会待在这个圈子中。并没有说SAP不好,怎么滴,SAP已经很成熟了,世界500强企业基本都在用。你可以选择做甲方或乙方,或者自由顾问。每个接触的东西不一样。技术要求不一样,当然薪资水平也不一样,到国外企业做顾问就更加

2020-07-19 10:30:48 313

原创 【Oracle】关于NULL,你是不是有很多问号?

一,定义1,NULL定义2,NULL与三值逻辑二,NULL的使用规则三,NULL处理

2020-07-10 19:48:14 343

原创 【Oracle】深入多表连接

【Oracle】使用表连接时的一些思考

2020-06-08 14:30:12 1944

原创 【Oracle】一条SQL的一生

一,基础概念1,Oracle内存结构oracle内存结构由两部分组成SGA(系统全局区)和PGA(用户全局区)组成1.1, SGA(System Global Area)系统全局区这是一个非常庞大的内存区间,也是为什么开启oracle之后占用了很大内存的原因。这块区域由所有服务进程和后台进程共享; SGA分为不同的池,我们可以通过视图vsgastat查看selectpool,sum(bytes)bytesfromvsgastat查看select pool ,sum(bytes) bytes fro

2020-05-29 15:23:38 422

原创 【Python】numpy数组索引

numpy数组索引是一个大话题,有很多种方式可以让你选中数据中的子集或者某个元素。主要有以下四种方式:一,基础索引在一维数组中,你可以使用中括号指定索引获取第i个值(从0开始计数),但是对于多维的数组,每个索引值对应的元素不再是一个数值,例如,在一个二维数组中,将得到一个以为数组。单个元素可以继续索引,或者传递一个索引的列表选择单个元素。import numpy as nparr = n...

2020-04-08 00:50:11 17220 1

原创 【pandas 小记】Categoricals数据类型

pandas category数据类型https://www.cnblogs.com/onemorepoint/p/9407638.htmlhttps://www.cnblogs.com/zry-yt/p/11803892.htmlhttps://blog.csdn.net/mengenqing/article/details/80616094https://pandas.pydata.o...

2020-03-30 22:08:12 1368

原创 【Oracle】浅析 用SQL求第K大问题

一,问题提出问题:已知学生成绩表su,包含id,score两个字段,现需要取出成绩第二高的记录。建表语句:-- oracleCREATE TABLE sc ( id NUMBER, score NUMBER ) -- mysqlCREATE TABLE `sc` ( `id` INT(11) DEFAULT NULL, `score` INT(11) DE...

2020-03-16 19:25:56 659

原创 【Oracle】Oracle数据开发review

一,回顾掐指一算,满打满算出来工作已经两年,期间换过一次工作,不过两份工作基本都是和Oracle数据库,SQL开发相关。在读书时基本上没接触过Oracle,所以工作中都是边用边学。期间也都做了很多笔记,好记性不如烂笔头,记录下来也方便自己回顾或者犯同样错误。比较推荐大家用网易的有道云笔记。自己记录的东西也比较杂,于是回顾一波二,知识树根据自己记的笔记整理了Oracle数据开发的知识树,内容...

2020-03-13 16:21:38 264 1

原创 【Oracle】浅析游标使用

1,什么是游标?游标可以理解为在内存中的临时表,通过 sql从数据库中提取数据,形成一个临时表并存于内存中,这就形成游标。当需要遍历游标中的数据时,可以使用Fetch … into …的方式,Fetch就相当与于指向游标的指针,可以从头遍历游标。由于数据都被存于内存中,这样可以大大提高处理效率,用空间换时间。2,游标的属性我们利用游标的属性值来获取游标所处的状态,然后对应做相应的...

2020-03-09 12:01:36 419 1

原创 【pandas小记】pandas选择数据

1.索引分类1.1类型索引类型说明整数索引与数组的整数下标相同,从0开始到n-1,通过下标选择数据,可以使用切片的方式选择数据。标签索引参数index、columns中指定的名称,直接通过名称选择数据,也可以使用切片的方式选择数据。布尔索引这与numpy的索引方式相似,相当于选择满足条件的数据。1.2 注意1,若直接使用[ ]选择数据时,不能直接选...

2020-03-08 23:05:50 6119

原创 【pandas 小记】rename、reindex、set_index

rename、reindex、set_index区别rename、reindex、set_index都是pandas中对索引操作的主要方法,它们的区别如下方法适用场景调用方法备注rename传入字典或函数修改索引的名称,即轴标签名,只能对现有轴标签重命名,不能新增或删减索引,df.rename(dict1)当dict1中包含不存在的索引时,参数errors,可以设...

2020-03-06 23:08:01 1726

关系图所需配置文件.zip

Echart关系图所需配置文件,在Flask部署时,需要多加入这几个文件,不然页面无法加载打开,会出现错误。

2019-11-25

CM5和CDH5 搭建Hadoop 集群

详细安装过程,各种报错和问题的解决方法。步骤很清晰。

2018-03-30

495个C语言问题.pdf

给出n个学生的m门课程的成绩表,每个学生的信息由学号、姓名以及各科成绩组成。对学生的考试成绩进行有关统计分析,并打印统计表。

2015-12-24

c++复习资料

c++复习资料

2015-07-11

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除