自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

何足道的博客

记录数据学习的点滴

  • 博客(25)
  • 收藏
  • 关注

原创 年终,使用 Python 汇总各月开发的报表数量

2021,已经过去了。在整理当年工作输出时,想量化下当年开发的报表数量,以及看下上半年集成数据后,报表开发的工作占比是否下降。想了下,可以用项目组下个人目录下的各月报表数量,来量化下上述情况。思路很简单,用 Python 的 os / pathlib 库,拿到个人目录下的文件路径及其创建的时间,再按月汇总计数即可,代码如下:import os from datetime import datetimeimport pandas as pd# 输入参数FILE_PATH = '你的个人目录绝

2022-01-03 02:22:30 1159

原创 如何将 Python 脚本封装成可执行文件

一、背景区别于 Cpp 等编程语言,Python 无法将其脚本直接转为可执行的文件。「可执行文件」常见如:Win 下后缀为 exe 的文件Mac 下后缀为 app 的文件在对应环境执行 Python 脚本,需要对应环境也同样有 Python 环境。这样在我们想给业务人员提供自动化的数据处理脚本 或 给女盆友绘制一棵圣诞树时,就会有产生一个困境:业务人员 / 女盆友 的电脑没有 Python 环境,即便装了对应的环境,后续的维护也较为麻烦。既然无法直接转为可执行文件,那是否可以借助其他方法

2021-12-25 21:05:10 8801 5

原创 重学贝叶斯定理

前阵子面试时被一道贝叶斯定理的题问倒了,虽说是很久没接触遗忘了,但也反映了个人在概率学习上不够扎实,也没有做到学而时习,实在惭愧。在这里重新温习一下贝叶斯定理。说到 贝叶斯定理,就不得不重点提一下 条件概率 和 全概率:一、条件概率定义:假定事件 AAA 发生的概率为 P(A)P(A)P(A),事件 BBB 发生的概率为 P(B)P(B)P(B) 。在事件 BBB 发生的前提下,事件 AAA 发生的概率 P(A∣B)P(A|B)P(A∣B) 就是条件概率。P(A∣B)=P(AB)P(B)P(A|B)

2020-07-06 12:32:29 508 2

原创 K-Means 概要及其实现

本文先整体介绍 K-Means 算法的原理及特点,然后从模型、策略、算法三个要素切入介绍这个聚类算法,紧接着讲了几点 K-Means 算法缺点的解决方案;之后从 UDF和框架两方面给出 K-Means 在 Python 中的实现方法;最后引入一个实际案例进行实操。

2020-07-04 21:20:38 1086

原创 聚类方法概要

本文主要简单介绍聚类的本质思想、用途及分类。在最后给出各算法详细内容的链接。一、概要聚类算法是无监督学习中的典型算法。通过训练不带标签的原数据,根据样本的相似度或距离将其归类,总结每一类的基本特征,从而了解实质。聚类本质是统计描述方法,建立建设,而非验证假设。用一句古语来说,就是“物以类聚,人以群分”。聚类的核心概念是相似度或距离,因为相似度或距离将直接影响聚类的结果,所以其选择会是聚类的根本问题,具体的选择取决于应用场景的特性。常用的相似度或距离:闵可夫斯基距离(简称闵氏距离,可以衍生

2020-07-03 22:19:16 534

原创 借助 Python 的 SQLAlchemy 库查询数据

SQLAlchemy 库是一个非常强大又相当灵活的库,它在关系型数据库与传统编程之间建起了一座桥梁。它允许我们使用原始的 SQL 执行查询,同时也提供了高级的方法来查询和更新数据库。本文仅简要介绍使用原生 SQL 执行查询部分。使用 SQLAlchemy 查询 MySQL 的数据首先需要安装 sqlalchemy 库和 pymysql 库;使用 sqlalchemy 的 create_engine() 方法,并借助 pymysql 驱动包创建与指定数据库的连接;使用 pandas 库的 read

2020-05-15 00:24:53 1605

原创 时间序列分析中的增长率——同比与环比

在时间序列的描述分析中存在一个增长率的概念,增长率又称增长速度,其本质是对某一现象在不同时间的变化情况所做的描述。常用的增长率有同比增长率与环比增长率,我们常说的同比增长多少百分之几,环比增长多少百分之几,指的就是它们。它们的计算公式都是:((报告期值 - 基期值) / 基期值) * 100%= (报告期值 / 基期值 - 1) * 100%注:一般用百分比表示,所以公式后需要乘以 1...

2020-04-28 00:19:50 6779 2

原创 Hive 常用日期时间函数汇总 及常用场景介绍

Hive 常用的日期及时间函数,以及常用的场景介绍。声明:函数的参数中,中括号[]表示参数可选,即可不传入可传入;时间是包括日期的,hive中的日期时间函数的对象可以是时间类型,也可以是字符串类型(STRING);hive的日期函数,对时间(yyyy-MM-dd HH:mm:ss)格式的字符串几乎都是通用的。/导图一、常用日期时间1.1 返回时间的函数返回当前时间:cu...

2020-03-28 10:27:48 3686

原创 SQL 求最大连续月数

在零售行业,会有一种负毛利的现象,就是商品的售价要低于进价,虽说出现负毛利不代表一定亏损(还要看销售返利),但是如果某商品连续几个月都出现了负毛利的情况则需要引起重视,可能是因为采购价格过高造成的因素。所以有必要计算出现连续负毛利的商品,并且查看下出现负毛利的最大连续月数是多少。

2020-03-22 18:45:59 3080 3

原创 SQL Server 常用日期函数

最近在 SQL Server 上写存储过程,发现在 MySQL 上能使用的一些日期函数无法使用,在此简要介绍一下 SQL Server 中一些日期函数的使用。SQL Server 版本是 Microsoft SQL Server 2008 (RTM) .一、常用函数1.1 返回日期和时间的函数– inshortgetdate(): 返回当前时间,类似于 MySQL精确到毫秒...

2020-03-17 22:11:13 429

原创 关于脚本文件(文本文件)的 Line Endings

最近在 Linux 跑 shell 脚本时踩了一个坑,在脚本没问题的情况且赋权的情况下,报"No such file or directory…"的错误。原因是在 Window环境下,文本文件(包括纯文本内容的脚本文件),默认的 Line Endings(行尾格式)是 Windows 格式,在 Linux 环境跑脚本时应使用 Unix格式。下面是这两种 Line Endings 格式的区别:...

2020-03-07 21:23:38 1095

原创 sql计算上班总时长——以每天的第一次上下班打卡时间为准

本文交代了一种求上班总时长的特殊的业务场景,并造了一个玩具数据 ,分别用MySQL和Hive SQL给出了其计算逻辑。一、业务背景及口径说明指标 上班总时长 = SUM(下班时间-上班时间) ,但在特殊的业务场景下并没有那么容易得到,如:某员工一天的操作为:1→1→1→2→2(上班打卡为1,下班打卡为2)。因为可以重复打卡,该员工打完卡后不确定是否打卡成功,又进行多次操作。此时,定...

2020-03-02 09:53:44 7657

原创 MySQL 和 Hive 中两种日期格式的转换

在解析数据的时会遇到下面的两种日期格式:yyyy-MM-ddyyyyMMdd这两种格式的转换通常有两种思路:使用时间处理函数;使用字符串处理函数。假设现在的日期为2020年2月2日,需要实现20200202与2020-02-02两种形式的相互转换。下面将介绍在 MySQL 和 Hive SQL 中分别是如何实现的。MySQL1.使用时间处理函数unix_timestam...

2020-02-25 12:13:08 4194

原创 SQL求同比增长率(系列1)

一、业务背景及口径说明假设现在有下方这两张表(sales和dim_date),我们需要通过它们计算销售额同比增长率。第一张表是 sales(销售表),记录日期和日期对应的销售额;第二张表是dim_date(日期维表),记录日期对应的可比日期(这里是去年同月同天)。口径如下:当日销售额同比增长率=当日销售额去年同月同天销售额−100%当日销售额同比增长率=\frac{当日销售额}{去年...

2020-02-23 22:00:10 8390

原创 SQL中的三种去重方法

在使用SQL提数的时候,常会遇到表内有重复值的时候,比如我们想得到 uv (独立访客),就需要做去重。在 MySQL 中通常是使用 distinct 或 group by子句,但在支持窗口函数的 sql(如Hive SQL、Oracle等等) 中还可以使用 row_number 窗口函数进行去重。举个栗子,现有这样一张表 task:task_idorder_idstart_tim...

2020-01-07 11:01:19 108271

原创 Sublime Text3环境配置

1.基本安装与设置1.下载安装:https://www.sublimetext.com,记得勾选“Add to explorer context menu”(可右键文件用Sublime Text3打开);2.安装 package control:https://packagecontrol.io/installation#st3 (长按ctrl+~后键入该网站的代码后回车)。重启后在 Perf...

2019-09-27 08:46:57 1238

原创 MySQL中将一个列按逗号分割为多列

某些业务表出于历史原因或性能原因,都使用了违反第一范式的设计模式。即同一个列中存储了多个属性值。如下表中的 bill_ids 所示:gmt_createbill_ids2019-08-12 00:00:00209755,209756,209757…………这种情况下,可以考虑将该列根据分隔符进行分割,形成多个列。如下表所示:gmt_createbil...

2019-08-12 11:57:59 31161 1

原创 正态性检验方法汇总

0.概述正态分布在统计学中有着极为重要的地位,它是χ2\chi^2χ2分布、ttt分布、FFF分布的基础,也是许多统计方法的理论基础,故检验样本是否来自正态分布具有十分重要的意义。正态性检验的方法有很多,以下列举了一些常见的方法: 对于正态性检验,建议首先利用直方图或核密度估计得到样本数据的分布图,若分布严重偏态或尖峰,可认为其不是来自于正态分布;若根据直方图或核密估计分布不容易做出判断,...

2019-05-22 10:23:46 29121 1

转载 Numpy 学习—np.random.randn()、np.random.rand() 和 np.random.randint()

在机器学习和神经网络中,常常会利用 Numpy 库中的随机函数来生产随机数,比如随机初始化神经网络中的参数权重 W(备注:W 是不能全部初始化为 0 的,这样会引起 symmetry breaking problem,这样隐藏层设置多个神经元就没有任何意义了)。...

2019-05-19 10:54:16 1018

原创 K近邻法及其实现

KNN(K-Nearest Neighbor) 算法是机器学习算法中最基础的算法之一,它既能用于分类,又能用于回归。有别于其他经典的机器学习算法,其没有显式的学习过程。模型:利用训练数据划分特征向量空间,其结果就是最终算法模型。基本思想是:任意 N 维输入向量对应于特征空间的一点,输出为该特征向量所对应的类别标签或者预测值。KNN 分类KNN 用于分类,其过程简单的说就是:输入需要预测...

2019-03-24 12:00:55 312

原创 距离度量——使用 np.linalg.norm 计算两点之间的 Lp 距离

特征空间中两个实例点的距离是两个实例点相似程度的反映。可以用LpL_pLp​ distance来度量两个实例点的距离:Lp(xi,xj)=(∑l=1n∣xi(l)−xj(l)∣p))1pL_p(x_i, x_j) = \left( \sum_{l=1}^{n} \left| x_i^{(l)} - x_j^{(l)} \right|^{p} ) \right )^{\frac{1}{p}}Lp​...

2019-03-23 21:22:53 9579

原创 对变量值为字符串“分组求和”

对变量值为字符串的对象,分组求和也就是相当于对各字符串执行了拼接的操作。但可能遇到一些问题。以下是《射雕英雄传》第三回的文本数据,每一行表示对应文本中的一句话,变量para表示该句子所在的段落。现欲将各句子合并为对应的段落。若直接使用groupby聚合后求和,就是将值拼接起来后:发现缺少响应的句号,作为一个“完美主义者”(强迫症患者)怎么能忍。添加一个值为句号的临时变量(temp)。拼接变...

2019-02-03 14:06:28 400

原创 Numpy 中的矩阵求逆

1. 矩阵求逆import numpy as npa = np.array([[1, 2], [3, 4]]) # 初始化一个非奇异矩阵print(a.I) print(np.linalg.inv(a)) #与上一步等同,对应于MATLAB中 inv() 函数2. 矩阵求伪逆import numpy as np# 定义一个奇异阵 AA = np.zeros((4,...

2019-02-01 12:37:02 173208 2

原创 Python3爬取豆瓣短评——以好剧《白鹿原》为例

背景:近期刚看完电视剧《白鹿原》。”自信平生无愧事,死后方敢对青天“的白嘉轩虽显执拗,但仍令人倾服,朱先生提到的“凡物之骤为之而遽成者,其器小也;凡物之一览者而易尽也,其中无有也”更是令人警醒三分……剧是好剧,看完后想了解下豆友的反响,遂爬取了4豆瓣《白鹿原》的短评,并做了一张粗略的词云图。数据说明因为在登录账号的情况下,豆瓣也只提供500条展示的数据,又有20条数据缺少“评分”该变量。故最...

2018-11-25 13:04:54 1822

原创 探究2016年我国各地区教育支出的影响因素——基于Eviews的多元线性回归分析

实验简介:教育经费的支出不仅反映一个地区对于教育的重视程度,同时也很大程度上决定了该地区教育水平及事业未来的发展情况。本实验通过多元线性回归分析,探究究竟哪些因素是地方财政教育支出(y)的影响因素,并做出预测。现有地区生产总值(x1)、年末常住人口(x2)、居民人均教育文化娱乐消费(x3)、居民教育消费价格指数(x4)、教育支出在地方财政支出中的比重(x5)这5个变量作为被选变量。同时借此实...

2018-11-23 14:11:15 27924 57

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除