米竹-CSDN博客

原创年终，使用 Python 汇总各月开发的报表数量

2021，已经过去了。在整理当年工作输出时，想量化下当年开发的报表数量，以及看下上半年集成数据后，报表开发的工作占比是否下降。想了下，可以用项目组下个人目录下的各月报表数量，来量化下上述情况。思路很简单，用 Python 的 os / pathlib 库，拿到个人目录下的文件路径及其创建的时间，再按月汇总计数即可，代码如下：import os from datetime import datetimeimport pandas as pd# 输入参数FILE_PATH = '你的个人目录绝

2022-01-03 02:22:30 1159

原创如何将 Python 脚本封装成可执行文件

一、背景区别于 Cpp 等编程语言，Python 无法将其脚本直接转为可执行的文件。「可执行文件」常见如：Win 下后缀为 exe 的文件Mac 下后缀为 app 的文件在对应环境执行 Python 脚本，需要对应环境也同样有 Python 环境。这样在我们想给业务人员提供自动化的数据处理脚本或给女盆友绘制一棵圣诞树时，就会有产生一个困境：业务人员 / 女盆友的电脑没有 Python 环境，即便装了对应的环境，后续的维护也较为麻烦。既然无法直接转为可执行文件，那是否可以借助其他方法

2021-12-25 21:05:10 8801 5

原创重学贝叶斯定理

前阵子面试时被一道贝叶斯定理的题问倒了，虽说是很久没接触遗忘了，但也反映了个人在概率学习上不够扎实，也没有做到学而时习，实在惭愧。在这里重新温习一下贝叶斯定理。说到贝叶斯定理，就不得不重点提一下条件概率和全概率：一、条件概率定义：假定事件 AAA 发生的概率为 P(A)P(A)P(A)，事件 BBB 发生的概率为 P(B)P(B)P(B) 。在事件 BBB 发生的前提下，事件 AAA 发生的概率 P(A∣B)P(A|B)P(A∣B) 就是条件概率。P(A∣B)=P(AB)P(B)P(A|B)

2020-07-06 12:32:29 508 2

原创 K-Means 概要及其实现

本文先整体介绍 K-Means 算法的原理及特点，然后从模型、策略、算法三个要素切入介绍这个聚类算法，紧接着讲了几点 K-Means 算法缺点的解决方案；之后从 UDF和框架两方面给出 K-Means 在 Python 中的实现方法；最后引入一个实际案例进行实操。

2020-07-04 21:20:38 1086

原创聚类方法概要

本文主要简单介绍聚类的本质思想、用途及分类。在最后给出各算法详细内容的链接。一、概要聚类算法是无监督学习中的典型算法。通过训练不带标签的原数据，根据样本的相似度或距离将其归类，总结每一类的基本特征，从而了解实质。聚类本质是统计描述方法，建立建设，而非验证假设。用一句古语来说，就是“物以类聚，人以群分”。聚类的核心概念是相似度或距离，因为相似度或距离将直接影响聚类的结果，所以其选择会是聚类的根本问题，具体的选择取决于应用场景的特性。常用的相似度或距离：闵可夫斯基距离（简称闵氏距离，可以衍生

2020-07-03 22:19:16 534

原创借助 Python 的 SQLAlchemy 库查询数据

SQLAlchemy 库是一个非常强大又相当灵活的库，它在关系型数据库与传统编程之间建起了一座桥梁。它允许我们使用原始的 SQL 执行查询，同时也提供了高级的方法来查询和更新数据库。本文仅简要介绍使用原生 SQL 执行查询部分。使用 SQLAlchemy 查询 MySQL 的数据首先需要安装 sqlalchemy 库和 pymysql 库；使用 sqlalchemy 的 create_engine() 方法，并借助 pymysql 驱动包创建与指定数据库的连接；使用 pandas 库的 read

2020-05-15 00:24:53 1605

原创时间序列分析中的增长率——同比与环比

在时间序列的描述分析中存在一个增长率的概念，增长率又称增长速度，其本质是对某一现象在不同时间的变化情况所做的描述。常用的增长率有同比增长率与环比增长率，我们常说的同比增长多少百分之几，环比增长多少百分之几，指的就是它们。它们的计算公式都是：((报告期值 - 基期值) / 基期值) * 100%= (报告期值 / 基期值 - 1) * 100%注：一般用百分比表示，所以公式后需要乘以 1...

2020-04-28 00:19:50 6779 2

原创 Hive 常用日期时间函数汇总及常用场景介绍

Hive 常用的日期及时间函数，以及常用的场景介绍。声明：函数的参数中，中括号[]表示参数可选，即可不传入可传入；时间是包括日期的，hive中的日期时间函数的对象可以是时间类型，也可以是字符串类型（STRING）；hive的日期函数，对时间(yyyy-MM-dd HH:mm:ss)格式的字符串几乎都是通用的。/导图一、常用日期时间1.1 返回时间的函数返回当前时间：cu...

2020-03-28 10:27:48 3686

原创 SQL 求最大连续月数

在零售行业，会有一种负毛利的现象，就是商品的售价要低于进价，虽说出现负毛利不代表一定亏损（还要看销售返利），但是如果某商品连续几个月都出现了负毛利的情况则需要引起重视，可能是因为采购价格过高造成的因素。所以有必要计算出现连续负毛利的商品，并且查看下出现负毛利的最大连续月数是多少。

2020-03-22 18:45:59 3080 3

原创 SQL Server 常用日期函数

最近在 SQL Server 上写存储过程，发现在 MySQL 上能使用的一些日期函数无法使用，在此简要介绍一下 SQL Server 中一些日期函数的使用。SQL Server 版本是 Microsoft SQL Server 2008 (RTM) .一、常用函数1.1 返回日期和时间的函数– inshortgetdate(): 返回当前时间，类似于 MySQL精确到毫秒...

2020-03-17 22:11:13 429

原创关于脚本文件（文本文件）的 Line Endings

最近在 Linux 跑 shell 脚本时踩了一个坑，在脚本没问题的情况且赋权的情况下，报"No such file or directory…"的错误。原因是在 Window环境下，文本文件（包括纯文本内容的脚本文件），默认的 Line Endings（行尾格式）是 Windows 格式，在 Linux 环境跑脚本时应使用 Unix格式。下面是这两种 Line Endings 格式的区别：...

2020-03-07 21:23:38 1095

原创 sql计算上班总时长——以每天的第一次上下班打卡时间为准

本文交代了一种求上班总时长的特殊的业务场景，并造了一个玩具数据，分别用MySQL和Hive SQL给出了其计算逻辑。一、业务背景及口径说明指标上班总时长 = SUM(下班时间-上班时间) ，但在特殊的业务场景下并没有那么容易得到，如：某员工一天的操作为：1→1→1→2→2（上班打卡为1，下班打卡为2）。因为可以重复打卡，该员工打完卡后不确定是否打卡成功，又进行多次操作。此时，定...

2020-03-02 09:53:44 7657

原创 MySQL 和 Hive 中两种日期格式的转换

在解析数据的时会遇到下面的两种日期格式：yyyy-MM-ddyyyyMMdd这两种格式的转换通常有两种思路：使用时间处理函数；使用字符串处理函数。假设现在的日期为2020年2月2日，需要实现20200202与2020-02-02两种形式的相互转换。下面将介绍在 MySQL 和 Hive SQL 中分别是如何实现的。MySQL1.使用时间处理函数unix_timestam...

2020-02-25 12:13:08 4194

原创 SQL求同比增长率（系列1）

一、业务背景及口径说明假设现在有下方这两张表（sales和dim_date），我们需要通过它们计算销售额同比增长率。第一张表是 sales（销售表），记录日期和日期对应的销售额；第二张表是dim_date（日期维表），记录日期对应的可比日期（这里是去年同月同天）。口径如下：当日销售额同比增长率=当日销售额去年同月同天销售额−100%当日销售额同比增长率=\frac{当日销售额}{去年...

2020-02-23 22:00:10 8390

原创 SQL中的三种去重方法

在使用SQL提数的时候，常会遇到表内有重复值的时候，比如我们想得到 uv （独立访客），就需要做去重。在 MySQL 中通常是使用 distinct 或 group by子句，但在支持窗口函数的 sql（如Hive SQL、Oracle等等）中还可以使用 row_number 窗口函数进行去重。举个栗子，现有这样一张表 task：task_idorder_idstart_tim...

2020-01-07 11:01:19 108271

原创 Sublime Text3环境配置

1.基本安装与设置1.下载安装：https://www.sublimetext.com，记得勾选“Add to explorer context menu”（可右键文件用Sublime Text3打开）；2.安装 package control：https://packagecontrol.io/installation#st3 （长按ctrl+~后键入该网站的代码后回车）。重启后在 Perf...

2019-09-27 08:46:57 1238

原创 MySQL中将一个列按逗号分割为多列

某些业务表出于历史原因或性能原因，都使用了违反第一范式的设计模式。即同一个列中存储了多个属性值。如下表中的 bill_ids 所示：gmt_createbill_ids2019-08-12 00:00:00209755,209756,209757…………这种情况下，可以考虑将该列根据分隔符进行分割，形成多个列。如下表所示：gmt_createbil...

2019-08-12 11:57:59 31161 1

原创正态性检验方法汇总

0.概述正态分布在统计学中有着极为重要的地位，它是χ2\chi^2χ2分布、ttt分布、FFF分布的基础，也是许多统计方法的理论基础，故检验样本是否来自正态分布具有十分重要的意义。正态性检验的方法有很多，以下列举了一些常见的方法：对于正态性检验，建议首先利用直方图或核密度估计得到样本数据的分布图，若分布严重偏态或尖峰，可认为其不是来自于正态分布；若根据直方图或核密估计分布不容易做出判断，...

2019-05-22 10:23:46 29121 1

转载 Numpy 学习—np.random.randn()、np.random.rand() 和 np.random.randint()

在机器学习和神经网络中，常常会利用 Numpy 库中的随机函数来生产随机数，比如随机初始化神经网络中的参数权重 W（备注：W 是不能全部初始化为 0 的，这样会引起 symmetry breaking problem，这样隐藏层设置多个神经元就没有任何意义了）。...

2019-05-19 10:54:16 1018

原创 K近邻法及其实现

KNN（K-Nearest Neighbor）算法是机器学习算法中最基础的算法之一，它既能用于分类，又能用于回归。有别于其他经典的机器学习算法，其没有显式的学习过程。模型：利用训练数据划分特征向量空间，其结果就是最终算法模型。基本思想是：任意 N 维输入向量对应于特征空间的一点，输出为该特征向量所对应的类别标签或者预测值。KNN 分类KNN 用于分类，其过程简单的说就是：输入需要预测...

2019-03-24 12:00:55 312

原创距离度量——使用 np.linalg.norm 计算两点之间的 Lp 距离

特征空间中两个实例点的距离是两个实例点相似程度的反映。可以用LpL_pLp distance来度量两个实例点的距离：Lp(xi,xj)=(∑l=1n∣xi(l)−xj(l)∣p))1pL_p(x_i, x_j) = \left( \sum_{l=1}^{n} \left| x_i^{(l)} - x_j^{(l)} \right|^{p} ) \right )^{\frac{1}{p}}Lp...

2019-03-23 21:22:53 9579

原创对变量值为字符串“分组求和”

对变量值为字符串的对象，分组求和也就是相当于对各字符串执行了拼接的操作。但可能遇到一些问题。以下是《射雕英雄传》第三回的文本数据，每一行表示对应文本中的一句话，变量para表示该句子所在的段落。现欲将各句子合并为对应的段落。若直接使用groupby聚合后求和，就是将值拼接起来后：发现缺少响应的句号，作为一个“完美主义者”（强迫症患者）怎么能忍。添加一个值为句号的临时变量（temp）。拼接变...

2019-02-03 14:06:28 400

原创 Numpy 中的矩阵求逆

1. 矩阵求逆import numpy as npa = np.array([[1, 2], [3, 4]]) # 初始化一个非奇异矩阵print(a.I) print(np.linalg.inv(a)) #与上一步等同，对应于MATLAB中 inv() 函数2. 矩阵求伪逆import numpy as np# 定义一个奇异阵 AA = np.zeros((4,...

2019-02-01 12:37:02 173208 2

原创 Python3爬取豆瓣短评——以好剧《白鹿原》为例

背景：近期刚看完电视剧《白鹿原》。”自信平生无愧事，死后方敢对青天“的白嘉轩虽显执拗，但仍令人倾服，朱先生提到的“凡物之骤为之而遽成者，其器小也；凡物之一览者而易尽也，其中无有也”更是令人警醒三分……剧是好剧，看完后想了解下豆友的反响，遂爬取了4豆瓣《白鹿原》的短评，并做了一张粗略的词云图。数据说明因为在登录账号的情况下，豆瓣也只提供500条展示的数据，又有20条数据缺少“评分”该变量。故最...

2018-11-25 13:04:54 1822

原创探究2016年我国各地区教育支出的影响因素——基于Eviews的多元线性回归分析

实验简介：教育经费的支出不仅反映一个地区对于教育的重视程度，同时也很大程度上决定了该地区教育水平及事业未来的发展情况。本实验通过多元线性回归分析，探究究竟哪些因素是地方财政教育支出(y)的影响因素，并做出预测。现有地区生产总值(x1)、年末常住人口(x2)、居民人均教育文化娱乐消费(x3)、居民教育消费价格指数(x4)、教育支出在地方财政支出中的比重(x5)这5个变量作为被选变量。同时借此实...

2018-11-23 14:11:15 27924 57

何足道的博客