![](https://img-blog.csdnimg.cn/20201014180756930.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据分析
文章平均质量分 74
小基基o_O
GitHub:https://github.com/AryeYellow
码云:https://gitee.com/arye
展开
-
Python等比数列
python等比数列等差数列斐波那契数列原创 2023-10-24 23:47:20 · 834 阅读 · 0 评论 -
数据离散化SQL
文章目录场景CASE WHEN除法,取整,均匀划分区间场景年龄分段统计HIVE实现-- 造数据CREATE VIEW customer(name,age) ASSELECT 'a',18 UNION ALLSELECT 'b',14 UNION ALLSELECT 'c',22 UNION ALLSELECT 'd',23 UNION ALLSELECT 'e',30 UNION ALLSELECT 'f',18;SELECT * FROM customer;CASE WHE原创 2022-01-12 10:46:58 · 1103 阅读 · 0 评论 -
SQL计算均值遇到NULL
当数值列中含有NULL,将不被计算如果业务需求要把NULL行计算入内方案1:把NULL转0方案2:先求和,再除以 权数原创 2022-11-13 15:15:58 · 799 阅读 · 0 评论 -
数据分析SQL日期维度表生成(含节假日)
创建MySQL日期维度表,借助Python写入数据。临时表(以2022为例,缺双十一、七夕,HIVE日期维度表HIVE近30天日期序列HIVE近48小时序列MySQL日期维度表原创 2022-10-10 00:33:14 · 2276 阅读 · 0 评论 -
数据分析SQL库存相关计算逻辑
库存库存成本成本价×数量在数仓建模中,库存表属于周期型快照事实表(dwd_stock)库存量 是 半可加事实,昨天库存不能和今天库存相加,佛山库存可与广州库存相加。原创 2022-10-07 23:56:45 · 1249 阅读 · 0 评论 -
数据分析SQL移动平均值
对序列的值,按一定窗口大小并顺序滑动,计算全部算术平均值例:对于序列X1,X2,...XnX1,X2,...Xn计算X1+X2+X33,X2+X3+X43,X3+X4+X53...X3+X4+X533X1+X2+X3,3X2+X3+X4,3X3+X4+X5...原创 2022-10-04 00:14:08 · 2388 阅读 · 0 评论 -
SQL退单次数计算
如果1个父订单下有3个子订单其中2个子订单 退单那么 父订单状态=部分退下单数=1退单数 也要算作1,不是2,不是或实际逻辑 还是应该 以 需求提出人 为准。原创 2022-08-05 18:04:38 · 205 阅读 · 0 评论 -
Python【相关矩阵】和【协方差矩阵】
import pandas as pdd = { 'a': [10, 20, 30, 40, 50, 60, 70, 80, 90], 'b': [99, 88, 77, 66, 55, 44, 33, 22, 11], 'c': [101, 199, 302, 398, 497, 506, 600, 900, 999], 'd': [1, 1, 2, 5, 5,...原创 2018-07-14 10:01:27 · 17049 阅读 · 0 评论 -
Python生成连续星期序列
在商业数据分析中,会对销量按天、周、月、季、年汇总按星期聚合的格式可以是:2022年第01周、2022w51、202251…在某些零售行业中,线下零售假日销量高于工作日因此,在按周汇总时,希望以星期一作为周的起点对于需要跨年的场景,期望将以 年内第1个星期一 作为 年的第一周,此前归入上一年最后一周,例如下面例如,2023-01-01归属到2022w52那周。原创 2022-10-24 23:56:40 · 344 阅读 · 0 评论 -
图解Python数据标准化+效果比较
零一标准化零一标准化import pandas as pdimport matplotlib.pyplot as mpd = {'name': list('ABCD'), 'value': [1002, 1000, 1010, 1001]}df = pd.DataFrame(d)# 0-1标准化value_01 = ( (df['value'] - d...原创 2018-07-15 11:18:49 · 10023 阅读 · 3 评论 -
Python数据【离散化】和【逆离散化】
1、离散化1.1、等宽离散化1.1.1、pandas实现1.1.2、手写实现1.2、等频离散化1.3、聚类2、逆离散化2.1、取 min 和 max2.2、取 min、max 和 mean2.3、等距均匀升采样2.4、随机均匀升采样2.5、随机非均匀升采样原创 2018-07-14 11:50:30 · 1361 阅读 · 0 评论 -
图解Python滑窗时间归整
场景窗口大小10分钟,滑窗间隔2分钟程序启动时间为14:18:29希望将其归到14:10:00~14:20:00时间段,而不是14:08:29~14:18:29流程14:18:29 -转秒-> 1626934709 -除以滑窗间隔,向下取整,乘以滑窗间隔-> 1626934800 -还原-> 14:10:00Python代码import datetime, mathWINDOW_INTERVAL = 120 # 滑窗间隔WINDOW_SIZE = 600 # 窗口大原创 2021-07-22 14:28:04 · 262 阅读 · 0 评论 -
数据分析SQL【离职率】和【司龄】的计算
离职率Dimission Rate用于衡量企业内部人力资源流动状况可以了解企业对员工的吸引和满意情况离职率过高,一般表明企业的员工情绪较为波动、劳资关系存在较严重的矛盾,企业的凝聚力下降,它可导致人力资源成本增加(含直接成本和间接成本)、组织的效率下降。但并不是说员工的离职率越低越好,在市场竞争中,保持一定的员工流动,可以使企业利用优胜劣汰的人才竞争制度,保持企业的活力和创新意识按月统计按季度统计按半年统计按年统计计算公式司龄年龄原创 2021-11-10 21:49:35 · 4210 阅读 · 0 评论 -
数据分析SQL环比增长率、同比增长率
环比同比原创 2021-11-30 14:07:27 · 5065 阅读 · 0 评论 -
中国省市经纬度Python版
文章目录序言各省经纬度省市关系序言数据更新日期:2019年3月26日各省经纬度provinces = { '吉林省': [125.326800, 43.896160], '黑龙江省': [126.662850, 45.742080], '辽宁省': [123.429250, 41.835710], '内蒙古自治区': [111.765220, 40.817330], ...原创 2019-03-26 16:39:55 · 7666 阅读 · 4 评论 -
中国省市关系+各地经纬度【Python版】
中国省市对应关系【字典版】全国城市经纬度下载经纬度的Python代码(直接复制可用)中国省市对应关系【字典版】数据年份:2017province_city = { '北京市': [], '天津市': [], '上海市': [], '重庆市': [], '河南省': ['郑州市', '洛阳市', '焦作市', '商丘市', '信阳市...原创 2018-07-19 16:49:20 · 11555 阅读 · 0 评论 -
广东地区经纬度Python版
广东市县关系广东地区经纬度下载(Python代码)广东地区经纬度广东市县关系guangdong = { '广州市': ['越秀区', '荔湾区', '海珠区', '天河区', '白云区', '黄埔区', '花都区', '番禺区', '南沙区', '增城区', '从化区'], '深圳市': ['福田区', '罗湖区', '南山区', '盐田区', '宝...原创 2018-07-19 23:23:12 · 6031 阅读 · 0 评论 -
Python统计分布
文章目录scipy均匀分布正态分布二项分布Beta分布泊松分布卡方分布scipy环境:Jupyter Notebook%matplotlib inlineimport matplotlib.pyplot as mpimport matplotlib.style as msimport numpy as npimport scipy.stats as ssms.use('fiveth...原创 2019-02-10 15:05:47 · 2471 阅读 · 0 评论 -
重要统计数据网站收集(不定更)
文章目录网站网站名称网址备注宏观经济http://www.gov.cn/shuju/index.htmGDP、总人口、社会消费品零售总额、粮食产量…统计局http://www.stats.gov.cn/区划、行业…搜狗词库https://pinyin.sogou.com/dict/NLP词库百度迁徙https://qianxi.baidu.com/2020/人口流动广东统计http://gddata.gd.gov.cn/广东宏观经济原创 2020-06-23 14:15:19 · 670 阅读 · 0 评论 -
前程无忧——爬虫+数据分析
项目介绍主要目标: 1、了解与IT行业的就业市场信息,打造自身的职业规划路线 2、根据市场的主流技术和需求,不断完善自身技能树环境: Linux、Python、Pycharm技术: 1、网页数据采集:scrapy、urllib、re 2、数据存储:MySQL 3、文字切割、词频统计:pandas、jieba、collections 4...原创 2018-06-28 23:41:10 · 8576 阅读 · 20 评论 -
Python全国就业分布
Catalog就业分布城市top8说明数据说明下载本篇数据的代码数据源就业分布# 从网络读取数据import requests, re, pandas as pdurl = 'https://blog.csdn.net/Yellow_python/article/details/81807751'r = requests.get(url, hea...原创 2018-08-18 18:54:13 · 1813 阅读 · 0 评论 -
统计Python常用英文单词
数据量较少,输出为Excel在这里插入代码片数据量较大在这里插入代码片原创 2018-10-04 16:44:03 · 4235 阅读 · 0 评论 -
记一些女装数据分析
服装维度尺码:XS、S、M、L、XL一级分类:上半身、下半身、全身季节:春、夏、秋、冬价格类型:正价、特价、折扣价、降价、优惠券…价格段:廉、贵年龄段:婴儿、儿童、少年、青年、中年面料:棉布、麻布、丝绸、、呢绒、皮革、化纤、混纺、莫代尔厚度:厚、薄长度:长、中、短、超短是否展陈(通常,贵价连衣裙 会 用衣架挂起展示,甚至穿假人身上,而 便宜T恤 则 折叠堆放)季节状态:季前、当季、过季服装的重要特性:试穿因此,先上渠道 和 线下渠道 各有优势原创 2022-12-13 18:11:30 · 870 阅读 · 0 评论 -
图解-使用【变异系数】赋予权重,并比较效果
变异系数Coefficient of Variation用于比较多组数据的离散程度比较 两组 量纲不同的数据 的 离散程度,不能用标准差,可考虑变异系数不适用场景:数据下限小于0(导致平均值等于0)变异系数权重法使用变异系数计得的权重值会随着数据的变化而变化,可认为是一种无监督学习原创 2021-12-07 15:47:22 · 2047 阅读 · 0 评论