自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(21)
  • 收藏
  • 关注

原创 mark一下在做Python自动化数据处理脚本期间遇到的问题和解决办法

概述作为数据分析师新加入这个团队,了解到平时大家每天做数据统计的时候都是从系统中导出数据进行手动计算,而且由于计算规则比较复杂,非常容易出错,于是领导安排我来优化一下这个工作,给大家做一些数据统计分析的模板。V1:Excel版本分析经验考虑到数据分析模板是给别人用的,就需要尽量把计算的模块完全公式化,我分析了一下数据,有这么几个需要注意的点:1.系统导出的数据中日期和其他数据是字符串格式的,用text函数进行数据格式的转换,不要给使用模板的人带来分列操作的成本;2.数据透视表自动刷新失败的概率很

2020-05-28 23:48:32 914

原创 pandas解析json空字符串的问题

这几天在用Python实现一些数值的计算计算逻辑相对比较复杂,如果在excel里是countifs()/countifs(),分子和分母中都有5个以上的条件,其中一个字段的条件是非空研究了半天,python中实现稍微有点复杂,于是就想了笨一点的办法,拆分成了很多个步骤进行计算,把countifs拆分成了query和groupby两组,分子和分母单独进行了计算第一次做采用了data.query的办法,研究了半天没有找到如何用data.query来定义非空(日后如果有好的办法补充上)然后采用了data.

2020-05-22 16:48:10 583

原创 mysql:大规模数据随机抽样

背景数据量多大(千万级别),order by rand效率太低不可行可行语法:SELECT *表名称 WHERE 字段>= ((SELECT MAX(字段) FROM 表名称)-(SELECT MIN(字段) FROM 表名称)) * RAND()*看实际情况给一个系数 + (SELECT MIN(字段) FROM 表名称) limit 数据条数;这个算法也有优化空间以下来自代码自动评价,暂时没有更好的想法,欢迎大家一起讨论(1) 最外层SELECT未指定WHERE条件说明:SELECT

2020-05-16 20:34:27 1122

原创 Python3自动发送带附件的邮件

mark一下python3自动发送带附件的邮件的代码# 导入smtplib模块,用于发送邮件import smtplib#带多个部分的邮件from email.mime.multipart import MIMEMultipart# MIMEText用于在邮件内的放置文本内容from email.mime.text import MIMEText# MIMEImage用于在邮件内放置图片附件from email.mime.image import MIMEImage# MIMEApplic

2020-05-15 16:56:01 525

原创 Python:pandas groupby实现类似excel中averageifs函数的功能

从exccel切换到python进行数据处理,处理的主要还是excel的思路,希望实现类似excel中某个函数的功能,日常主要参考蓝鲸的《从excel到python》。目前在做一些统计指标,excel中用了countifs、sumifs和averageifs的统计,于是探究了一下python中如何实现这样的功能。蓝鲸大大的书里写实现countifs和sumifs的功能用到的是pandas中的loc函数,实战的时候发现pandas版本更新后已经不再适用了(官方文档还是要多看)没有发现特别适用的代码,于是

2020-05-15 10:47:45 1674

原创 Python:pandas包merge函数合并多个表

merge函数可以实现类似于mysql里join的功能,多数教程里都是合并两个表因为我技术比较糟糕想了歪操作,于是需要合并多个表,第一遍愚蠢地写了s=merge(a,b)s=merge(s,c)这样的风骚操作研究了一下实现了精简// An highlighted blockdf=[a表,b表,c表,d表,e表,f表]df_merge= reduce(lambda left,right: pd.merge(left,right,on=['需要join合并的字段名1','需要join合并的字段名

2020-05-14 18:47:01 10458 1

原创 Python-pandas小数转百分数并保留小数点后两位

因为需要经常计算各类百分比的问题,所以定义一个函数进行转换// 定义函数def turn_percentage(x): return '%.2f%%' % (x * 100);使用的时候就用// 函数调用data=(a/b).apply(turn_percentage);输出的结果就是保留两位小数的百分数了...

2020-05-14 15:44:30 6959 1

原创 HR不得不知的Excel技能——模板篇

“转发XXX到朋友圈截图给客服,就可领取价值XXX元的Excel模板哦~”这几年这种营销的套路真可谓是层出不穷,每次看到这种送模板的东西都忍不住想说,简直是在收智商税!找模板?自带的还不够吗?可能大家都看到过不少“转发XXXX到朋友圈送价值XXX的Excel模板”的东西。虽然这只是一种吸粉的营销套路罢了,很多Excel模板看起来也确实挺好看的,但是我还是想说一句没必要。首先,资料太多了你根本...

2019-08-13 14:55:05 903

原创 HR不得不知的Excel技能——数据格式篇

Excel日常操作中最怕的不是不会公式啥的,而是被一些疑难杂症搞怕了,这些疑难杂症往往有一个共同点,那就是:看起来什么都没错,但就是报错了。前阵子有这样一个非常有意思的段子:那些在职场上用word的人往往没有word(话语权)用PPT的人往往既没有power(权利)也没有point(观点)用Excel的人一点都不Excel(出色)总而言之,用MS的人都是既micro(微小)又soft(...

2019-08-13 14:52:51 548

原创 HR不得不知的Excel技能——基础篇

数字化时代,超过60%的岗位都要求具备基础的数据分析能力,HR也是如此。90%的基础数据分析工作,其实Excel完全hold住,实在不行?再来一点插件和VBA就可以了嘛~Excel使用的核心要义就是熟练掌握各种公式的用法。众多的公式在带来了便利的同事也带来了不少麻烦——有不少小伙伴普遍反映这个一个问题:公式太多,记不住。对此,我只能表示:记不住这种问题,我也没有办法。实在记不住的话,度娘了解...

2019-08-13 14:36:23 268

原创 Anaconda:认识Jupyter Notebook

Anconda中内嵌了很多工具,Jupyter Notebook作为Anaconda套件里受到广泛关注的应用,自然有它的道理,接下来我们就从认识Jupter开始一步步进入Python的世界吧从“文学编程”说起传统的编程往往都是让人去适应计算机的逻辑,适应计算机的逻辑对于我们小白来说并不是一件非常容易的事情,再加上晦涩难懂的代码非常不便于理解,文学编程这样的理念变应运而生。文学编程让我们更加...

2019-08-13 14:28:57 257

原创 HR不得不知的Excel技巧——插件篇

虽然有些人加的不是班,是技能的短板,但更多的人加的可能是“太老实”了,那些能够投机取巧的插件技能了解一下?数据比对当你把一个表格发给了队友,结果队友返给你的时候告诉你改了一些内容,并且由于种种原因,未告知你哪里被修改过了,但是你又不得不找出来是改了哪里,这是不是很让人抓狂?这种时候就该祭出Spreadsheet Compare这个神器了!其实把这个东西放在这里其实不太合适,因为它并不是一个...

2019-08-13 14:26:29 350

原创 Anaconda——Python还是R

各位HR宝宝们在研究Anaconda的时候或许已经发现了,Anaconda Navigator的页面中有一个尚未安装的应用——R studioR Studio又是什么东西相信一些细心的小伙伴已经发现了,Anconda Navigator其实相当于是N个软件的集合。对于我们HR来说,并不考虑去开发软件啥的,只是单纯地拿来做数据分析,基于这样的使用意图来说,Anaconda Navigator中...

2019-08-13 14:16:33 837

原创 Anaconda——剪切板数据读取

Python和R都是免费的开源软件,这类软件有一个对小白新手非常友好的特点,那就是……哪里不会查哪里,随用随学……所以,别的理论不说现在要开始进行数据分析啦~相信自己,没那么难对多数HR来说,开始写代码是一件感觉上难于上青天的事情——写代码这么值钱的事情,我一点基础都没有真的能行么?可能各位HR宝宝们把写代码这件事想得复杂了,毕竟我们写代码只是为了做数据分析,并不是为了开发什么软件呀!什么...

2019-08-13 14:12:53 744

原创 Anaconda:读取Excel数据之CSV格式

虽然有各种各样花里胡哨的分析工具,但是对数据存储来说,还是Excel大法好!前天介绍了如何从剪切板进行数据的读取,今天就来介绍一下Excel数据的读取。#csv\xls\xlsx有表姐之称的HR小伙伴们应该都知道,Excel的数据有csv\xls\xlsx三种常见的数据格式,这三种格式可能在我们用Excel进行操作的时候看不出来太大的差别,但是如果用Python或者R读取的话,就有区别了。...

2019-08-13 12:04:42 15662 1

原创 Anaconda分析:统计学知识回顾

人力资本分析的重点归根结底还是在于分析,统计学作为数据分析的基础,是每一个尝试进入人力资本分析领域的小伙伴得不得了解的内容。#统计学是学什么的统计学习是一套以理解数据为目的的庞大工具集。统计学习的工具可以分为两类:有指导的学习和无指导的学习。一般而言,有指导的统计学习工具主要有两种用途:一是面向预测的统计模型的建立;二是对一个或多个给定的输入估计某个输出。无指导的统计问题中,往往有输入...

2019-08-13 12:03:13 398

原创 数据拟合之Excel篇

要尝试入门数据分析,不如从数据拟合入手,毕竟操作起来非常非常非常简单!#什么是数据拟合按照百度给出的定义,数据拟合是这样的:数据拟合又称曲线拟合,俗称拉曲线,是一种把现有数据透过数学方法来代入一条数式的表示方式。这个解释看起来好像不太直白,我是这么理解的:数据拟合就是想办法给一堆散点画一条函数曲线。至于这条曲线怎么画的问题大家有兴趣的可以去搜索一下,的确不简单,但是电脑这种东西太强大了,...

2019-08-13 12:02:20 11550 4

原创 Python&R 怎么安装库 or 包

虽然Anaconda中自带很多库or包,但是还是有一些没有的,这种时候就需要我们来手动安装啦~#库?包?能好怎??作为一名HR,咱虽然不是职业写代码的,但还是经常会面试一些候选人的,在面试的时候,你可能听说过包或者库这样的概念。看起来好像还挺陌生的,但其实之前我们已经接触过一个了:Pandas库。import pandas as pd对,就是上面这一行代码,在讲如何用Python读取c...

2019-08-13 12:01:15 1031

原创 忘掉平均数、看看直方图:专业化起步

如何证明自己的专业性?特别是对于我们初入HR数据分析的宝宝们,这种凹造型的装逼还是有的!#我们为什么要看平均数平均数可能是我们接触得最早的一个统计量了,小学生都知道如何算平均数。可是大家还记得我们看平均数是为了看什么吗?想不起来的小伙伴不要慌张,我们一起来复习一下:平均数是数据的集中趋势的一种度量方法,用来表明资料中各观测值相对集中较多的中心位置。此处画重点了,相对集中较多,我们平时计算...

2019-08-13 11:59:48 208

原创 Python&R连接MySQL对比

使用Python连接MySQL#导入程序包import pymysql#连接数据库conn = pymysql.connect(host=‘localhost’,port=’’,user=‘root’,password=’’,db=‘analysis_yjw’)#创建游标cur = conn.cursor(cursor=pymysql.cursors.DictCursor)#插入一条...

2018-12-19 11:21:08 149

原创 数据分析学习笔记

学习背景不改变就会被时代淘汰,在这个各种意义上的寒冬,快速成长意味着能够在这个冬天过得起码不那么难受。作为一名人力资本分析师,人力资源相关的数据虽然量很有限远不到大数据的“大”,但是随着数据量的增加,传统的分析工具(Excel)已经难以cover。因此,分析工具的更新已经变得非常重要。工具选择说来也很有意思,尽管数据分析已经成为人力资源管理领域中的新宠,各家老板都希望“使用大数据精准管理”,...

2018-12-19 10:37:03 205

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除