![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
学习笔记
文章平均质量分 69
二号姬
勤奋学习的小白商业分析师
展开
-
mark一下在做Python自动化数据处理脚本期间遇到的问题和解决办法
概述作为数据分析师新加入这个团队,了解到平时大家每天做数据统计的时候都是从系统中导出数据进行手动计算,而且由于计算规则比较复杂,非常容易出错,于是领导安排我来优化一下这个工作,给大家做一些数据统计分析的模板。V1:Excel版本分析经验考虑到数据分析模板是给别人用的,就需要尽量把计算的模块完全公式化,我分析了一下数据,有这么几个需要注意的点:1.系统导出的数据中日期和其他数据是字符串格式的,用text函数进行数据格式的转换,不要给使用模板的人带来分列操作的成本;2.数据透视表自动刷新失败的概率很原创 2020-05-28 23:48:32 · 911 阅读 · 0 评论 -
pandas解析json空字符串的问题
这几天在用Python实现一些数值的计算计算逻辑相对比较复杂,如果在excel里是countifs()/countifs(),分子和分母中都有5个以上的条件,其中一个字段的条件是非空研究了半天,python中实现稍微有点复杂,于是就想了笨一点的办法,拆分成了很多个步骤进行计算,把countifs拆分成了query和groupby两组,分子和分母单独进行了计算第一次做采用了data.query的办法,研究了半天没有找到如何用data.query来定义非空(日后如果有好的办法补充上)然后采用了data.原创 2020-05-22 16:48:10 · 579 阅读 · 0 评论 -
mysql:大规模数据随机抽样
背景数据量多大(千万级别),order by rand效率太低不可行可行语法:SELECT *表名称 WHERE 字段>= ((SELECT MAX(字段) FROM 表名称)-(SELECT MIN(字段) FROM 表名称)) * RAND()*看实际情况给一个系数 + (SELECT MIN(字段) FROM 表名称) limit 数据条数;这个算法也有优化空间以下来自代码自动评价,暂时没有更好的想法,欢迎大家一起讨论(1) 最外层SELECT未指定WHERE条件说明:SELECT原创 2020-05-16 20:34:27 · 1118 阅读 · 0 评论 -
Python3自动发送带附件的邮件
mark一下python3自动发送带附件的邮件的代码# 导入smtplib模块,用于发送邮件import smtplib#带多个部分的邮件from email.mime.multipart import MIMEMultipart# MIMEText用于在邮件内的放置文本内容from email.mime.text import MIMEText# MIMEImage用于在邮件内放置图片附件from email.mime.image import MIMEImage# MIMEApplic原创 2020-05-15 16:56:01 · 523 阅读 · 0 评论 -
Python:pandas groupby实现类似excel中averageifs函数的功能
从exccel切换到python进行数据处理,处理的主要还是excel的思路,希望实现类似excel中某个函数的功能,日常主要参考蓝鲸的《从excel到python》。目前在做一些统计指标,excel中用了countifs、sumifs和averageifs的统计,于是探究了一下python中如何实现这样的功能。蓝鲸大大的书里写实现countifs和sumifs的功能用到的是pandas中的loc函数,实战的时候发现pandas版本更新后已经不再适用了(官方文档还是要多看)没有发现特别适用的代码,于是原创 2020-05-15 10:47:45 · 1669 阅读 · 0 评论 -
Python:pandas包merge函数合并多个表
merge函数可以实现类似于mysql里join的功能,多数教程里都是合并两个表因为我技术比较糟糕想了歪操作,于是需要合并多个表,第一遍愚蠢地写了s=merge(a,b)s=merge(s,c)这样的风骚操作研究了一下实现了精简// An highlighted blockdf=[a表,b表,c表,d表,e表,f表]df_merge= reduce(lambda left,right: pd.merge(left,right,on=['需要join合并的字段名1','需要join合并的字段名原创 2020-05-14 18:47:01 · 10444 阅读 · 1 评论 -
数据分析学习笔记
学习背景不改变就会被时代淘汰,在这个各种意义上的寒冬,快速成长意味着能够在这个冬天过得起码不那么难受。作为一名人力资本分析师,人力资源相关的数据虽然量很有限远不到大数据的“大”,但是随着数据量的增加,传统的分析工具(Excel)已经难以cover。因此,分析工具的更新已经变得非常重要。工具选择说来也很有意思,尽管数据分析已经成为人力资源管理领域中的新宠,各家老板都希望“使用大数据精准管理”,...原创 2018-12-19 10:37:03 · 204 阅读 · 0 评论 -
Python&R连接MySQL对比
使用Python连接MySQL#导入程序包import pymysql#连接数据库conn = pymysql.connect(host=‘localhost’,port=’’,user=‘root’,password=’’,db=‘analysis_yjw’)#创建游标cur = conn.cursor(cursor=pymysql.cursors.DictCursor)#插入一条...原创 2018-12-19 11:21:08 · 148 阅读 · 0 评论