数据处理
文章平均质量分 63
ziyin_2013
这个作者很懒,什么都没留下…
展开
-
hive:通过join连接实现排列组合
有一些订单信息,记录了用户是否购买过某个产品。想统计一下同时购买过任意两个产品的用户,类似于组合;还有购买过两个产品并且分购买先后顺序的用户,比如先购买了A再购买B、先购买了B再购买A,分两种统计,类似于排列。在hive中可以采用join实现排列组合。...原创 2022-07-31 18:29:58 · 809 阅读 · 1 评论 -
hive:left join存在关联字段不等
问题在hive中用left join关联两个表,结果中存在关联字段不等的情况,如下图关联结果中的第2、3行。 原因排查经排查发现,a.other_apply_id与b.data_id的数据类型不同,a.other_apply_id字段类型为string,b.data_id字段类型为bigint,可能是字段数据类型不同导致的。解决方法将两个字段a.other_apply_id与b.data_id数据类型都强转成string型。ps:初衷是通过撰写博文记录自己所学所用,实现知识的梳理与积累;将.原创 2022-05-29 17:58:31 · 956 阅读 · 0 评论 -
hive:数据入库后显示为null值
近日遇到现查SQL是有值的,但是写入到库表中显示为null值,经排查发现因为数据超出了建表时设置的字段长度导致的。问题将SQL统计的聚合结果写入到库表中发现有null值,但是直接跑SQL逻辑是有值的。--建表CREATE TABLE IF NOT EXISTS testdb.scenes_audit_amount_20220512 ( create_month string comment '月份', pid string comment '编号', audit_amou原创 2022-05-22 17:56:40 · 2536 阅读 · 0 评论 -
Tableau图例:利用单独图例实现条件格式
用Excel处理数据时,经常会用到条件格式提高数据的可读性,比如图中用条件格式–色阶分别为“数量”“销售额”两列设置了不同的格式,以达到突出重点的效果。在Tableau中同样可以实现类似效果,以自带的“示例–超市”数据为数据源,一起来看一下如何利用单独图例为不同的字段设置不同的格式。构建工作表。将“地区”“省/自治区”拖到行功能区,“度量名称”拖到列功能区;拖两个“度量值”到标记区,分别设置为文本、颜色;将“度量名称”“订单日期”拖入到筛选器,其中“度量名称”中选择数量、销售额、利润、利润率四个字段原创 2022-05-22 17:04:59 · 2298 阅读 · 0 评论 -
Tableau筛选器:基于合并字段实现多字段筛选
在Tableau报表中,希望基于多个字段实现筛选,比如以下工作表中想筛选出每天利润<0的子类别所在行(共10行)。如果在“子类别”上添加筛选,仅筛选出了1行,因为在子类别上添加筛选器其实仅筛选出了基于子类别字段进行聚合后利润<0,这并非期望结果。下面基于“示例-超市”数据集展开介绍,运用合并字段实现多字段同时筛选以达到预期筛选效果。Step1:建立工作表【合并字段】。Step2:创建合并字段。同时选中“发货日期”“类别”“子类别”,然后创建合并字段“发货日期,子类别,类别(已合并)”,原创 2022-03-27 10:36:03 · 2826 阅读 · 1 评论 -
Tableau工具提示:显示图表
Tableau工具提示增加图表的交互性。原创 2022-03-27 09:33:17 · 1464 阅读 · 0 评论 -
Tableau筛选器:仪表板中运用地图做筛选器
在Tableau仪表板中,希望实现报表的联动,比如报表A以地图的形式展示各省/自治区的利润率情况,报表B显示某个地区各类别产品的利润情况,希望点击A报表中的北京,B报表就显示北京各类别产品的利润情况。将报表A设置为筛选器即可,下面基于“示例-超市”数据集展开介绍。第一步:构建报表以地图形式展示各省/自治区的利润情况将“国家/地区”、“省/自治区”、“利润率”拖到标记区,其中“国家/地区”、“省/自治区”设置成详细信息,“利润率”设置成颜色,选择智能推荐图表中的地区,经度、维度会自动填充到列、行功能区。原创 2022-02-26 17:45:19 · 3554 阅读 · 6 评论 -
Tableau筛选器:实现各筛选器的联动
在Tableau报表中,经常会设置多个筛选器,方便我们灵活设置进行数据筛选。基于“示例-超市”数据集展开。将“地区”、“省/自治区”拖到行功能区,“度量名称”拖到列功能区,“度量值”拖到标记区并设置成文本。“地区”、“省/自治区”、“度量名称”拖到筛选区,其中“度量名称”选择利润、销售额,“地区”、“省/自治区”设置成显示筛选器。第一种:设置为"仅相关值"点击“省/自治区”筛选器的下三角,可以看到默认为数据库中的所有值,所以无论“地区”筛选器选择什么,如分别选择东北/东北、华北、华东,“省/自治区”原创 2022-02-26 15:27:57 · 8176 阅读 · 1 评论 -
Tableau自定义格式:设置万、亿等单位
Tableau中单位仅有千、百万、十亿等单位,并没有万、亿等单位;还有类似于Excel条件格式中的方向图标,表示数据的上升或下降…都可以通过自定义格式设置。显示亿元: 设置自定义格式为"¥"#"."##, 亿元;-“¥”#"."##, 亿元。其中一个",“代表3位,”#“为占位符,”."为添加的固定字符串。显示万元: 设置自定义格式为#"."#, 万。显示上下箭头: 设置自定义格式为#.#%↑;-# *.# %↓(大于0的用↑表示,小于0的用 ↓表示)。ps:初衷是通过撰写博文记录自己所学原创 2022-01-22 21:59:15 · 9425 阅读 · 1 评论 -
数据清洗:Python删除一条记录内的换行符
近日在处理数据的时候遇到一条记录内存在换行符"\n",记录结尾处以“\r\n”换行,如果不注意有可能读取过来按两条记录处理了。这种情况下,如何保证数据原样读取,另外为了避免因记录内存在换行符"\n"干扰数据应用,考虑将其删除。原创 2021-04-17 11:42:09 · 1081 阅读 · 1 评论 -
数据清洗:pandas缺失值处理
缺失数据在大部分数据分析应用中都很常见,数据的缺失主要包括记录的缺失和记录中某个字段信息的缺失,两者都会造成分析结果的不准确。缺失值产生的原因有很多中,要根据缺失值产生的原因选择适当的处理方式,缺失值的处理方式主要有删除、填充、不处理。Python中的pandas库提供了对缺失数据的处理,pandas使用浮点值NaN(Not a Number)表示浮点和非浮点数组中的缺失数据,便于监测。原创 2021-04-13 09:18:02 · 614 阅读 · 0 评论 -
数据清洗:Python将一列数据拆分成多列
最近在处理数据的时候遇到这样一个问题,原始数据中有些字段以(key:value)形式存储的数据,如表中Sex一列取值[F: Female],其中F是key、Female是具体的value。为了简化数据,利用pandas.Series.str.split(pat=None, n=-1, expand=False)进行数据拆分,只取其中的value。原创 2021-04-02 15:17:31 · 13675 阅读 · 3 评论 -
Python将Excel转成Json格式
Json是一种轻量级的数据交换格式,简洁和清晰的层次结构使其成为理想的数据交换语言,易于人阅读和编写,同时也易于机器解析和生成,并有效地提升网络传输效率。然而我们很多数据经常是用Excel处理或保存的,为了更好的让研发人员使用,需要将数据转成Json格式。Python中提供了json模块,可用json.dumps()和json.loads()函数分别编码和解码Json对象。原创 2021-02-10 14:22:10 · 8213 阅读 · 1 评论 -
Python实现基于3σ原则的异常值检测
异常值是指样本中的个别值明显偏离其余的观测值。异常值的存在会对数据分析、建模产生干扰,因此需要对数据集进行异常值检测并进行异常值删除或修正,以便后续更好地进行数据分析和挖掘。对于异常值检测,有描述性统计、3σ原则方法、箱线图、基于聚类的方法等,而3σ原则是最常使用的异常值检测方法之一。在3σ原则下,一般认为数据的取值99.7%的概率集中在(μ-3σ,μ+3σ)区间内(μ为平均值,σ为标准差),超出这个范围的可能性仅占0.3%,属于极个别的小概率事件,因此将超出(μ-3σ,μ+3σ)范围的值认为是异常值。原创 2021-01-24 15:49:41 · 16893 阅读 · 11 评论 -
运用Python+ElementTree解析XML
近日遇到一些XML数据,想把其解析出来,便于后期归纳汇总数据。搜集资料,发现运用Python的ElementTree可以解析XML数据。ElementTree提供了parse()、from_string()、ElementTree类ElementTree()等方式解析xml。然后可以直接循环遍历,也可以采用find(match)、findall(match) 、 iter(tag=None)等方法来匹配遍历。原创 2021-01-17 14:41:06 · 719 阅读 · 0 评论 -
Excel快速核对两张表格
在工作中,经常会遇到核对两张表格看是否完全一致,如图中的表1和表2。利用Excel的高级筛选、条件格式、VLOOKUP函数,快速实现两个表格的核对,简单、高效、准确。原创 2021-01-02 21:18:19 · 7190 阅读 · 1 评论 -
Excel快速将多个单元格合并到一个单元格
在工作或生活中,对于小批量的数据我们习惯用Excel来处理,经常可能会面临这样的问题——如何把多个单元格数据合并到一个单元格。实现这一效果的方式有很多种,比如CONCATENATE函数、连接符&、PHONETIC函数等等,但是每种方法的具体应用场景可能稍有差异。原创 2021-01-02 16:26:04 · 24963 阅读 · 0 评论 -
利用Python读取MongoDB的数据
近日在处理数据的时候遇到一个问题,数据存储在MongoDB数据库,而MongoDB模式自由、具有很大的灵活性,可以把不同结构的文档存储在同一个数据库里,即表的字段不是完全固定的,当某个字段有值时就会显示该字段,而当该字段没有值时就不显示该字段。因此,同一个数据库表根据不同的条件查询得到的字段数可能会不一样,字段个数不同。现在想得到每个SourceCode下的数据包含哪些字段,而SourceCode取值有70多个,如果手动统计有点耗时,于是想到利用Python读取MongoDB数据来解决这一问题。原创 2020-12-16 08:23:05 · 11905 阅读 · 1 评论 -
利用Python批量读取文件
近日,从欧盟统计局下载了一些数据,下载的数据表中的指标、地区等都是用的编码,而编码具体代表的含义则需要参照对应的字典文件。然而字典文件有500多个,为了查看全部字典文件的信息,于是想用Python把这些字典文件合并成一个文件。基本思路是利用os.listdir读取文件夹下的文件列表,然后依次读取并追加每个文件的内容,最终保存成csv文件。原创 2020-12-12 22:02:25 · 1081 阅读 · 0 评论 -
Excel函数——运用REPT函数画图
我们经常会利用Excel制作柱状图、条形图、折线图、饼图等图表以更加直观的展示数据。除了常用的图表,其实我们还可以利用Excel中的REPT函数制作图表,以补充丰富我们的图表样式。原创 2020-12-12 17:00:38 · 1141 阅读 · 0 评论 -
Excel函数——OFFSET函数将多列合并成一列
最近遇到一个问题,每个表的字段分别一列展示,不同表有公共字段,也有独有的字段,现想统计这些表共涉及哪些字段。基本思路就是将这些表的字段合并为一列再去重。OFFSET函数的功能是以指定的引用为参考系,通过给定偏移量得到新的引用。返回的引用可以是任何一个单元格,也可以是单元格区域,还可以指定返回的行数或列数。其格式为:OFFSET(reference,rows,cols,height,width)参数reference是一个引用区域,作为偏移量的参照系,它必须是对单元格或相连单元格区域的引用,否则原创 2020-12-10 20:39:05 · 12988 阅读 · 2 评论 -
Excel函数——Rank函数快速得到历年各省排名
我国经常通过Excel排序得到某个数值的排名,但是如果数据比较多时,例如想得到1978年-2018年每年我国各省份稻谷产量的排名,虽然能通过排序得到,但是需要大量重复操作,耗时耗力。而使用RANK函数即可快速解决这类问题。原创 2020-11-20 08:23:59 · 922 阅读 · 0 评论 -
Word文字报告自动与Excel数据同步更新
我们经常会写一些周报、月报、年报等周期性系列报告,如国家统计局每月发布的社会消费品零售总额数据,这些报告通常会有一些固定的文字描述,数据会根据不同时间而进行更新,即数据是动态的、随时变化的。如果每次都手动复制粘贴,无疑给工作人员带来很多重复性工作,效率低且容易出错。把复制的内容在Word中粘贴为链接,即可实现Word报告中文字描述随着Excel数据变化而自动更新,从而简化工作,提高工作效率和质量。原创 2020-09-16 16:46:12 · 7181 阅读 · 1 评论 -
利用pyecharts+sklearn实现链家北京二手房房价预测
利用Python的pandas、pyecharts、sklearn库,对之前从链家网站爬取的北京二手房的数据进行统计和可视化,分析北京二手房价格的影响因素,进而构建随机森林回归模型对北京二手房平均价格进行预测。原创 2019-04-22 19:23:11 · 10362 阅读 · 9 评论 -
用python 将PDF中的表格转化为Excel
这几天想统计一下《中国人文社会科学期刊 AMI 综合评价报告(2018 年):A 刊评价报告》中的期刊,但是只找到了该报告的PDF版,对于表格的编辑不太方便,于是想到用Python将表格转成Excel格式。看过别人写的博客,发现Python解析PDF有以下四种方式:-pdfminer:擅长文字的解析,把表格解析成普通的文本,没有格式;-pdf2html:把pdf解析成html,但html的标...原创 2019-02-27 17:29:39 · 19279 阅读 · 5 评论