数据分析
文章平均质量分 70
ziyin_2013
这个作者很懒,什么都没留下…
展开
-
Tableau图例:利用单独图例实现条件格式
用Excel处理数据时,经常会用到条件格式提高数据的可读性,比如图中用条件格式–色阶分别为“数量”“销售额”两列设置了不同的格式,以达到突出重点的效果。在Tableau中同样可以实现类似效果,以自带的“示例–超市”数据为数据源,一起来看一下如何利用单独图例为不同的字段设置不同的格式。构建工作表。将“地区”“省/自治区”拖到行功能区,“度量名称”拖到列功能区;拖两个“度量值”到标记区,分别设置为文本、颜色;将“度量名称”“订单日期”拖入到筛选器,其中“度量名称”中选择数量、销售额、利润、利润率四个字段原创 2022-05-22 17:04:59 · 2298 阅读 · 0 评论 -
Tableau函数:实现数值累计值
工作中经常需要看截至到当前时间完成情况,比如以自带的“示例–超市”中的销售额为例,各年度的总销售额为多少?各季度完成销售额多少?累计到二季度完成销售额多少?以自带的“示例–超市”数据为数据源,一起来看一下如何利用tableau中的RUNNING_SUM、WINDOW_SUM、SUM函数,实现数值的累计值及其百分比。创建计算字段“年度总销售额”“累计销售额”“当季销售额/年度总销售额”“累计销售额/年度总销售额”。将“订单日期”拖到列功能区,选择自定义–季度–日期部分;“订单日期”、“年度原创 2022-05-01 15:10:57 · 5818 阅读 · 0 评论 -
hive:常见日期函数
1. to_date:日期时间转日期-- 注:日期字符串必须满足yyyy-MM-dd格式命令:select to_date('2022-04-29 08:52:14.0');输出:2022-04-292. current_date :当前日期命令:select current_date();输出:2022-04-303. date_sub : 返回日期前n天的日期-- 注:日期字符串必须满足yyyy-MM-dd格式命令:select date_sub('2022-04-29 08:52原创 2022-04-30 11:09:14 · 9971 阅读 · 0 评论 -
hive:explode和lateral view函数实现行转列
需求:假设某超市的订单表order如下,现想统计用户经常购买的Top100商品。思路:为了便于统计Top100商品,需要从订单表order的info字段提取商品字段goods,并行转列。下面利用hive中的explode和lateral view函数得到以下表结构。第一步:利用explode函数将info字段进行拆分及行转列。regexp_replace(string A, string B, string C):正则表达式替换,将字符串A中的符合正则表达式B的部分替换为C;split(str原创 2022-01-08 20:49:04 · 1897 阅读 · 1 评论 -
Tableau参数:展示TOPN及其占比、增长率
在工作中,我们更加关注TOPN,并且可能会从横纵向维度来对比分析,观察其在整体中的位置,以及其增长情况。以自带的“示例–超市”数据为数据源,一起来看一下如何利用tableau参数、计算字段,在同一视图中展示TOPN及其占比、增长率。原创 2021-10-31 18:48:46 · 4280 阅读 · 0 评论 -
Tableau参数:同一视图实现指标和图表联动
工作中经常会遇到想用折线图或柱状图等可视化方式直观展示有N个指标的趋势,一方面指标太多,另一方面各指标的量纲不同,如果放在一张图中有点乱,且展示不清晰,如图中的数量和销售额两个指标因量纲差别太大,导致数量基本看不出来对比效果。于是想切换指标,然后图表只展示当前选择指标的趋势图。下面依次介绍通过度量名称筛选、参数、参数动作3种方式实现指标与图表联动。原创 2021-09-30 16:41:58 · 3921 阅读 · 0 评论 -
Tableau图表:饼图和环形图
饼图和环形图是我们工作中经常用到的数据可视化方式,非常直观的展示各类别的分布及占比情况。但是对于类别较多时,饼图或环形图不如条形图等展示效果好,对于类别较多时该如何仅显示TOPN以突出重点,弥补饼图的短板发挥其优势。以自带的“示例--超市”数据为数据源,一起来看一下如何在Tableau中生成饼图或环形图,并通过集、计算字段、参数生成TOPN饼图或环形图。原创 2021-09-12 18:59:15 · 3001 阅读 · 0 评论 -
Tableau参数:自定义周起始时间
平时我们可能会经常看周数据,Tableau默认周日为一周的第一天,但是有时我们根据业务需求,可能以周五为一周的第一天,可以通过Tableau日期属性和参数实现对周起始的自定义设置。原创 2021-09-02 09:51:45 · 4667 阅读 · 2 评论 -
Tableau参数:使用参数创建开始日期和结束日期筛选器
Tableau默认的日期筛选样式有相对日期、日期范围、开始日期、结束日期等,可以根据自己的需要选择合适的方式。虽然Tableau默认日期筛选有多种形式可以选择,但是使用仍旧不够灵活,比如对于已发布的报表,偶尔仅想看上月每天的数据情况,相对日期形式无法实现,日期范围形式虽然可以满足,但是当数据本身的时间范围比较长的时候(比如5年),通过拖动无法精准的选择到自己想选择的日期。此时,可以使用参数创建开始日期和结束日期筛选器,自定义输入起始和结束日期进行筛选。原创 2021-08-15 17:13:12 · 6960 阅读 · 0 评论 -
分布滞后模型
在涉及时间序列数据的回归分析中,一般由于经济变量自身、决策者心理、技术、制度等原因,解释变量需要经过一段时间才能完全作用于因变量,同时由于经济活动的连续性,因变量的当前变化也往往受到自身过去取值水平的影响,即模型中不仅包含解释变量的当前值,还包含它们的滞后值(过去值),这样的模型称为分布滞后模型(distribution-lag model),不能直接使用最小二乘法(OLS)估计,会遇到多重共线性、损失自由度、滞后长度难以确定等问题,对于有限分布滞后模型,常用的修正估计方法有经验加权法、阿尔蒙多项式法等。原创 2021-01-31 21:15:26 · 20721 阅读 · 8 评论 -
Excel快速核对两张表格
在工作中,经常会遇到核对两张表格看是否完全一致,如图中的表1和表2。利用Excel的高级筛选、条件格式、VLOOKUP函数,快速实现两个表格的核对,简单、高效、准确。原创 2021-01-02 21:18:19 · 7190 阅读 · 1 评论 -
Excel快速将多个单元格合并到一个单元格
在工作或生活中,对于小批量的数据我们习惯用Excel来处理,经常可能会面临这样的问题——如何把多个单元格数据合并到一个单元格。实现这一效果的方式有很多种,比如CONCATENATE函数、连接符&、PHONETIC函数等等,但是每种方法的具体应用场景可能稍有差异。原创 2021-01-02 16:26:04 · 24963 阅读 · 0 评论 -
利用Python批量读取文件
近日,从欧盟统计局下载了一些数据,下载的数据表中的指标、地区等都是用的编码,而编码具体代表的含义则需要参照对应的字典文件。然而字典文件有500多个,为了查看全部字典文件的信息,于是想用Python把这些字典文件合并成一个文件。基本思路是利用os.listdir读取文件夹下的文件列表,然后依次读取并追加每个文件的内容,最终保存成csv文件。原创 2020-12-12 22:02:25 · 1081 阅读 · 0 评论 -
Excel函数——运用REPT函数画图
我们经常会利用Excel制作柱状图、条形图、折线图、饼图等图表以更加直观的展示数据。除了常用的图表,其实我们还可以利用Excel中的REPT函数制作图表,以补充丰富我们的图表样式。原创 2020-12-12 17:00:38 · 1141 阅读 · 0 评论 -
Excel函数——OFFSET函数将多列合并成一列
最近遇到一个问题,每个表的字段分别一列展示,不同表有公共字段,也有独有的字段,现想统计这些表共涉及哪些字段。基本思路就是将这些表的字段合并为一列再去重。OFFSET函数的功能是以指定的引用为参考系,通过给定偏移量得到新的引用。返回的引用可以是任何一个单元格,也可以是单元格区域,还可以指定返回的行数或列数。其格式为:OFFSET(reference,rows,cols,height,width)参数reference是一个引用区域,作为偏移量的参照系,它必须是对单元格或相连单元格区域的引用,否则原创 2020-12-10 20:39:05 · 12988 阅读 · 2 评论 -
用python构建线性回归和决策树模型实现房价预测
国家整体经济水平的不断提高和人们生活质量的提升,刺激着房屋价格也在不断的上涨。房价是由多个因素决定的,比如国家的宏观调控、居民人均可支配收入、房地产开发投资、住宅销售面积等,这些因素都影响着房价的走势。未来房价走势如何成为人们关心的热点,本文用Python构建线性回归和决策数模型实现房价的预测。原创 2020-12-09 08:18:37 · 13199 阅读 · 92 评论 -
Excel函数——Rank函数快速得到历年各省排名
我国经常通过Excel排序得到某个数值的排名,但是如果数据比较多时,例如想得到1978年-2018年每年我国各省份稻谷产量的排名,虽然能通过排序得到,但是需要大量重复操作,耗时耗力。而使用RANK函数即可快速解决这类问题。原创 2020-11-20 08:23:59 · 922 阅读 · 0 评论 -
聚类篇——(五)层次聚类
层次聚类主要有两种类型:合并的层次聚类和分裂的层次聚类。合并的层次聚类是一种自底向上的聚类算法,从最底层(即每个数据点为一类)开始,每一次合并最相似的类,直到全部数据点都合并到一类时或者达到某个终止条件时停止,大部分层次聚类都是采用这种方法处理。分裂的层次聚类是一种自顶向下的聚类方法,从最顶层(即全部数据点为一类)开始,然后把根节点分裂为一些子类,每个子类再递归地继续往下分裂,直到每个类中仅包含一个数据点。原创 2020-11-14 15:33:25 · 17173 阅读 · 2 评论 -
聚类篇——(四)有序样品聚类
有序样品聚类要求样品按一定的顺序排列,分类时是不能打乱次序的,即同一类样品必须是互相邻接的。比如要将新中国成立以来国民收入的情况划分为几个阶段,此阶段的划分必须依年份的顺序为依据,又如研究天气演变的历史时,样品是按从古到今的年代排列的,年代的次序也是不能打乱的。有序样品的聚类实质上是找一些分点,将有序样品划分为几个分段,每个分段看做一个类,所以分类也称为分割。显然分点取在不同的位置就可以得到不同的分割。原创 2020-11-03 08:23:12 · 11106 阅读 · 22 评论 -
Word文字报告自动与Excel数据同步更新
我们经常会写一些周报、月报、年报等周期性系列报告,如国家统计局每月发布的社会消费品零售总额数据,这些报告通常会有一些固定的文字描述,数据会根据不同时间而进行更新,即数据是动态的、随时变化的。如果每次都手动复制粘贴,无疑给工作人员带来很多重复性工作,效率低且容易出错。把复制的内容在Word中粘贴为链接,即可实现Word报告中文字描述随着Excel数据变化而自动更新,从而简化工作,提高工作效率和质量。原创 2020-09-16 16:46:12 · 7181 阅读 · 1 评论 -
聚类篇——(三)K-Medoids聚类
K-Medoids算法的基本思想为:** 对于给定聚类数目k,首先随机选择k个代表对象作为初始聚类中心,计算各剩余对象与代表对象的距离并将其分配给最近的一个簇,产生相应的聚类结果。然后开始迭代过程:对于每一次迭代,将随机选择的一个非中心点替代原始中心点中的一个,重新计算聚类结果。若聚类效果有所提高,保留此次替换,否则恢复原中心点。当替换对聚类效果不再有所提高,迭代停止。原创 2020-07-03 22:46:11 · 8623 阅读 · 0 评论 -
聚类篇——(二)K-means聚类
K-means聚类也称快速聚类,属于覆盖型数值划分聚类算法。它得到的聚类结果,每个样本点都唯一属于一个类,而且聚类变量为数值型,并采用划分原理进行聚类。K-means聚类的基本思想:参数K用以决定结果中簇的数目,算法开始时,要在数据集中随机选择K个数据对象用来当做K个簇的初始中心,而将剩下的各个数据对象根据他们和每个聚类簇心的距离选择簇心最近的簇分配到其中。然后重新计算各个聚类簇中的所有数据对象的平均值,并将得到的结果作为新的簇心;逐步重复上述过程直至目标函数收敛为止。原创 2020-06-30 21:29:16 · 5172 阅读 · 0 评论 -
聚类篇——(一)聚类分析概述
聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类的目标是同一类对象的相似度尽可能大,不同类对象之间的相似度尽可能的小。原创 2020-06-30 21:23:12 · 11632 阅读 · 0 评论 -
利用pyecharts+sklearn实现链家北京二手房房价预测
利用Python的pandas、pyecharts、sklearn库,对之前从链家网站爬取的北京二手房的数据进行统计和可视化,分析北京二手房价格的影响因素,进而构建随机森林回归模型对北京二手房平均价格进行预测。原创 2019-04-22 19:23:11 · 10362 阅读 · 9 评论 -
用python 将PDF中的表格转化为Excel
这几天想统计一下《中国人文社会科学期刊 AMI 综合评价报告(2018 年):A 刊评价报告》中的期刊,但是只找到了该报告的PDF版,对于表格的编辑不太方便,于是想到用Python将表格转成Excel格式。看过别人写的博客,发现Python解析PDF有以下四种方式:-pdfminer:擅长文字的解析,把表格解析成普通的文本,没有格式;-pdf2html:把pdf解析成html,但html的标...原创 2019-02-27 17:29:39 · 19279 阅读 · 5 评论 -
用python构建机器学习模型分析空气质量
空气质量(air quality)的好坏反映了空气污染程度,它是依据空气中污染物浓度的高低来判断的。空气污染是一个复杂的现象,在特定时间和地点空气污染物浓度受到许多因素影响。来自固定和流动污染源的人为污染物排放大小是影响空气质量的最主要因素之一,其中包括车辆、船舶、飞机的尾气、工业企业生产排放、居民生活和取暖、垃圾焚烧等。城市的发展密度、地形地貌和气象等也是影响空气质量的重要因素。原创 2019-01-01 12:44:11 · 22618 阅读 · 245 评论 -
解决python爬虫中文乱码问题
今天在用python爬取网页数据时中文显示乱码,最终发现是目标网页编码与python默认编码‘utf-8’不一致导致的。下面把解决方法与大家分享。step1:查看目标网页编码方式在各种浏览器打开的任意页面上使用F12功能键,即可使用开发者工具,在窗口console标签下,键入“document.charset” 即可查看网页的编码方式。如网页链接: http://www.tianqihoub...原创 2018-12-31 12:47:56 · 3278 阅读 · 0 评论 -
学习python抓取数据——链家北京二手房数据
day1:学习python抓取数据–链家北京二手房数据最近在学习用Python进行数据分析、机器学习,使用数据集效果不错,想用一些实际数据看一下效果,于是想到用Python尝试抓取一些数据。实验目的:学习Python爬取数据,方便后续用实际数据进行分析爬取链家网的一些内容工具:requests和BeautifulSoup1.准备工作首先,导入所需要的库,主要有urllib.request...原创 2018-12-22 22:44:40 · 3019 阅读 · 7 评论