数据分析面试

zr_xs

已于 2023-11-02 14:23:23 修改

阅读量1.3k

点赞数 2

分类专栏：数据分析文章标签：数据分析机器学习

于 2023-09-04 15:15:11 首次发布

本文链接：https://blog.csdn.net/zr_xs/article/details/132669762

版权

数据分析专栏收录该内容

1 篇文章

订阅专栏

数据分析相关的职位面试可以拆解为以下三块：

1）技术基础

2）项目经验提问

3）业务问题

【数据分析与挖掘（二）】面试题汇总(附答案)_数据分析面试常见问题及答案_youthlost的博客-CSDN博客

我裸辞去面试python岗位了_Python_金钱豹的博客-CSDN博客

sql

py编程

面试：

02 为什么通过统计指标处理特征缺失值时，针对连续型字段经常采用平均值、中位数来填充，而不采用最大值、最小值、众数？
答：采用平均值、中位数可以在一定程度上保证数据的平衡，很多情形下可以维持原有数据的分布形态，若采用最大值、最小值等方式填充，很可能导致处理后的数据分布趋势发生变化，尤其是在缺失值数量较多的情况下，直接导致出现偏峰分布的现象，同时填充后的数据也不符合实际业务的客观理解。当然，在某些特定场景下采用最大值、最小值等填充也是完全合理的，但一般情况下针对连续型特征，采用平均值、中位数相对更合适些。

03 为什么在特征缺失值与异常值处理过程，往往异常值处理在前？
答：如果缺失值处理在前，若通过常用的统计指标（最大值、最小值、平均值等）来填充，会将异常值数据考虑在内，这相当于将噪音数据成分植入到缺失单元，在一定程度上将异常值成分扩散，直接影响数据的合理分布。如果异常值处理在前，可以先将噪音数据影响的排除，然后采用合适的缺失值填充方法处理，可以较好保证特征数据分布的原有形态，对后续模型训练的影响也明显更小。

04 为什么离散型数值特征在异常值处理不采用箱线图方法来实现？
答：从箱线图的原理逻辑来讲，离散数值型特征是完全支持通过箱线图来识别异常值的，而且也具有一定的解释意义，但相对连续型特征的箱线图处理，离散数值型特征处理过程的合理性有明显欠缺。例如，某离散型特征的取值分布为1,2,3,4,10，若采用箱线图来判断，则10会认为异常值，若此特征的标签含义是电商会员卡等级，10是很有意义的，作为异常值处理是不合理的。因此，离散数值型特征往往通过取值占比或人为经验来判断异常值。

05 为什么在数据建模前的特征探索分析很有必要？
答：样本数据探索的主要目的，是为了给后续的数据清洗与特征工程等环节提供信息参考。其中，针对数据清洗方面，我们可以根据数据的统计分析，了解到样本特征的分布类型（连续型、离散型）、取值类型（varchar、int、float、date）、缺失值情况、异常值情况等，可以进一步决定数据清洗的具体方法，例如对于连续型与离散型特征的缺失值处理，选取的处理逻辑是有很大区别的，连续型采用平均值，而离散型采用众数等。针对特征工程方面，由于已知特征字段的不同取值类型，在特征编码、特征标准化、特征相关性等处理方法的选择上也有很大差异。因此，在数据分析任务中，导入数据后的样本探索分析，对于我们熟悉样本特征情况与把握后续处理环节是很有帮助的。

06 为什么特征衍生时字段维度不要太多？
答：特征衍生是数据建模过程中经常采用的一项特征工程，尤其是针对特征变量池较小的情况，但是对原始特征进行衍生的过程中，不能一味追寻加工特征的数量，务必要考虑特征的业务含义与应用价值，在银行等传统金融机构更需要注意这个要点。同时，根据原始特征的不断衍生，例如通过统计学的差分、占比等维度，理论上可以加工出无穷的字段，但新字段之间的相关性是很强的，在后续特征筛选的环节会很大概率的删除，这对工作效率来讲显然是没有必要的，即使不进行特征相关性筛选，在模型拟合过程中会直接导致模型的共线性，而这也并不是我们希望的结果。因此，在特征衍生环节，要客观分析把握一定的衍生维度与方法是最重要的。

07 为什么特征变量之间的相关性分析很有必要？
答：特征变量的相关性分析在数据测试、数据建模等场景中是非常重要的，对于三方数据测试，我们可以根据特征的相关性分析，得到相关字段联系的量化指标，从而为字段选择与特征引入提供很直观的参考价值；对于数据建模，特征的相关性分析已经成为一种标配，根据字段之间的相关性系数大小，可以筛选保留信息度较大的字段，不仅可以较大程度减弱模型拟合的共线性，而且可以提

面试题：在实施A/B test时，流量该如何进行分流？

答：实施A/B test的核心思路有3点，一是多个方案同时并行，二是控制变量，每个方案之间只有一个变量有差异，三是明确方案的评价标准，即实验组的效果要超过对照组多少才认为是显著的。如果只对一个环节进行A/B test，那么每个方案之间的流量是要互斥的，并且是随机划分的，这样可以保证每个方案的流量都来自于同一个样本空间。

面试题：我们公司有一款产品是与银行合作推出的“联名信用卡”，这种信用卡可以取现。你认为其中存在的风险点有哪些？该如何降低这些风险？

答：我对您提到的这款“联名卡”的具体业务流程不是特别清楚，这里我就假定它和银行的信用卡是类似的。

区别在于贵公司作为资金提供方和流量入口，而银行作为发卡机构。我认为存在的风险有3点。

第一是逾期风险，这个风险普遍存在于金融领域。解决的方法是不断对风控规则进行迭代，定期对模型进行重新训练，适应客群的变化。如果可能的话，还可以与合作银行进行数据方面的共享，降低数据孤岛带来的影响。

第二是欺诈风险。可以采取“面签”的方式降低风险。银行在发放信用卡时几乎都会要求去线下网点面签，与银行合作刚好可以发挥这方面的优势。

第三是政策风险。这个风险点在于银行方面出于合规的考虑与贵公司解除合作。

一：

获取数据：数据埋点

6大步骤：快速学会如何进行数据埋点 | 人人都是产品经理 (woshipm.com)

如何进行A、B测试：

A/B测试是一种用于评估两个或多个不同版本的产品、功能或策略的效果的统计方法。它通常用于优化网站、应用程序、广告等，以确定哪个版本在用户行为、转化率或其他关键指标上表现更好。在A/B测试中，一个随机抽取的用户群体被分成不同组，每组分别暴露于不同的变体，例如A组和B组。然后，通过收集和分析数据，可以确定哪个变体表现最佳。

假设您是一家电子商务公司，希望提高产品页面上的转化率，即更多的访问者购买产品。您决定进行A/B测试来确定哪个购买按钮颜色更有效：红色（组A）还是绿色（组B）。

创建两个组：您将访问者随机分成两组，一半看到产品页面上的红色购买按钮，另一半看到绿色购买按钮。
数据收集：在测试期间，您会收集每个组的数据，包括访问量、点击率和实际购买率。
分析：经过一段时间，您分析数据并比较两组的性能。假设您发现组A（红色按钮）的购买率高于组B（绿色按钮）。
结论：基于分析的结果，您可以得出结论，即红色按钮更有效，因此您决定在整个网站上采用红色按钮。

A/B测试的优点是它能够通过数据支持决策，从而最大化效果并减少风险。

A/B测试也可以关注以下其他指标，具体取决于测试的目标和上下文：

点击率 (Click-Through Rate, CTR)：这是指用户点击某个页面元素（如广告、按钮、链接等）的比例。CTR可以用来评估用户对页面上特定元素的兴趣。
用户滞留时间：了解用户在不同版本之间停留的时间。如果某个版本导致用户更长时间的停留，可能表示用户对其更感兴趣。
页面浏览量：查看用户在不同版本上查看的页面数量。更多的页面浏览可能意味着更深入的探索和参与。
反弹率 (Bounce Rate)：反弹率是指用户在访问单个页面后离开网站的比例。较低的反弹率可能表示更多的用户对页面内容感兴趣。
收入：对于电子商务或订阅服务，测试可能关注实际收入变化。某个版本是否带来更高的销售额或收入？
用户满意度：通过调查或用户反馈来衡量用户对不同版本的满意度。用户体验和满意度对于长期客户关系至关重要。
社交分享：如果您的目标是提高内容的社交分享，可以关注社交分享的数量和频率。
用户注册率：如果您的网站或应用程序涉及用户注册，那么注册率是一个重要指标，您可以测试不同版本之间的注册率。
成本效益分析：除了直接收益，也要考虑测试对资源、广告开支或其他成本的影响。

转化率是指特定操作或事件的成功率，通常以百分比表示。它衡量了某个行动或目标的达成程度，可以在各种领域用于评估性能和效果。转化率通常是将实际完成所需操作的人数与尝试完成操作的总人数相除，然后将结果乘以100以获得百分比。

在营销和电子商务中，常见的转化率包括：

点击转化率 (Click-Through Rate, CTR)：广告或链接的点击次数与广告或链接的总曝光次数之比。
注册转化率：访问网站或应用程序后实际注册的用户数量与访问网站或应用程序的总用户数量之比。
购买转化率：访问电子商务网站后实际购买产品或服务的用户数量与访问网站的总用户数量之比。
订阅转化率：访问网站后实际订阅邮件通讯或服务的用户数量与访问网站的总用户数量之比。
表单提交转化率：访问页面后实际提交表单的用户数量与访问页面的总用户数量之比。

高转化率通常表示成功地吸引了目标受众或促使他们采取所需的行动。因此，企业通常专注于提高转化率，以实现更好的业绩和效益。转化率也是A/B测试中的重要指标之一，用于比较不同版本的效果。

有哪些框架、分析方法

如何基于数据训练算法

如何基于数据创造价值

一、什么是数据分析
观测、实验、应用

二、重新认识数据分析
观测：对事物形成客观量化的认知（报表、图表、仪表盘）
实验：发现规律、验证假设（科学研究、A/B测试）
应用：不断基于数据反馈迭代产品

三、观测
观察：采集数据、储存数据、展示数据
——————————————————————
—采集数据：解析系统日志
—采集数据：埋点获取新数据
—采集数据：通过传感器采集
—采集数据：爬虫（解析网站）
—采集数据：API （API 平台文档、用API 获取数据）

—储存数据：各类类型的数据库-hive、mysql、presto、impala（数据工程师）
—储存数据：连接数据库取数

—展示数据：可视化高效传达信息

测量：设定标准、发现异常、研究关系

——————————————————————
分析数据的目的是什么？
—及时发现异常
—找到数据之间的因果关系

数据是客观统一的：有统一的认知才能有共同的目标
—设定标准+发现异常
—研究关系：可视化查看相关性、建模推导相关性四、实验-提出假设，然后验证假设
—观测到差评率飙升、假设由恶劣天气引起、通过天气数据验证假设

所有未经过事实数据验证的想法都是假设
设计A/B测试获取数据
—实验目标、实验假设、实验打分、实验指标、实验观众、实验版本、开发验收、实验结果、实验分析、后续计划

如何在业务只有少量数据时设计数据实验？

在业务只有少量数据时设计数据实验可能会有一些挑战，但仍然是可行的。以下是一些在这种情况下的最佳实践：

明确定义目标：首先，确保您清楚地了解实验的目标和期望结果。明确您希望测试的内容，以便有效地收集和分析数据。
选择小而有代表性的样本：尽量选择小而有代表性的样本，以确保您的数据具有可靠性。虽然数据量有限，但确保样本能够代表您的目标受众。
控制变量：由于数据有限，尽量减少实验中的变数。这意味着在测试中尽量保持其他因素不变，以便更容易将结果归因于您的变化。
采用合适的统计方法：在小数据集上运行实验时，可能需要更灵敏的统计方法。确保您使用适当的方法来检测差异。
收集多个数据点：如果您的数据量非常有限，可以考虑延长实验时间，以收集更多数据点。这可以提高分析的可靠性。
使用贝叶斯统计：贝叶斯统计方法在小数据集上的效果通常更好，因为它允许您结合先验知识和新数据来做出推断。
迭代测试：在小数据集上运行多次小规模实验，然后根据每次实验的结果进行调整和改进。这种迭代方法可以帮助您逐渐提高业务绩效。

如何在无法同时测试两个版本时比较数据？

五、应用-如何应用数据创造价值
—基于数据反馈不断迭代产品和业务策略
明确业务的目标，拆解目标，得到标准值
—流程拆解法、二分法、象限拆解法、杜邦分析法、AARRR、pest、rfm、swot、5w1h（拆解只要符合mece法则即可）

—将数据应用于业务
—将数据应用于算法
①为算法设定明确的业务目标
②为算法提供高质量的数据
③判断算法是否真的创造了实际价值
④帮助业务更好地使用算法

六、

面试1

自我介绍

深挖简历业务方向做法与反思

SQL题，计算过去一周每小时的订单总量，如果是15min怎么办，如果是5min怎么办

统计一周内每天销售总额SQL语句_宁在春的博客-CSDN博客

Mysql统计每天每周每年订单量_如何求每周下单次数-CSDN博客

SELECT DATE_TRUNC('hour', timestamp_column) AS hour, COUNT(*) AS order_count FROM orders WHERE timestamp_column >= NOW() - INTERVAL '1 week' GROUP BY hour ORDER BY hour;

这个查询执行以下操作：

使用DATE_TRUNC函数将时间戳（假设列名为timestamp_column）舍入到每小时，以便将所有订单分组到相同的小时内。
使用COUNT(*)函数来计算每小时的订单总量。
使用WHERE子句筛选出过去一周内的订单。这里假设你的时间戳是基于当前时间的，因此NOW()表示当前时间，NOW() - INTERVAL '1 week'表示一周前的时间。
使用GROUP BY子句将结果按小时进行分组。
最后，使用ORDER BY子句按小时排序结果

Python题，两表左右拼接和上下拼接

你可以使用pandas库来处理表格数据，

左右拼接（水平连接）：

假设你有两个pandas数据框 df1 和 df2，你可以使用pd.concat()函数进行水平连接，即左右拼接：

# 假设 df1 和 df2 具有相同的列名
result = pd.concat([df1, df2], axis=1)

上下拼接（垂直连接）：

同样，你可以使用pd.concat()函数进行垂直连接，即上下拼接：

# 假设 df1 和 df2 具有相同的列名
result = pd.concat([df1, df2], axis=0)

axis参数用于指定连接的方向，0表示垂直连接，1表示水平连接。

业务场景题，分析订单量下降的原因，不断限制范围问新的拆解指标

这种情况下需要深入了解业务，数据和市场情况。

收集数据： 获取订单量和相关数据，包括订单时间、地理位置、产品类别、促销活动等。
探索性数据分析（EDA）： 使用数据可视化和描述性统计分析，探索订单量的变化趋势、周期性和异常情况。
分析可能的原因： 基于业务知识和数据分析，分析可能导致订单量下降的因素，如市场变化、竞争情况、产品质量、促销效果等。
设计新的拆解指标： 根据可能的原因，设计新的拆解指标以更好地理解订单量下降的根本原因。
分析新拆解指标： 利用新拆解指标进行深入分析，识别影响订单量的关键因素。

可能的原因和示例拆解指标

市场竞争度下降：
- 拆解指标1： 竞争对手市场份额变化
- 拆解指标2： 我们的市场份额变化
产品质量问题：
- 拆解指标1： 客户投诉率
- 拆解指标2： 产品退货率
促销活动效果不佳：
- 拆解指标1： 促销活动参与率
- 拆解指标2： 促销活动销售转化率
季节性因素影响：
- 拆解指标1： 季节性订单量变化
- 拆解指标2： 节假日订单量变化
营销策略调整不当：
- 拆解指标1： 广告投入与订单量的关系
- 拆解指标2： 营销活动效果评估

统计题，抛硬币直到正面朝上才停止问很多次试验后正面朝上和反面朝上的比例

要得到更准确的比例，需要进行更多次试验并对结果进行平均。最终趋于1：1

机器学习，讲boosting和bagging的区别

大数据题，什么是数据倾斜

反问

面试2：

1.做数据分析的优势

2.玩过的五款游戏及状态

3.ab测试，a组男生比b组高，a组女生也比b组高，可以得出结论a组比b组好？说明理由

不能简单地根据"A组的男生比B组高，A组的女生也比B组高"这个情况得出"A组比B组好"的结论。AB测试的设计和分析需要更复杂的方法和考虑因素，以下是一些理由：

混合效应： 在AB测试中，不仅要考虑组别（A组和B组）之间的差异，还需要考虑可能存在的其他因素（例如，性别）对结果的影响。性别是一种混合效应，可能会干扰你的结果，因此需要进行控制。例如A组男女人数远小于B组，恰好A组都是身高较高的
统计显著性： 在AB测试中，除了观察均值差异之外，还需要进行统计显著性检验来确定这些差异是否真正具有统计意义。在样本大小较小的情况下，即使均值差异看起来很大，也可能不具有统计显著性。
随机性： 个体差异和随机性是实验中不可避免的，可能导致A组和B组之间的差异。需要足够多的实验数据来减小这种随机性的影响。足够多的实验数据
控制变量： 在AB测试中，你需要控制其他可能影响结果的变量，以确保你所观察到的差异确实是由组别因素引起的，而不是其他因素的影响。

综上所述，要得出"A组比B组好"的结论，你需要进行更详细的分析，考虑到性别差异和其他可能的混合因素，使用统计方法来确定差异是否具有统计显著性。此外，需要足够大的样本量以降低随机性的影响。

4.预期次日留存率65%，最少需要多少新用户

目标留存率（65%）：这是你希望要确定需要多少新用户以确保达到预达期的次日留存率，我们需要考虑以下到的留存率。
现有用户：
次日留存率目标：有一些用户，你预需要确定他期们中有多少的次人日留会在存次日率保是留。
**新用户数量65%。
定义新用户： 需要明确定义什么是“新用户”，通常是在**：这是你需要一定时间增加的新用户数量。

5.问卷收集，有用户说游戏内礼包太少，怎么反馈总结结论，说明论证过程

数据收集： 首先，收集和整理戏内礼包数量不满意的反用户的反馈馈，并进行论证数据，你可以。这按可以照是以下来步自用户调查、社交媒体反馈、游戏内反馈或其他骤渠：
1. 数据反馈，特别是关于游戏内礼包数量不足的意见。这可以包括游分类戏内：聊 将用户反馈天、社交媒体、邮件或分为不同的类别，例如，用户关于礼包数量的反馈可以包括“礼包太少”、“礼包内容不满意”等
2. 定制用户反馈渠道。
分类和分析： 对数据进行定量分析，例如，计算不同类整理反馈：将反馈按照不同主题分类，这有助于你更好地理解用户的关切点。
1. 数据分析： 对于数量不足的问题，你可以进行数据分析，查看游戏内馈礼的包的分发情频率和比例。这将帮助你了解哪种类型的况反馈最。常见。
2. 定性分析： 对一些具体较用户的实反馈际进行深入分析，以了解用户的具体关切点。这可能需要考虑文本分析或情感分析等技巧。
. 用户调查： 进行用户调查以了解更多用户的看法。问用户是否他们认为礼包数量比足较不够同，类是否别的反愿意馈，看看是否有一些类别的反馈更为突花出更。多时间或金钱来获取更多礼包等。
. ：进行用户调查以了解更多用户的看法。问用户是否他们认为礼包数量比足较不够同，类是否别的反愿意馈，看看是否有一些类别的反馈更为突花出更。多时间或金钱来获取更多礼包等。
你可以得出结论，大多数用户感到礼包数量不总结用户对礼包数量不满意的原因和程度足，。可能确定是是否因为与存在竞实争游戏际问题相比以，及用户或者他对此问题的们的重视游程戏度进。
提出建议： 根需要据分析的结果，提出建议。增 加礼包数量、改建进议改进措施： 提出一些可能的礼改进措施，以满足用户包内容的、提需求供定。这期特可以包殊活括增动加礼包数量等。、改建议应该平善衡用户礼需包求内容和或游者增戏加的用户互动机会。

6.excel vlookup函数

7.sql 考察表链接（外链接，内链接，自链接），还有rank，date函数

join等同于inner join。

    inner join：理解为“有效连接”，两张表中都有的数据才会显示
        left join：理解为“有左显示”，比如on a.field=b.field，则显示a表中存在的全部数据及a、b中都有的数据，a中有、b中没有的数据以null显示
        right join：理解为“有右显示”，比如on a.field=b.field，则显示b表中存在的全部数据及a、b中都有的数据，b中有、a中没有的数据以null显示
        full join：理解为“全连接”，两张表中所有数据都显示，实际就是inner +(left-inner)+(right-inner)

8.预测流失人数模型

预测流失人数是一项重要的业务分析任务，通常需要使用机器学习或统计建模来完成。以下是创建预测流失人数模型的一般步骤：

数据收集和准备：
- 收集历史数据，包括客户信息、行为数据、流失信息等。
- 清理和准备数据，处理缺失值和异常值，进行特征工程。
特征工程：
- 识别和创建相关特征，例如客户的使用频率、时长、付款历史、活跃度等。
- 进行特征缩放和编码，确保数据适合模型训练。
拆分数据集：
- 将数据集分为训练集和测试集，通常使用80/20或70/30的比例。
选择模型：
- 选择适当的机器学习模型，例如逻辑回归、决策树、随机森林、支持向量机等。
模型训练：
- 使用训练数据拟合选定的模型，学习模型的参数。
模型评估：
- 使用测试数据评估模型的性能，通常使用指标如准确性、召回率、F1分数等。
调整模型：
- 如果模型性能不佳，可以进行超参数调整、特征选择或尝试不同的模型。
模型部署：
- 将训练好的模型部署到生产环境，用于实际预测流失人数。
持续监控：
- 定期监控模型的性能，确保它仍然有效，并在需要时重新训练或更新。
解释结果：
- 解释模型的预测结果，了解哪些因素对流失人数的预测有重要影响。
采取措施：
- 基于模型的预测结果，采取措施来降低流失率，例如改善客户体验、提供定制优惠或促销等。

在整个过程中，数据质量和特征工程的质量对模型性能起着关键作用。因此，数据分析和准备是非常重要的步骤。模型的选择和调整也需要根据具体业务需求和数据特点来决定。最终，建立一个可靠的预测流失人数模型有助于业务做出有针对性的决策，减少客户流失。

9.AB实验一个实验是否控制多个条件不同？

可以包括多个条件的控制，也可以涉及不同的处理条件。在AB实验中，以下情况可能发生：

单变量实验：在单变量实验中，只有一个条件或变量发生变化，例如测试不同的按钮颜色以查看对用户点击率的影响。此时，只有一个条件（按钮颜色）被控制或更改。
多变量实验：在多变量实验中，同时更改多个条件或变量。例如，测试网站的按钮颜色和标题文字，以了解它们对用户互动的综合影响。在这种情况下，多个条件同时被控制或更改。
分层实验：分层实验是AB测试的一种变体，其中参与者根据不同条件进行分层。每个条件可以控制多个变量，但它们在不同层级上应用。例如，一个在线广告实验可能将用户分为不同的地理位置组，然后在每个组内进行A/B测试，以了解地理位置对广告效果的影响。

综而言之，AB实验可以涉及控制一个或多个条件，具体取决于实验的目的和设计。无论实验是否涉及多个条件，关键是确保实验的设计和分析能够提供有意义的结果以支持决策制定。

10.group by和distinct的区别

DISTINCT 用于选择唯一的列值，而 GROUP BY 用于将结果按照指定列分组并对每个组应用聚合函数。
DISTINCT 通常用于单独选择唯一值，而 GROUP BY 通常用于聚合和分组数据。

举例来说，如果你想知道每个城市有多少个客户，你会使用 GROUP BY。如果你只是想列出所有不同的城市，你会使用 DISTINCT。

11.决策树的原理？

12.如何分析手机发热的原因

13.为什么投递

14.逻辑回归的原理、线性回归的缺点

15、sql各个关键词的执行顺序

FROM ：对FROM左边的表和右边的表计算笛卡尔积，产生虚表VT1；
ON ：对虚拟表VT1进行ON筛选，只有那些符合条件的行才会被记录在虚拟表VT2中；
JOIN ：如果是OUT JOIN，那么将保留表中（如左表或者右表）未匹配的行作为外部行添加到虚拟表VT2中，从而产生虚拟表VT3；
WHERE ：对虚拟表VT3进行WHERE条件过滤，只有符合的记录才会被放入到虚拟表VT4；
GROUP BY：根据GROUP BY子句中的列，对虚拟表VT4进行分组操作，产生虚拟表VT5；
CUBE|ROLLUP：对虚拟表VT5进行CUBE或者ROLLUP操作，产生虚拟表VT6；
HAVING ：对虚拟表VT6进行 HAVING 条件过滤，只有符合的记录才会被插入到虚拟表VT7中；
SELECT ：执行SELECT操作，选择指定的列，插入到虚拟表VT8中；
DISTINCT ：对虚拟表VT8中的记录进行去重，产生虚拟表VT9；
ORDER BY ：将虚拟表VT9中的记录按照进行排序操作，产生虚拟表VT10；
LIMIT ：取出指定行的记录，产生虚拟表VT11，并将结果返回。

-------------------------------------------------------------------------------------------------------------

多个excel的sheet分窗口显示：

wins + -> :分窗口

二、透视表：

行、列、值、筛选

插入字段

使用透视表制作透视图

三、函数：

可以夸跨sheet选择数据---或者利用视图的新建窗口 -win+方向右键划分左右来选取数据范围

1、sum（number1,number2,number3,number4,)

number可以是区域，也是是数字

例如：

=SUM(B2:B4,D2,5)

=SUM('拌客源数据1-8月'!J2:J25,'拌客源数据1-8月'!J496:J562)

2、SUMIF函数：单条件求和，求和范围写在后面

语法结构：SUMIF（range,ceiteria,[sum_range]）。

Range：必需。用于条件计算的单元格区域-条件列

Criteria：必需。用于确定对求和单元格的条件，其形式可以是数字、表达式、单元格引用、文本或函数--- 条件

Sum_range：可选。要求和的实际单元格（如果要对未在range参数中指定的单元格求和）。如果省略sum_range参数，Excel会对在range参数中指定的单元格（即应用条件的单元格）求和。计算列

3、SUMIFS：多条件求和，求和范围写在前面

SUMIFS（求和范围，条件1范围，条件1值，条件2范围，条件2值……条件N范围，条件N）。

注意事项：

使用Sumifs函数时，至少要有一组条件范围和条件，暨条件1范围和条件1不可省略，条件2范围，条件2和条件N范围，条件N可以省略。

"">50"" ：条件应该是字符串，或者“>”&50

4.环比、同比

拆分为年、月、日：year(2022/1/1) month(2022/1/1) day(2022/1/1)

合并为日期： date(year(2022/1/1) -1 ,month(2022/1/1) -1 , day(2022/1/1))

环比：是连续2个单位周期

日环比：同昨天比较

同比：同上一个周期

日同比上一个月

B40= 2020/2/1

DATE(YEAR(B40),MONTH(B40),1)，这个月第一天

DATE(YEAR(B40),MONTH(B40)+1,1)-1，这个月最后一天

5.if 与if嵌套

=IF(C64>100000,"达标","不达标")

=IF(I80=0,IF(J80=0,"AB都等于","A等于B不等于"),IF(J80=0,"A不等于B等于","AB都不等于"))

IF函数写法：嵌套里面的if，等价于上一层的elseif

=IF(A2>=90,"优秀",IF(A2>=80,"良好",IF(A2>=70,"一般",IF(A2>=60,"及格","不及格"))))

IFS函数写法：判断指定的值是否符合指定的一个或多个条件，并返回（从左到右）与第一个TRUE对应的值。

=IFS(A2>90,"优秀",A2>=80,"良好",A2>=70,"一般",A2>=60,"及格",TRUE,"不及格")

6.vlookup：查找

通过学号找姓名

知道表格：

实现：输入学号，就知道姓名、平均分、成绩

在C4插入函数VLookUp，4个参数分别代表（输入-学号C2；表格范围；所求信息处于表格第几列2；是否模糊查询）

7.vlookup与透视表连用，

将透视表插入到现有工作表

将vlookup的范围选定为透视表

8.match-查找位置

vlookup：查询范围表中 id为x，（学号、姓名...）对应的值y

1.vlookup占用cpu远远大于 index+match

曾经有个嵌套查找的表，vlookup跑出来要死机1分钟，index+match基本秒出。

2index（返回某个坐标单元格里的值）和match（返回列数或者行数），这两个是有区别的

match(查找值，查找范围--某行或某列，0)

index(区域，行号，列号)：求值

9.锁定行列：

第一次 F4 ：锁行锁列 $B$4:

第二次 F4 ：锁行不锁列 B$4

第三次 F4 ：不锁行锁列 $B4:

第四次 F4 ：不锁行不锁列，还原 B4

---------------------------------------------------------------------------------------------------------------------------------

流程：曝光门店（用户在平台看到）-》进店-》下单

1、选择日期格式

2.描述：查看有多少种值

3，切换

4、

5、度量（数值类型）默认映射图形

长度：各个维度下，度量大小

角度：细分维度和整体之间的关系（如饼图-男女比例）

方向：时间维度下，某一度量的趋势（线图）

形状：区分（散点图）

面积和体积：度量大小

6、Tableau将数据转化为图表：

把指标托到行列-丛横轴-大小_维度

自动对gmv求和

拖到标记

7、改变图像

筛选器：

右键，显示筛选器

8. 无轴、有轴图形

有轴图形：将字段拖拽到行列

无轴图形：将字段拖拽到标记

9、tableau 做表

新建工作表

离散的字段产生标签

连续的度量字段产生图形---默认聚合

将字段都放在行

标签字段：

度量字段：设置为离散（等价于拖拽）

拖拽：

改为离散

将gmv转化为标签类型---数值做表

10.tableau--14种图表：

一、柱状图：

横轴：横轴是维度，类型标签

纵轴：度量大小-数值型

二、条形图：

横轴：度量大小-数值型

纵轴：横轴是维度，类型标签

转置

、

三、热力图

通过对色块着色来显示数据的统计图表--颜色深浅表示度量大小

前面和做表一样

四、饼图、气泡图、词云---体现占比

无轴图形：将字段拖拽到标记

标签离散字段：放在颜色、文本、详细信息

度量连续字段：放在大小、角度

门店名称：标签+颜色

GMV：大小+标签（选择合计百分比）

堆积图：

在柱状图下添加另一个标签

合计百分比---->编辑百分比

5、趋势图：折线，面积图

折线-标签是日期

上面不跨年，只能显示本年

下面跨年

只有选择下面的月才可以预测

观察趋势线

面积图：

添加一个标签：在门店名称进行对比

选择区域-颜色区分

6、关系分布--位置（行列都是数值，理解为坐标，一个个点）

行列为值：

添加：标签类型分类

群集

直方图：查询数据的分布--值的数量分布

度量-->创建数据桶--->标签类型

下方生成计数--放在行

地图：

主键：

选择创建计算字段

可视化原理：