2020年06月_普通网友

12月 11月 10月 09月 08月 07月 06月 05月 01月

原创用户签到功能优化竞品分析

一、项目背景一个好的用户成长体系能够提升用户的主动活跃，用户也可以从体系中获得成就感、兑换礼品等权益。对于平台讲，也有利于提高用户粘性和忠诚度。用户签到功能是成长体系中的重要环节，在主流的新闻资讯应用中，今日头条和趣头条，可以将金币兑换成现金收益，腾讯、网易、新浪有金币商城，用户可以用一定数量的金币兑换相应的物品。既提高了用户粘性，也让用户的时间有了价值。基于此，本次竞品分析将着重对几款主流新闻资讯APP的用户签到进行功能对比。二、竞品概述通过对直接竞品、间接竞品这两大类竞品的分析，我们

2020-06-30 10:03:01 1418

原创 Flink从入门到精通100篇（六）-Flink 应用之对Release 文档进行深度解读

集群和部署支持 Hadoop 3.0 及更高的版本：Flink 不再提供任何flink-shaded-hadoop-依赖。用户可以通过配置 HADOOP_CLASSPATH 环境变量(推荐)或在 lib 文件夹下放入 Hadoop 依赖项。另外include-hadoopMaven profile 也已经被移除了。移除了 LegacyScheduler：Flink 不再支持 legacy scheduler，如果你设置了jobmanager.scheduler: legacy...

2020-06-30 09:58:45 1252

原创数据结构面试的常客，一文带你深入了解堆

和链表、二叉树以及数组这些热门的数据结构相比，堆相对比较冷门。如果你对数据结构了解不深的话，可能很少听说。但是我们经常用到它，虽然可能你并不一定能感知到。比如说优先队列，我们就经常使用。我们需要用到这样一个数据结构，能够根据我们存入数据的优先级进行排序，将优先级高的排在前面。在和调度相关的一些系统和算法当中，优先队列是必然会用到的。但是很少有人知道，优先队列说是一个队列，但其实是通过堆实现的。那么堆究竟是一个怎样的数据结构呢？堆的定义堆的实质其实是二叉树，并且还不是一般的二叉树，而是比较特别的二

2020-06-30 09:52:17 1087

原创 Leetcode每日必刷题库第80题，如何在不使用外部空间的情况下对有序数组去重？

LeetCode的第80题，有序数组去重II(Remove Duplicates from Sorted Array II)。这题的官方难度是Medium，通过率是43.3%，点赞1104，反对690。这题的通过率有一点点高，然后点赞比也不是很高。说明这题偏容易，并且大家的评价偏低。也的确如此，我个人觉得，大家评价不好的主要原因还是这题偏容易了一些。题面其实从题目的标题当中我们已经可以得到很多信息了，实际上也的确如此，这题的题面和标题八九不离十，需要我们对一个有序的数组进行去重。不过去重的条件是

2020-06-29 08:31:45 1116

原创如何制作提交按钮，实现多条件筛选

平时利用Tableau自带的筛选器进行筛选时，每一次操作筛选器，视图都会进行一次查询，如果有大量数据或复杂的计算，其性能会大幅降低。Ken Flerlage大神给我们提供了一个利用参数动作，制作提交按钮，实现多条件筛选的方法。https://public.tableau.com/profile/ken.flerlage#!/vizhome/ParameterApplyButton/Menu上面这个例子略微复杂了一点，我们利用Tableau自带的超市数据，做一下简单的演示，只使用两个筛选条件。

2020-06-29 08:22:34 1920

原创用Intersects方式联接地理数据，如何进行地理数据分析

首先大家可以去下载房价的数据集。然后，打开阿里的DATAV.GeoAtlas地图选择器，下载北京市（含区县）的geojson空间文件。http://datav.aliyun.com/tools/atlas/#&lat=32.95336814579932&lng=87.8466796875&zoom=4用tableau联接两个数据集，左边房价数据源选择“编辑联接计算”，MAKEPOINT([Lat],[Lng])右边北京.json数据源联接字段选择“几何”

2020-06-28 08:24:53 1244

原创 LIBSVM 多分类问题- 葡萄酒种类识别

3.1 原始数据分析1）测试数据为：wine data set，储存在chapter_WineClass.mat。classnumer = 3;wine,记录了178个样本的13个属性；wine_labels.178×1，记录了178个样本的各自类别标签。2）数据的可视化：13个指标的属性值即数据的箱式图；数据的分维可视化图。 1 2 3 4 5 6 7 8 9 10 11 12 13

2020-06-24 15:09:51 1312

原创 LIBSVM多分类问题参数详解及实例演示

前言安装包及具体安装步骤，搜博主之前的MATLAB专栏文章1. 入门案例1.1 分类的小例子--根据身高体重进行性别预测 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28.

2020-06-24 15:08:27 1566

原创数据中台实战（四）：商品分析（产品设计篇）

上一讲讲了《数据中台实战（三）：用户分析（产品设计篇）》用户模块我们用的是海盗模型，从用户的获取、激活、留存、收入、推荐的角度来做分析。这些指标是没问题，但是作为电商产品，如果站在价值的角度来思考就有问题。你可以分析下我们提到的用户相关的指标，比如：注册量、访问时长、留存率等这些指标都无法提高产品的价值，指标中最重要的是留存率，你发现站在价值的角度留存率也只能监控产品的价值，但是并不能提高产品的价值。对于B2B电商产品来讲，产品的价值就是要给我们的采购商提供好货，所以商品才是最核心的地方。我们的

2020-06-23 14:50:31 1516

原创数据中台实战（三）：用户分析（产品设计篇）

如果每条产品线都有专门的运营、产品、研发团队，一方面需要耗费大量的人力资源，另外一方面公司的数据散落在每条产品线，再收集起来就会造成很大的挑战。数据中台的存在就是为了解决这些问题，公司内每个系统的数据都流入数据中台（数据中心），这样数据就会更加规范的存储与组织。另外只需要一个团队就能支撑起整个公司的数据相关的需求，这是数据中台的优点。但是从这里你也能看出来，由于追求通用性，无论业务中台还是数据中台都是缺乏灵活性的，数据中台的模式是比较重的，这就要求前期公司数据的调研工作一定要做的足够细致，才能避免以后反

2020-06-23 14:48:37 1731 1

原创数据中台实战（二）：基于阿里OneData的数据指标管理体系

阿里OneData实施过程实战比如当时我们运营提了一个比较有指导意义的数据指标叫爆款率，我们以爆款率为例先说一下OneData每个步骤实施的流程和涉及的角色。第一步：要确定指标的业务口径业务口径应该由数据中台的产品经理主导，找到提出该指标的运营负责人沟通。首先要问清楚指标是怎么定义的，比如运营说爆款率的定义分子是是专场中商品销售件数超过20件的商品数，分母是专场内的总商品数（专场如上图所示，商品会放在运营人员组的一个一个专场里面）。这里面有几个坑：1. 这个20件可能是运营拍脑袋

2020-06-23 14:44:39 3867 2

原创数据中台实战（一）：大数据下的数据埋点

本文以B2B电商产品亿订为实战，谈数据中台的数据埋点。图片来源：富力环球商品贸易港公众号刚入公司时，公司的数据埋点这块是和百度合作，用的百度移动统计。运营反馈百度的流量分析做的很强大，但是最大的问题是不能结合电商的业务数据，比如：只有坑位的流量数据却拿不到坑位的交易额、转化率（交易额/PV）这些数据，另外电商的主路径访问>商品详情>商品列表>加购>下单>支付整个流程的转化率是取不到的。此时，就拉上我们的开发，叫上了亿订产品经理和运营负责人，一起沟通目前的问

2020-06-23 14:43:17 2295

原创数据中台实战入门篇：双中台战略

中台是什么？中台是阿里提出，在2015年年中的时候，他去参观了一家芬兰的游戏公司，叫做Supercell。这家公司名字你也许不熟悉，但是他们开发的游戏你可能玩过，比如《部落冲突》。这家公司一年光是利润就有15亿美金，不过员工人数非常少，只有不到200个人，而且公司里每一个开发游戏的小团队，都只有六七个人而已。这么小规模的团队，怎么做成了这么大的业务呢？其中一个原因是他们把游戏开发过程中，要用的一些通用的游戏素材和算法整理出来，把这些作为工具提供给所有的小团队。同一套工具，可以支持好几个小团队

2020-06-23 14:41:36 2010

原创数据中台实战入门篇：数据中台对内、对外合作机制

数据中台人员构成架构师：架构师是整个数据中台团队的技术负责人。涉及到大的模块比如标签平台、推荐，要拿到业界比较成熟的架构设计，这样有个参考，能避免我们踩很多坑。另外包括技术选型比如大数据常用的计算框架spark、handoop等用那个比较合适，还有一些需要攻关的技术难题都需要协调他来解决。项目经理：项目经理要和架构师一起排团队的开发计划。保证让每个任务在时间节点完成，他要更加了解团队的每个成员的特点，最大的发挥团队成员的优势。另外关于项目的质量、风险都需要项目经理制定合理的流程来保证。产品经

2020-06-23 14:39:51 1462

原创深度学习核心技术精讲100篇（十八）-巨量数据下美团是如何实现数据治理的？

背景大数据时代的到来，让越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产，已经成为业界的一种共识，企业也在快速探索应用场景和商业模式，并开始建设技术平台。但这里要特别强调一下，如果在大数据“拼图”中遗忘了数据治理，可能再多的技术投入也是一种徒劳。因为没有数据治理这一环节，其带来后果往往是：随处可见的数据不统一，难以提升的数据质量，难以完成的模型梳理，难以保障的数据安全等等，源源不断的基础性数据问题会进一步产生，进而导致数据建设难以真正发挥其商业价值。因此，消除数据的不一致性，建.

2020-06-23 10:10:14 1445

原创精选数据分析师常见的面试问题2020

有时面试时，考官会冷不防地提出一个应试者意想不到的问题，目的是想试试应试者的应变能力和处事能力。这时，你需要的是稳定情绪，千万不可乱了方寸。　　随着大数据概念的火热，数据科学家这一职位应时而出，那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考，下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题，供各位同行参考。　　1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。　　2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的

2020-06-23 09:37:04 2770 1

原创滴滴出行2020数据分析面试题

题目问题1.订单的应答率、完单率分别是多少？2.呼叫应答时间多长？3.从这一周的数据来看，呼叫量最高的是哪一个小时（当地时间）？呼叫量最少的是哪一个小时（当地时间）？4.呼叫订单第二天继续呼叫的比例有多少？5.如果要对表中乘客进行分类，你认为需要参考哪一些因素？解题过程导入mysql数据库及数据预处理观察表中时间相关数据结合题目，要做出2步数据预处理【1】将时间相关列转换格式【2】按巴西比中国慢11小时，将表中北京时间转换为巴西时间。--...

2020-06-23 09:33:46 4057

原创数据埋点：用户唯一标识

01为什么要建设用户唯一标识如何区分某个用户就是他这个用户，而不是另一个用户，在数据埋点中，是一个非常重要的事情。因为如果做不到用户的唯一识别，那凡是涉及到用户的数据都将是错的（比如用户量、新增用户数、活跃用户数等等）。所以建设用户唯一标识，尤为重要。02基本概念设计埋点字段的时候，有两个字段是一定要包括的，即设备ID和用户ID。这两个字段应该纳入通用字段，每个埋点的事件都必须要集成收集。（1）设备ID使用相应的算法，生成一个设备ID，以唯一识别用户的终端设备。不同终端的设备ID，其..

2020-06-23 09:00:13 2430

原创数据分析第一步--数据采集怎么进行埋点？

产品经理无论是在进行需求澄清，还是进行产品版本迭代的时候，都会面对领导，研发，测试，设计等人员无数个为什么。比如：为什么要把这个楼层放在另一个楼层的上面？页面为什么要这么设计？这个时候如果仅仅凭感觉、道理是无法有力说服对方的，长而久之会降低自己的影响力。同时，也无法形成正确的产品方法论，对自己的职业发展也颇为不利。刚进公司，我所在的业务线的数据质量是比较惨淡的，这一切的根源就是数据收集这个过程没有做好。而埋点又是数据收集的主要方式，所以源头就是埋点做得很烂，主要表现在以下几个方面：产品上线不埋点

2020-06-23 08:59:05 1676

原创如何找到产品商业化的竞争壁垒？

近些年，越来越多的互联网产品在创立之初就开始注重商业化模式的打造，毕竟历史上有太多实现了上亿流量但却苦于商业化模式不明朗而迟迟没有变现的产品。那在这个过程里，大家就会碰到同样的一个问题，自家产品应该选择怎样的产品形态或者是怎样的商业化模式，才可以保证我赚的钱是独一无二的，是可以细水长流的？举个例子，大家都知道金山WPS已经在卖文档模板好多年了，包括近期开始商业化的腾讯文档，也逐渐在自己首页推广文档模板。那卖模板本身这个事，对于WPS跟腾讯文档来说，有门槛吗？是别的竞品不可抄袭的吗？很明显不是

2020-06-22 15:01:34 1485

原创内容社区，为什么有必要做内容标签系统？

社区内容量很大时，内容曝光有限，非常影响社区作者创作的积极性。为了解决内容曝光有限的问题，内容标签系统不失为一种有效的解决方案。本文结合一些案例来探讨，做内容标签系统的必要性。一、问题背景社区产品中，在内容量大的情况下，曝光数量和内容总量相比，是十分有限的，对社区作者很不利。我们以一个案例来分析一下，曝光有限对作者的严重危害。某社区起步时有1千个作者，发展两年后，作者变为原先的100倍，也就是10万。每一位作者的每天能发布数量都在一个正常范围内，即人均发布数量一定。刚起步时，社..

2020-06-22 14:56:32 1280

原创关于数据中台的深度思考与总结

数据中台数据汇聚数据汇聚是数据中台必须提供的核心工具，把各种异构网络、异构数据源的数据方便地采集到数据中台中进行集中存储，为后续的加工建模做准备。数据汇聚方式一般有数据库同步、埋点、网络爬虫、消息队列等；从汇聚的时效性来分，有离线批量汇聚和实时采集。数据采集工具Canal、DataX、Sqoop数据开发数据开发模块主要面向开发人员、分析人员，提供离线、实时、算法开发工具。离线开发作业调度•依赖调度：所有父作业运行完成后，当前作业才能开始运行。图64中的作业B，只.

2020-06-22 10:54:00 1758

原创如何解决实时历史数据库存储成本问题？

实时历史库需求背景在当今的数字化时代，随着业务的迅速发展，每天产生的数据量会是一个惊人的数量，数据库存储的成本将会越来越大，通常的做法是对历史数据做归档，即将长期不使用的数据迁移至以文件形式存储的廉价存储设备上，比如阿里云OSS或者阿里云数据库DBS服务。然而在部分核心业务的应用场景下，针对几个月甚至几年前的“旧”数据依旧存在实时的，低频的查询甚至更新需求，比如淘宝/天猫的历史订单查询，企业级办公软件钉钉几年前的聊天信息查询，菜鸟海量物流的历史物流订单详情等。如果这时从历史备份中还原后查询.

2020-06-22 10:49:52 1803

原创在Tableau中去除选择高亮效果

在Tableau中，点击选择某些数据后，默认被选中的数据会高亮显示，这本是一种人性化的设计。但是在一些特殊的应用场景中，高亮显示会破坏整体的美观和一致性，所以需要去除掉。最近学到一个简便的方法，运用筛选器去除高亮效果。我们用销售数据，随便做一个工作表。创建计算字段 true = TRUE false =FALSE 将新建的两个计算字段拖到标记栏“详细信息”里。插入筛选器在操作中新增一个筛选器动作，如下图：这样，无论怎么点击选择都不会出现高亮效果了。

2020-06-22 09:56:15 1650

原创用Tableau画延展条形图（Extended Bar Chart）

Extended Bar Chart来自Rajeev Pandey大神，他在前人的基础上进行了一些创造性的改进，把延展条形图带到了Tableau中。大家可以参考下面原文的介绍，学习基本的制图思路。https://vizartpandey.com/extended-bar-chart-in-tableau/?amp=由于原文中数据处理的部分是在Excel中完成的，显得不够灵活，同时又对条形图的长度进行了归一化的处理，我个人认为这样处理过后，条形图的比例就有些失真，所以我在Pandey方法的基础

2020-06-22 09:54:45 1355

原创 tableau应用实战案例（一）-如何通过Tableau绘制小提琴图

小提琴图 (Violin Plot)是用来展示多组数据的分布状态以及概率密度。这种图表结合了箱形图和密度图的特征，主要用来显示数据的分布形状。跟箱形图类似，但是在密度层面展示更好。在数据量非常大不方便一个一个展示的时候小提琴图特别适用。箱线图是Tableau中自带的图形，但要实现小提琴图就有点难度了。下面我就根据Gwilym的方法，教大家自制一个小提琴图。原理都略过，只取干货。创建数据集Sample ID,Sample Value,Group1,6.2,male2,5.1,mal.

2020-06-19 15:34:11 1591

原创用Tableau画圆形网络关系图

创建数据集数据集就是随机生成的，[index start]和[index end]就是[start]和[end]中，各字母的放在一起的总排序值，排序决定了每个点在圆环中的位置，这个可以参考上面和弦图的文章。排序一定是按顺序的。Tableau引入数据，并制作并集，这样数据集就从16行扩充到32行。创建计算字段path id=IF [表名称]="Sheet1" then 1ELSE 2END创建参数max sort由于我们的数据集是16行，所以默认值是16。.

2020-06-19 15:32:39 2039

原创 tableau应用实战案例（三）-如何用Tableau制作网络关系图

创建数据集唯一的一点点难度就在数据集的制作上，需要自己制作JSON文件，我用最简单的例子介绍：数据生成网站：https://observablehq.com/@ladataviz/network-data-generator{ "nodes": [ { "id":"A","size":2}, { "id":"B","size":1}, { "id":"C","size":1} ], "links": [ { "source":"A","targ.

2020-06-19 15:20:36 3195

原创用Tableau制作3D旋转地球

下载数据集原文提供了两种精确度不同的数据集，我们只需要用简版的即可（2.86MB）。简版数据集Coast_Line_Rough：https://note.com/api/v2/attachments/download/26e4f60d3523801ab48348eb8b67aab0创建计算字段3个参数A：调整Y轴旋转角度 B：调整X轴旋转角度（同上） C：调整Z轴旋转角度（同上）计算字段 X = SIN(RADIANS([Longitude]))*COS

2020-06-19 15:18:13 1455