自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

wenyusuran的专栏

做个专注的人,永不放弃

原创 快手火爆背后的算法逻辑分析

文中涉及到的推荐算法,大家可以关注下我博文中的推荐算法原理。有需要的可以关注下快手号:SYDLQSCC 营销技巧之快手火爆背后的算法逻辑分析。作为最早一批拿到短视频船票的产品,快手从默默无闻到饱受诟病,再到如今短视频社交领域的头牌,其背后一直有一套算法作支撑,本文将带你更深入的了解这套算法,了解...

2019-03-22 09:20:48 5516 0

原创 用Tableau画改进版幂函数柱状图

建立数据集 数据集还沿用上一篇文章的,但是不用辅助表,而是通过并集和数据桶的方式实现辅助表的效果。 Country,Value United States,60 United Kingdom,70 India,50 Australia,60 France,30 Tableau连接数据...

2020-07-10 09:35:24 9 0

原创 搜索引擎Indri系列:建立索引 (Indexing)&检索&评价 (Evaluation)

在为文档集建立索引时,需要执行IndriBuildIndex path-to-to-index_parameter_file。这里的index_parameter_file是xml格式的参数文件,用来配置索引模型的参数。 下面详细说明参数的使用方法。 <parameters>...

2020-07-10 09:32:57 13 0

原创 线性可分支持向量机中KKT最有条件理解
原力计划

KKT最优化条件是Karush[1939],以及Kuhn和Tucker[1951]先后独立发表出來的。这组最优化条件在Kuhn和Tucker发表之后才逐渐受到重视,因此许多情况下只记载成库恩塔克条件(Kuhn-Tucker conditions) 库恩塔克条件(Kuhn-Tucker condi...

2020-07-09 09:58:36 17 0

原创 搜索引擎Indri系列:安装及使用

Indri是Lemur项目衍生的一个基于语言模型的新的搜索引擎,由University of Massachusetts和Carnegie Mellon University合作开发。 安装 下载。下载Indri并进入indri文件夹的顶层目录!!! 修改configure文件权限。确认其中...

2020-07-09 08:38:54 15 0

原创 用Tableau画3D模型之四(放弃篇)
原力计划

本来用Tableau画3D这个系列的文章准备写三篇,但是这两天看了Alexander Varlamov的《3D Models in Tableau》的文章,这位大神把前文提到的《The 3D Full Monty》也用Excel的方式实现了,和我前面介绍的方法如出一辙。 https://www...

2020-07-09 08:37:48 20 0

原创 用Tableau画3D模型之三(进阶篇)
原力计划

前两篇文章我们介绍了3D模型的基本画法和数据集的结构。如果你已经掌握了前面的内容,那么就可以运用本篇文章的方法制作,轻松搞定一个3D模型。 本篇文章参考了《The 3D Tableau Full Monty》这篇很经典的教程,但是教程中制作数据集的在线工具已经不能使用,所以我将着重介绍一下3D文...

2020-07-08 09:08:25 35 0

原创 使用Selenium模拟浏览器,实现自动爬取数据
原力计划

最近需要在一个网站下载一批数据。但是输入一个查询,返回三四万条结果,每次只能导出500条,而且每次还得输入下载条目的范围!这样点击下载,还不要了我的老命。于是乎想自动化这个过程。 我的需求主要是两点:1. 要求自动化程度高。最好有直接模拟浏览器鼠标和键盘动作的成熟接口,比如在文本框输入,选择下拉...

2020-07-08 09:08:09 55 0

原创 Mac 上搭建 Flink 1.6.0 环境并构建运行简单程序入门

准备工作 1、安装查看 Java 的版本号,推荐使用 Java 8。 安装 Flink 2、在 Mac OS X 上安装 Flink 是非常方便的。推荐通过 homebrew 来安装。 1brewinstallapache-flink 3、检查安装: 1flink--versio...

2020-07-07 08:33:37 34 0

原创 用Tableau画3D模型之二(提高篇)

上一篇文章里我们学习了双轴旋转的3D模型制作方法,由于建立的字段比较少,所以相对简单。 本篇文章,我们学习三轴旋转的3D模型,难度略微有些增加。 建立数据集 我们用上一篇中的第二个数据集,也就是增加了连线的数据 group,id,x,y,z 1-2,1,0,0,0 1-2,2,0,1...

2020-07-07 08:33:24 30 0

原创 基于 Flink 和 Drools 的实时日志处理

背景 日志系统接入的日志种类多、格式复杂多样,主流的有以下几种日志: filebeat采集到的文本日志,格式多样 winbeat采集到的操作系统日志 设备上报到logstash的syslog日志 接入到kafka的业务日志 以上通过各种渠道接入的日志,存在...

2020-07-06 10:02:29 34 0

原创 用Tableau画3D模型之一(入门篇)

这次我计划用三篇文章来介绍用Tableau制作3D模型的方法,分为入门篇、提高篇和进阶篇。 今天我们先来入门,学习一下双轴旋转的3D模型制作方法。 相信很多接触过Tableau的同学都看过Noah Salvaterra的3D特斯拉模型。当我第一次看到这个Viz的时候佩服的五体投地,自己也特别想...

2020-07-06 09:50:28 43 0

原创 python语音识别终极指南

语言识别工作原理概述 语音识别源于 20 世纪 50 年代早期在贝尔实验室所做的研究。早期语音识别系统仅能识别单个讲话者以及只有约十几个单词的词汇量。现代语音识别系统已经取得了很大进步,可以识别多个讲话者,并且拥有识别多种语言的庞大词汇表。 语音识别的首要部分当然是语音。通过麦克风,语音便从物...

2020-07-05 08:18:32 40 0

原创 用Tableau画幂函数柱状图

本文灵感来源于tableaumagic网站上的两篇文章Drawing Curved Bar Charts in Tableau,用sigmoid函数来画柱状图,大致效果如下。 另一篇Drawing Triangle Bar Charts in Tableau,三角形柱状图也很有意思,思路一样...

2020-07-05 08:08:08 27 0

原创 用Tableau画Arc Bar Chart

创建数据集 Category Start Point End Point Value Path Step A 2001 2005 10 1 1 A 2001 2005 10 181 1 A 2005 2008 3 ...

2020-07-04 06:42:52 30 0

原创 如何让签到成为提升用户活跃度的利器

本文将为大家解读哪些应用适合签到功能,哪些应用不适合签到功能,以及如何充分发挥签到功能的潜力,让用户和应用都能够从签到功能获益。 一、为什么要设计签到? 传统意义上的签到绝对不是一件令人开心的事情, 因为错过签到往往意味着惩罚,比如:上班迟到,或者课堂迟到,传统签到的主要目的是为了得知员...

2020-07-04 06:42:12 140 0

原创 以贴吧和头条为例,为什么产品都有极速版和标准版

当用户需要从应用市场上下载一款软件的时候,往往可以发现不止一个版本。没有任何标志的为标准版本,而除此之外往往还有一个极速版本。 此外不少软件还有HD版本以及福利版本等多个不同的版本供用户选择。 本文将对比其中最常见的两种版本极速版本以及标准版本之间的异同,讨论用户如何选择适合自己的版本。 ...

2020-07-03 09:20:38 81 0

原创 如何分析和定位 Flink 作业 OOM 问题?

生产环境,我们的 Flink 作业偶尔会出现 heap OOM,那么当出现这种情况我们会怎么办?通常来说会通过 jmap 命令去将作业的 heap dump 一份文件出来,可是 jmap 导出的文件我们也看不懂啊,那么该怎么分析呢?今天推荐 memory analyzer(mat)这个工具,让他帮...

2020-07-03 09:20:14 50 0

原创 斗鱼VS虎牙,谁才是直播之王?一文带你看看两家平台 的竞品报告

直播是一群孤独者的狂欢,虽然每个用户都在不同的地方,从事不同的工作,但通过直播这个平台可以将大家聚集起来。让大家同时参与到一场演出中来,直播惊人的流量以及丰厚的回报让相应的产品接连产生,本文将带大家了解其中知名的两款。 直播作为的当下最火热,参与人数最多的视频形式之一体现了一定的社会现状。...

2020-07-02 08:20:18 1752 0

原创 用Tableau制作滚动时间轴(下)

上一篇文章《用Tableau制作滚动时间轴(上)》我们介绍了滚动时间轴的基本制作方法。这篇文章我们继续丰富和美化时间轴。 制作内容显示工作表 由于数据集内有大量的文字描述内容,那么让这些内容显示到时间轴里,就不太现实了。需要单独建立一个工作表来显示文字内容。 这里我们还需要一个筛选器来控...

2020-07-02 08:06:06 136 0

原创 对当下很火的两大短视频平台 抖音 和 微视进行竞品分析

01 分析目的 本文期望通过对比抖音微视的核心功能,体会功能设计和产品定位以及商业模式之间的关系,并结合个人体验提出若干改进建议。 体验版本:抖音11.3.0;微视 6.9.0.588 02 竞品背景分析 2.1 产品发展历史 我们可以将抖音的成长划分成三个阶段: 第一阶段:专注功...

2020-07-01 08:32:29 538 0

原创 用Tableau制作滚动时间轴(上)

创建数据集 美国总统数据集下载地址:http://w2h.cc/MWY2Z 先将数据集中的[Year]表和[Events]表做如下图的左连接: 由于Events表只有总统开始任期的年,所以为了保证时间轴是一个连续完整的动态效果,需要辅助的Year表,来构造一列连续的年。 创建计...

2020-07-01 08:29:15 203 0

原创 用户签到功能优化竞品分析

一、项目背景 一个好的用户成长体系能够提升用户的主动活跃,用户也可以从体系中获得成就感、兑换礼品等权益。对于平台讲,也有利于提高用户粘性和忠诚度。 用户签到功能是成长体系中的重要环节,在主流的新闻资讯应用中,今日头条和趣头条,可以将金币兑换成现金收益,腾讯、网易、新浪有金币商城,用户可以用一定...

2020-06-30 10:03:01 124 0

原创 Flink 从入门到精通 Release 文档解读

集群和部署 支持 Hadoop 3.0 及更高的版本:Flink 不再提供任何flink-shaded-hadoop-依赖。用户可以通过配置 HADOOP_CLASSPATH 环境变量(推荐)或在 lib 文件夹下放入 Hadoop 依赖项。另外include-hadoopMaven pro...

2020-06-30 09:58:45 64 0

原创 数据结构面试的常客,一文带你深入了解堆
原力计划

和链表、二叉树以及数组这些热门的数据结构相比,堆相对比较冷门。如果你对数据结构了解不深的话,可能很少听说。但是我们经常用到它,虽然可能你并不一定能感知到。比如说优先队列,我们就经常使用。我们需要用到这样一个数据结构,能够根据我们存入数据的优先级进行排序,将优先级高的排在前面。在和调度相关的一些系统...

2020-06-30 09:52:17 46 0

原创 Leetcode每日必刷题库第80题,如何在不使用外部空间的情况下对有序数组去重?

LeetCode的第80题,有序数组去重II(Remove Duplicates from Sorted Array II)。 这题的官方难度是Medium,通过率是43.3%,点赞1104,反对690。这题的通过率有一点点高,然后点赞比也不是很高。说明这题偏容易,并且大家的评价偏低。也的确如此...

2020-06-29 08:31:45 41 0

原创 如何制作提交按钮,实现多条件筛选

平时利用Tableau自带的筛选器进行筛选时,每一次操作筛选器,视图都会进行一次查询,如果有大量数据或复杂的计算,其性能会大幅降低。Ken Flerlage大神给我们提供了一个利用参数动作,制作提交按钮,实现多条件筛选的方法。 https://public.tableau.com/prof...

2020-06-29 08:22:34 70 0

原创 用Intersects方式联接地理数据,如何进行地理数据分析

首先大家可以去下载房价的数据集。 然后,打开阿里的DATAV.GeoAtlas地图选择器,下载北京市(含区县)的geojson空间文件。 http://datav.aliyun.com/tools/atlas/#&lat=32.95336814579932&lng=87....

2020-06-28 08:24:53 107 0

原创 LIBSVM 多分类问题- 葡萄酒种类识别

3.1 原始数据分析 1)测试数据为:wine data set,储存在chapter_WineClass.mat。classnumer = 3;wine,记录了178个样本的13个属性;wine_labels.178×1,记录了178个样本的各自类别标签。 2)数据的可视化:13个指标的属性...

2020-06-24 15:09:51 59 0

原创 LIBSVM多分类问题 参数详解及实例演示

前言 安装包及具体安装步骤,搜博主之前的MATLAB专栏文章 1. 入门案例 1.1 分类的小例子--根据身高体重进行性别预测 1 2 3 4 5 6 7 8 9 10 11 12 13...

2020-06-24 15:08:27 39 0

原创 数据中台实战(四):商品分析(产品设计篇)

上一讲讲了《数据中台实战(三):用户分析(产品设计篇)》用户模块我们用的是海盗模型,从用户的获取、激活、留存、收入、推荐的角度来做分析。这些指标是没问题,但是作为电商产品,如果站在价值的角度来思考就有问题。 你可以分析下我们提到的用户相关的指标,比如:注册量、访问时长、留存率等这些指标都无法提高...

2020-06-23 14:50:31 86 0

原创 数据中台实战(三):用户分析(产品设计篇)

如果每条产品线都有专门的运营、产品、研发团队,一方面需要耗费大量的人力资源,另外一方面公司的数据散落在每条产品线,再收集起来就会造成很大的挑战。数据中台的存在就是为了解决这些问题,公司内每个系统的数据都流入数据中台(数据中心),这样数据就会更加规范的存储与组织。 另外只需要一个团队就能支撑起整个...

2020-06-23 14:48:37 147 0

原创 数据中台实战(二):基于阿里OneData的数据指标管理体系

阿里OneData实施过程实战 比如当时我们运营提了一个比较有指导意义的数据指标叫爆款率,我们以爆款率为例先说一下OneData每个步骤实施的流程和涉及的角色。 第一步:要确定指标的业务口径 业务口径应该由数据中台的产品经理主导,找到提出该指标的运营负责人沟通。首先要问清楚指标是怎么定义...

2020-06-23 14:44:39 195 0

原创 数据中台实战(一):大数据下的数据埋点

本文以B2B电商产品亿订为实战,谈数据中台的数据埋点。 图片来源:富力环球商品贸易港公众号 刚入公司时,公司的数据埋点这块是和百度合作,用的百度移动统计。 运营反馈百度的流量分析做的很强大,但是最大的问题是不能结合电商的业务数据,比如:只有坑位的流量数据却拿不到坑位的交易额、转化率(交易...

2020-06-23 14:43:17 158 0

原创 数据中台实战入门篇:双中台战略

中台是什么? 中台是阿里提出,在2015年年中的时候,他去参观了一家芬兰的游戏公司,叫做Supercell。 这家公司名字你也许不熟悉,但是他们开发的游戏你可能玩过,比如《部落冲突》。这家公司一年光是利润就有15亿美金,不过员工人数非常少,只有不到200个人,而且公司里每一个开发游戏的小团队,...

2020-06-23 14:41:36 145 0

原创 数据中台实战入门篇:数据中台对内、对外合作机制

数据中台人员构成 架构师:架构师是整个数据中台团队的技术负责人。涉及到大的模块比如标签平台、推荐,要拿到业界比较成熟的架构设计,这样有个参考,能避免我们踩很多坑。另外包括技术选型比如大数据常用的计算框架spark、handoop等用那个比较合适,还有一些需要攻关的技术难题都需要协调他来解决。...

2020-06-23 14:39:51 97 0

原创 美团是如何实现数据治理的?一篇长文带你深入了解下

背景 大数据时代的到来,让越来越多的企业看到了数据资产的价值。将数据视为企业的重要资产,已经成为业界的一种共识,企业也在快速探索应用场景和商业模式,并开始建设技术平台。 但这里要特别强调一下,如果在大数据“拼图”中遗忘了数据治理,可能再多的技术投入也是一种徒劳。因为没有数据治理这一环节,其...

2020-06-23 10:10:14 86 0

原创 精选数据分析师常见的面试问题2020

有时面试时,考官会冷不防地提出一个应试者意想不到的问题,目的是想试试应试者的应变能力和处事能力。这时,你需要的是稳定情绪,千万不可乱了方寸。   随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是77个...

2020-06-23 09:37:04 96 0

原创 滴滴出行2020数据分析面试题

题目 问题 1.订单的应答率、完单率分别是多少? 2.呼叫应答时间多长? 3.从这一周的数据来看,呼叫量最高的是哪一个小时(当地时间)?呼叫量最少的是哪一个小时(当地时间)? 4.呼叫订单第二天继续呼叫的比例有多少? 5.如果要对表中乘客进行分类,你认为需要参考哪一些因素? ...

2020-06-23 09:33:46 190 0

原创 数据埋点:用户唯一标识

01为什么要建设用户唯一标识 如何区分某个用户就是他这个用户,而不是另一个用户,在数据埋点中,是一个非常重要的事情。因为如果做不到用户的唯一识别,那凡是涉及到用户的数据都将是错的(比如用户量、新增用户数、活跃用户数等等)。所以建设用户唯一标识,尤为重要。 02基本概念 设计埋点字段的时候,有...

2020-06-23 09:00:13 122 0

提示
确定要删除当前文章?
取消 删除