自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(27)
  • 论坛 (1)

转载 知识图谱的自动构建

导读:知识图谱的构建包括逻辑建模、隐含空间分析、人机交互和本体模型支撑等多种方法。我们将分析各种构建方法的问题和挑战,指出自动构建的要素和应用场景。——背景——知识图谱是明略科技的核心技...

2019-12-31 09:00:00 1569

转载 均值与期望到底是不是一回事?

均值和期望是我们平常接触比较多的两个概念,均值大家都知道,就是若干个值先求和,然后再除值的个数;那期望又是什么。一般人们为了便于理解,就会说,你把期望也理解成是均值就可以了。那到底可不可...

2019-12-30 21:51:00 158

转载 数据降维2:PCA算法的实现及使用

0x01 PCA算法梯度求解 我们在上篇文章《数据降维1:主成分分析法思想及原理》的最后已经通过推导,将数据映射转化为求目标函数的最优化问题:求,使得最大对于最优化问题,除了求出严格的数...

2019-12-30 21:51:00 107

转载 数据降维1:主成分分析法思想及原理(配图版)

0x01 什么是主成分分析法 PCA(Principal Component Analysis),即主成分分析方法,是一种使用最广泛的数据降维算法(非监督的机器学习方法)。其最主要的用途...

2019-12-30 21:51:00 1090

转载 贝壳:流式数据的平台化实践与挑战

今天为大家分享贝壳找房流式数据的平台化实践与挑战,具体介绍下如何建设流式数据平台来满足业务方的需求。▌总体架构贝壳找房大数据的整体架构,从下到上分为四层:1.基础平台层。这一层应用的都...

2019-12-26 08:37:00 984

转载 数据可视化之旅

数据可视化之旅数据可视化学习小组第一期成员创作。0x00 前言 在开始数据可视化之旅前,我们先用下图回顾数据链路过程以上这张图片比较普遍现象的数据链路,如果你是厨师,最重要的肯定是做菜环...

2019-12-25 23:45:00 166

转载 超越BI,数据产品的前途在哪里?

正文开始在一个企业内,一只数据团队只会报表,取数、建模和分析是远远不够的,对上,你的贡献会被业务和前台屏蔽,对下,云原生等等技术已经让平台运维变得更为容易。虽然现在数据中台如火如荼,给了...

2019-12-25 23:45:00 175

转载 做BI的痛,你懂吗?

写在前面:BI是未来重要的职业发展方向,菩提向大家呈现BI人的痛苦、思考、探索。本系列分3篇讲:第1篇:BI们痛在哪?第2篇:BI们为什么痛?第3篇:BI们如何破局?这是第1篇:BI们痛...

2019-12-24 22:45:58 326

转载 做BI的朋友们,为什么这么痛?

本文由菩提创作,经授权在西湖渔歌公众号原创首发。本文仅菩提个人观点。接上一篇:BI们痛在哪? 1.缺少价值认同。2.数据生产资料不足,且管理混乱。3.对成长的焦虑。这是第2篇:BI们...

2019-12-24 22:45:58 144

转载 如何优雅地做BI

本文由菩提创作,经授权在西湖渔歌公众号原创首发。本文仅菩提个人观点。接前2篇:1.BI痛在哪:1)缺少价值认同;2)数据生产资料不足;3)对未来职业发展的焦虑;2.BI 为什么痛?1)...

2019-12-24 22:45:58 201

转载 逻辑回归代码实现与调用

0x00 前言 在学习了逻辑回归的模型及损失函数之后,就可以实现逻辑回归的代码了。0x01 逻辑回归代码实现 我们在线性回归的基础上,修改得到逻辑回归。主要内容为:定义sigmoid方法...

2019-12-23 23:20:38 336

转载 逻辑回归的本质及其损失函数的推导、求解

0x00 前言 在上一篇文章介绍了逻辑回归的模型,并详细讲了其推导过程。为了加深印象,在这篇文章中从对数几率的角度再次探索逻辑回归的推导过程,看看逻辑回归为什么要使用sigmoid函数作...

2019-12-23 23:20:38 433

转载 逻辑回归的决策边界及多项式

0x00 前言 在逻辑回归算法中,可以求出各个参数的系数和截距,即参数组值。那这个参数有几何意义么?在本篇文章中会引出分类文中非常重要的一个概念:决策边界。通过对决策边界的学习,可以更加...

2019-12-23 23:20:38 354

转载 sklearn中的逻辑回归中及正则化

0x00 前言 在逻辑回归中添加多项式项,从而得到不规则的决策边界,进而对非线性的数据进行很好的分类。但是众所周知,添加多项式项之后,模型会变变得很复杂,非常容易出现过拟合。因此就需要使...

2019-12-23 23:20:38 326

转载 决策树6:分类与回归树CART

0x01 概念介绍 1.1 CART算法CART算法:Classification And Regression Tree。顾名思义,CART算法既可以用于创建分类树(Classific...

2019-12-17 11:38:04 160

转载 BI(商业智能)的未来?

正文开始商业智能(Business Intelligence,简称:BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价...

2019-12-16 09:00:00 94

转载 如何深入浅出的理解数据仓库建模?

发现一篇和数仓建模相关的好文章,然后惊喜地发现文章里面也引用之前我文章(No.18【漫谈数据仓库】 如何优雅地设计数据分层)中总结的一些内容,推荐的书也是我经常在群里给大家推荐的基本数仓...

2019-12-16 09:00:00 197

转载 决策树2: 特征选择中的相关概念

0x00 前言 决策树学习算法有三个步骤:特征选择决策树生成决策树剪枝特征选择,就是决策树的构造过程。为了找到最优的划分特征,我们需要先了解一些信息论的知识。信息熵(informatio...

2019-12-15 22:21:06 113

转载 决策树3: 特征选择之寻找最优划分

0x00 前言 决策树算法的三个步骤:特征选择、决策树生成、决策树剪枝。其中特征选择要解决的核心问题就是:每个节点在哪个维度上做划分?某个维度在哪个值上做划分?划分的依据是: 要让数据划...

2019-12-15 22:21:06 298

转载 决策树1:初识决策树

决策树是一个非常有意思的模型,它的建模思路是尽可能模拟人做决策的过程。因此决策树几乎没有任何抽象,完全通过生成决策规则来解决分类和回归问题。因为它的运行机制能很直接地被翻译成人类语言,即...

2019-12-15 22:21:06 124

转载 决策树4:构建算法之ID3、C4.5

0x01 ID3算法介绍 1.1 简介ID3算法是一种分类预测算法,算法以信息论中的“信息增益”为基础。核心是通过计算每个特征的信息增益,每次划分选取信息增益最高的属性为划分标准,递归地...

2019-12-15 22:21:06 77

转载 决策树5:剪枝与sklearn中的决策树

0x01 剪枝 当训练数据量大、特征数量较多时构建的决策树可能很庞大,这样的决策树用来分类是否好?答案是否定的。决策树是依据训练集进行构建的,为了尽可能正确地分类训练样本,结点划分过程将...

2019-12-15 22:21:06 324

原创 数据团队思考:全栈型VS专精型,团队到底需要什么样的人?

0x00 前言 前几天分别和两位朋友吃饭聊天,收获到关于“团队需要什么类型的人”这个话题的两种完全不同的观点,觉得挺有意思也挺有收获,因此和大家分享交流一下。先来简单介绍一下两位朋友的背...

2019-12-14 19:59:45 193

转载 出场率No.1的逻辑回归算法,是怎样“炼成”的?

(建议收藏后学习)0x00 前言 逻辑回归(Logistic Regression,LR)。在Kaggle竞赛的统计中,LR算法以63.5%的出产率,荣获各领域中“出场率最高的算法”这一...

2019-12-10 08:31:00 138

原创 数据仓库系列:如何优雅地规划数仓体系

0x00 前言 数仓规划是数仓建设的蓝图,涵盖从需求分析开始到最终的数仓评估验收整个环境;数仓规划之所以重要,是因为它是描述了数据流动的概念性框架,为元数据管理奠定了基础,对数据加工过程...

2019-12-09 08:26:00 1034

原创 特征工程系列:自动化特征构造

0x00 前言 数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。那...

2019-12-08 19:48:28 206

转载 数据分析师的核心竞争力在哪里?

***第43篇文章,阅读时长约5分钟***不知不觉,我已经做数据分析相关工作已经有9年时间了。经常有被问到,数据分析师的核心竞争力在哪里,好像入门的工具都挺好掌握的呀。是的,知识跟技能都...

2019-12-01 11:00:00 304

空空如也

木东居士的留言板

发表于 2020-01-02 最后回复 2020-01-02

空空如也
提示
确定要删除当前文章?
取消 删除