自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(4)
  • 收藏
  • 关注

原创 Word Embedding——Skip-Gram的介绍

由于项目需要,近期自学了一些有关NLP的基础知识。借此博文记录一下自己对word2vec的理解,旨在加深印象。

2021-03-24 17:42:02 499 2

原创 特征选择——互信息量

  最近做了一个数据比赛,由于对数据背后的业务不太了解,所以特征工程大多采取了“暴力”提取的方式,特征过多直接导致模型存在过拟合问题。所以个人的赛后感受是在做特征工程的过程中就要考虑特征的取舍问题,主要通过特征与因变量Y之间的相关性分析做出判断。  衡量单变量的相关性指标有很多,比如Pearson相关系数、互信息量信息量信息熵互信息量...

2019-11-01 14:04:39 5561

原创 推荐系统的召回算法(一)—— 协同过滤法(基于用户)

  姗姗来迟的第二篇博客,最近在了解有关推荐系统方面的基本知识和算法,先总结其中一类经典常用的算法——协同过滤法。但相关知识的介绍只停留在理论算法和(文中附)Python代码实现层面上,很多涉及到项目如何落地的细节我不太了解,希望有小伙伴能够解惑,感激不尽!目录为何做推荐系统召回和排序协同过滤法—基于用户(UserCF)UserCF原理Python代码协同过滤法—基于物品(ItemCF)Item...

2019-08-13 18:08:44 2322

原创 一个路人理科应届生找数据挖掘类工作的前前后后

目录漫谈在校篇面试篇实习篇再面试篇现状篇结语漫谈在校篇  首先说下自己的(马赛克)情况吧:19年X月份毕业于XX学校的一名双非统计系理科生,为什么要强调统计系理科生呢,还不是在找工作时老被嫌弃嘛!后面会聊到。在校期间打打酱油,虽然希望自己以后从事数据类的工作,但不知从何学起。很多人肯定要吐槽了,学统计的不应该很容易上手数挖或机器学习吗?其实统计模型注重可解释性和解的性质(如一致性),而数挖的...

2019-06-12 15:11:12 616 5

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除