自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

走过路过

追随孩子,永远成长

  • 博客(6)
  • 收藏
  • 关注

原创 推荐系统应用场景

底下是一个网友对推荐系统的比喻我觉得这个比喻是很恰当的。延续这个网友的比喻,做个扩展说明搜索行为是带有目的性的,就好像那个女人有意向且急需购买一件碎花长裙,因为要与离别半载的男友见面,她想打扮出小男友心目中的清新女神。所以在周五的时候她上街,显得很匆忙,只希望能够快速找到一件心仪的礼服,但是店铺很多,虽然时下有很多新款长裙,但是由于区域首先,她出出入入很多家门店

2015-03-29 10:23:25 4356

原创 分类算法之逻辑回归

2015-03-21 15:20:43 1575

原创 中文新词发现算法解析

现在社交网络和视频网站发展都非常迅猛,参与人数非常多,每日UGC量非常可观。也因此经常制造爆炸性新闻,新词的制造和流行也频频出现。不同的社交圈内,由于话题性的不同,其新词分布也不同,所以直接引入搜狗等输入法的新词,会造成新词污染。因此,往往需要基于自营社交圈的语料库做新词发现,才能实现更精确的文本语义分析。 算法解析:我将新词发现流程比喻为判断默认男女是否为伴侣关系(这里限指关系比较稳

2015-03-19 21:02:44 23063 7

原创 中文分词开源软件整理和基本判断

这是刚入数据挖掘组,只有读过吴军《数学之美》的情况下做的中文分词调研。很简练,是那个时候的笔记。是我在NLP和数据挖掘的开端,在离开小组前,整理出来,以作纪念。 1. IK AnalyzerIK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词组件。 初判:使用文法分析的算

2015-03-19 21:02:28 1837

原创 Mmseg中文分词算法解析

Mmseg中文分词算法解析@author linjiexing开发中文搜索和中文词库语义自动识别的时候,我采用都是基于mmseg中文分词算法开发的Jcseg开源工程。使用场景涉及搜索索引创建时的中文分词、新词发现的中文分词、语义词向量空间构建过程的中文分词和文章特征向量提取前的中文分词等,总体使用下来,感觉jcseg是一个很优秀的开源中文分词工具,而且可配置和开源的情况下,可以满足很多场景

2015-03-12 20:17:25 1965

原创 Solr Suggest智能提示配置说明

有时候,为了实现如下功能 以满足用户在输入个别单词的时候,能够自动联想提示,这样可以避免用户的冗余输入并提供一定的推荐,从而实现更好的交互效果和内容推广效果。这样的功能有很多实现方式,成熟的Solr其实就已经封装了这样的功能,而且只需要简单的配置就可以完成。(注,本人使用的是Solr-4.10.0版本) 1. 配置suggest功能点打开solr-config.xml,查找到s...

2015-03-11 20:28:42 8185 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除