大数据
文章平均质量分 91
wonner_
这个作者很懒,什么都没留下…
展开
-
基于欧式距离的海量高维向量相似度计算方法综述及局部敏感哈希 Cross-polytope LSH 简介
在做海量高维向量相似度快速计算比赛时,对最近邻搜索方法做了一些泛读和总结。主要以下分为几大类。 一是基于树形的高维索引,如kd-tree,R-tree等,但当维度较高时,查询性能急剧下降。 二是基于map-reduce方法,选择合适个数的中心点,相当于一个聚类操作,将一个中心点定义为一个cell。使用多个计算节点将查找集和被查找集同时映射到距离最近的中心点,也就是对应的cell...原创 2018-07-13 12:07:51 · 5291 阅读 · 3 评论 -
使用spark mllib协同过滤进行图书推荐(Java版)
0. 协同过滤算法简介 协同过滤(Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息。根据关注内容的不同,协同过滤算法分为三类:以用户为基础(User-based)的协同过滤:用相似统计的方法得到具有相似爱好或者兴趣的相邻用户,使用与推荐用户相似用户的感兴趣的项目进行推荐。以项目为基础(Item-based)...原创 2019-02-26 14:59:30 · 1281 阅读 · 1 评论