- 我的消息
- 我的博客
- 我的学院
- 我的下载
- 我的收藏
- 消息
-
-
置顶 推荐系统中的冷启动和探索利用问题探讨 (下)
LinUCB算法回到推荐列表的场景,推荐系统为用户推荐物品。user和item都可以用一系列特征表示。用户特征包括用户的统计历史行为、人口学属性信息;物品特征包括描述信息、类别信息等等。在这种场景下,探索和利用也必须是个体用户级别上实施,因为不同用户看到相同的物品的反馈差异较大。LinUCB算法是...
原创2017-08-22 16:54:234420 -
置顶 推荐系统中的冷启动和探索利用问题探讨 (上)
推荐系统中的冷启动和探索利用问题探讨 (上)前言互联网技术和大数据技术的迅猛发展正在时刻改变我们的生活,视频网站、资讯app、电商网站对于推荐系统而言,每天都有大量的活跃用户在不断的产生海量的用户行为,同时,每天又都产生大量的新增PGC或者UGC内容(如小说、资讯文章、短视频等)。从推荐系统的角度...
原创2017-08-22 10:07:024440 -
置顶 如何利用trie树加快关键词查找
项目中有如下需求,给定一个关键词库(规模不定,从几百到几千不等),需要在一句话或者一段内容中快速找出关键词,如果有任何一个关键词命中就可以直接返回。 1. 简单的方法就是依次判断每个词是否存在于给定内容中: def filter(content): for filter_word...
原创2017-08-08 19:33:0718680 -
置顶 hive之数据类型初探
前段时间在做一个将oralce代码转hive代码开发时,遇到了一个问题,问题描述如下: (A) Hive: Select concat(round(1/3,4)*100,'%') from v_book_all_info_ft limit1; Output:33.33% Oracle:...
原创2014-06-19 22:06:433810 -
利用python的heapq实现prim算法以及优先级队列
1. python heapq是一个最小堆,堆顶元素为最小值,最小(大)堆的逻辑结构是一颗二叉树,其中父节点的小(大于)于左右子节点,物理结构为一个数组。 heapq模块支持heappush(入堆)、heappop(出堆)、heapify(创建堆)等操作,详细请参考python官方文档(ht...
原创2016-10-09 23:01:2310213 -
布隆滤波器基本原理和pybloomfilter使用
1. 布隆滤波器原理 在日常开发过程中,会经常遇到元素是否存在集合判断和去重问题,例如我们会判断一个email地址是否在黑名单中,网络爬虫会判断一个url是否已经存在于待抓取列表或者已抓取,视频库的去重等等。不幸的是通常情况下这类问题面临的数据规模都较大,比如网络爬虫系统的抓取url通常达到数亿...
原创2016-08-12 16:41:1730122 -
文本指纹算法和内容指纹系统介绍
1. 文本指纹介绍 Web大量上的网页集合里存在大量的重复内容网页,无论对于搜索引擎的网页去重和过滤、新闻小说等内容网站的内容反盗版和追踪、还是社交媒体等文本去重和聚类,都需要对网页或者文本进行去重和过滤。 最简单的文本相似性计算方法可以利用空间向量模型,计算分词后的文本的特征向量的相...
原创2016-08-10 23:22:1055290 -
利用Hive进行数据分析
近十年来,随着Hadoop生态系统的不断完善,Hadoop早已成为大数据事实上的行业标准之一。面对当今互联网产生的巨大的TB甚至PB级原始数据,利用基于Hadoop的数据仓库解决方案Hive早已是Hadoop的热点应用之一。达观数据团队长期致力于研究和积累Hadoop系统的技术和经验,并构建起了分...
原创2016-07-06 21:30:20101581
-
- 学院
- 下载
- 消息