推荐算法是推荐系统的核心,但为了产生精确而且有效的推荐,越来越多的技术融合到推荐系统的研究中,然后提出各种不同的推荐算法。目前在推荐系统中应用的核心技术包括:
(1)信息检索技术(IR)
推荐系统根据用户需求,搜索产品类别数据库,然后返回用户需要的信息,其搜索过程可以实时进行,也可以定期执行,同时推荐系统提供的推荐界面既可以基于传统的关键字查询,也可以基于动态查询接口。
(2)信息过滤技术(IF)
信息过滤技术一般适合于用户需求相对不变,而信息动态更新比较频繁地情况。(比如:指阅,阅米,牛赞网)
信息过滤与信息检索的主要区别在于:
- 信息过滤面向用户长期的信息需求,而信息检索技术面向的是用户短期的、实时的信息查询。
- 信息过滤使用特征文件表示用户的信息需求特点,而信息检索技术是用关键词表达用户的查询需求。
- 信息过滤中用户需求相对不变,但用户访问的是动态数据流,是从动态数据流中选择数据;而信息检索技术访问的是相对静止的数据,但用户需求却具有瞬时性。
(3)数据挖掘技术(Data Mining)
数据挖掘中的知识可以分为以下几类:
- 分类:将数据划分为实现定义好的类别中去。
- 回归:将数据项映射到若干预定义好的变量上去。
- 聚类:将数据划分到几个聚类中去。
- 概括:为数据的一个子集给出一个简洁的描述。
- 依赖性模型:描述变量之间的相互依赖性。
- 链接分析:判断数据库或者数据仓库中字段之间存在的关系,比如:关联规则。
- 序列分析:构造顺序模型,发现数据之间在时间上的相关性。
数据挖掘常用的数据挖掘方法包括:
- 统计分析:利用统计学和概率论对关系中各个属性进行统计分析,找出它们之间存在的关联。
- 神经网络:模仿生物神经网络,通过训练进行学习的非线性预测模型,可以完成分类、聚类等多种任务。
- 决策树:用树形结果表示决策集合,决策集合通过对数据集分析产生典型的决策树方法。
- 遗传算法:运用基于生物进化的概念设计有了一系列过程来达到优化的目的,包括基因组合、分叉、变异和自然选择。
- 粗糙集:一种处理模糊和不确定性问题的数学工具,可以用于数据简化、关联规则挖掘。
- 模糊逻辑:可以用来进行证据合成、置信度计算。
- 最近邻技术:通过k个最相似的历史记录的组合来辨别新的记录,用来聚类分析、偏差分析。
- 规则归纳:通过统计方法归纳,提取有价值的if-else规则,可用于关联规则挖掘。
- 可视化:采取直观的图形方式将信息模型、数据关联或者趋势呈献给决策者。