![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
数据挖掘
wen008215
这个作者很懒,什么都没留下…
展开
-
数据挖掘的数据集资源
数据挖掘的数据集资源本文转自: [url]http://www.cnblogs.com/bobomouse/archive/2007/05/26/760513.html[/url][url]http://blog.chinaunix.net/u/8780/showart.php?id=497635[/url]1、气候监测数据集 [url]http://cdiac.ornl.gov/ftp/ndp0转载 2010-03-26 09:10:00 · 668 阅读 · 0 评论 -
局部敏感哈希算法的实现
近来由于工作需要,需要将字符串的相似度的计算速度进行提升。之前曾采用最长公共子序列、编辑距离等算法实现过,但总满足不了实时比较的性能及速度需求。前些天由同事推荐局部敏感哈希算法,便尝试了一把,结果发现速度还不错,本着记录与分享的精神,简单总结下实现的过程及思路。 【Shingle】 将待查询的字符串集进行映射,映射到一个集合里,如字符串“abcdeeeefg", 映射到集合”(a,b,转载 2014-10-08 15:31:34 · 613 阅读 · 0 评论 -
MinHash
MinHash[1] 也是LSH的一种,可以用来快速估算两个集合的相似度。MinHash由Andrei Broder提出,最初用于在搜索引擎中检测重复网页。它也可以应用于大规模聚类问题。转载 2014-10-08 10:24:54 · 602 阅读 · 0 评论 -
数据挖掘实例
引用:http://old.blog.edu.cn/user1/9065/archives/2005/145093.shtml目的: 给定某些属性,判断某贷款顾客的可信性(即”good/bad”状况)。简单思路: 该数据包含了666条贷款顾客的历史数据和21个属性。但是我们认为,这21个属性不都能够有效地帮助我们判断顾客的可行性,所以我们首先把一些比较不相关的属性去转载 2010-04-07 15:01:00 · 799 阅读 · 0 评论 -
推荐系统与协作过滤面临的主要问题
转自:http://xlvector.cn/blog/?m=200902 数据稀疏协同过滤的精度主要取决于用户数据的多少。如果一个系统有很多用户的历史数据,他就能更好的对用户的喜欢做出预测。所以,目前推荐系统做的最好的都是那些有着很大量用户数据的公司,比如Google, Yahoo, Netflix, Amazon等等。但是,即使拥有很多数据,数据还是不够多,因为推荐系统的历史还不够长,还转载 2010-03-29 11:26:00 · 512 阅读 · 1 评论 -
数据挖掘方法汇总
数据挖掘方法汇总 数据挖掘的任务是从数据中发现模式。模式按功能分为预测型(Predictive)和描述型(Descriptive),而按实际作用可分为以下6种:(1)分类模式分类模式把数据集中的数据项映射到某个给定的类上,如决策树方法、统计方法及粗糙集方法等。(2)回归模式分类模式的预测值是离散的,回归模式的预测值是连续的。(3)关联模式关联模式(Association Mod转载 2010-03-26 09:43:00 · 623 阅读 · 0 评论 -
Web内容挖掘在数字图书馆中的应用
来源:http://www.dmresearch.net/web-data-mining/200901/124433.html 四川大学公共管理学院信息管理系 四川 成都 610064[摘要]文章在介绍web内容挖掘对数字图书馆中的重要作用的基础上,详细阐述了数字图书馆中对web内容中的文本信息的挖掘过程,包括文本自动摘要,文本分类和文本聚类,分析了如何在挖掘过程中结合用户需求,得到更好的原创 2010-03-26 15:22:00 · 696 阅读 · 0 评论 -
个性化推荐技术漫谈
来源:http://www.dmresearch.net/web-data-mining/200907/124862.html 如果说过去的十年是搜索技术大行其道的十年,那么个性化推荐技术将成为未来十年中最重要的革新之一。目前几乎所有大型的电子商务系统,如Amazon、CDNOW、Netflix等,都不同程度地使用了各种形式的推荐系统。而近来以“发现”为核心的网站正开始在互联网上崭露转载 2010-03-26 15:15:00 · 501 阅读 · 0 评论 -
推荐系统长尾
来源:http://www.dmresearch.net/web-data-mining/200910/125139.html 我们已经谈过推荐系统的架构和技术分类,接着我们来观察推荐系统的目标和成果,是否如研究者或经营者所预期的那么美好。推荐系统的研究在学界虽然不是红得发紫,但是一直受到相当程度的关注, Netflix Prize 的话题一开,更受人注目。在如何建构一个「更好的」推荐系统转载 2010-03-26 15:09:00 · 839 阅读 · 0 评论 -
MapReduce实现大矩阵乘法
引言 何为大矩阵?Excel、SPSS,甚至SAS处理不了或者处理起来非常困难,需要设计巧妙的分布式方法才能高效解决基本运算(如转置、加法、乘法、求逆)的矩阵,我们认为其可被称为大矩阵。这意味着此种矩阵的维度至少是百万级的、经常是千万级的、有时是亿万级的。举个形象的栗子。至2012年12月底,新浪微博注册用户数超5亿,日活跃用户4629万[1],如果我们要探索这4000多万用户可以分成哪些类转载 2014-11-12 14:40:23 · 589 阅读 · 0 评论