数据挖掘
文章平均质量分 75
阳光洒落你窗前
这个作者很懒,什么都没留下…
展开
-
数据挖掘竞赛题目 -- 文本分类
从某公众号看到两个题目, 逻辑挺简单, 现在记录下来, 有时间琢磨琢磨(数据在文末).竞赛简介使用搜狗语料库进行自动文本分类数据描述新闻语料中类别与目录的对应关系如下,共十大类别:C000007 汽车 C000008 财经 C000010 IT C000013 健康 C000014 体育 C000016 旅游 C000020 教育 C000022 招聘 C0000原创 2016-06-14 11:10:27 · 3130 阅读 · 1 评论 -
数据挖掘竞赛题目 -- 电影推荐
竞赛简介通过对用户评分行为的分析,挖掘用户的兴趣及其变化规律,然后预测用户对其他电影的评分。数据描述本次比赛,我们提供了1千万左右的电影评分数据,每条评分记录都有时间戳(隐匿了具体时间,只保证顺序不变)。评分分为5级,1分最低,5分最高。 我们抽取了超过800万条评分记录,作为训练集,数据文件名为r1.train,字段格式为: UserID::MovieID::Rating::T原创 2016-06-14 13:25:50 · 4712 阅读 · 0 评论 -
TF-IDF原理及使用
一. 什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率). 是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。上述引用总结就原创 2016-12-18 17:03:50 · 161433 阅读 · 11 评论 -
准确率与召回率
来源:http://blog.csdn.net/wangzhiqing3/article/details/9058523在信息检索、分类体系中,有一系列的指标,搞清楚这些指标对于评价检索和分类性能非常重要,因此最近根据网友的博客做了一个汇总。准确率、召回率、F1信息检索、分类、识别、翻译等领域两个最基本指标是召回率(Recall Rate)和准确率(Precision Rate),召回转载 2016-06-15 22:16:12 · 2745 阅读 · 1 评论