xy773545778-CSDN博客

原创 text retrieval week3

一、文本挖掘系统的评价方法 1. cranfield评价方法论构建一个可重用的测试集并定义度量方法 2. P-R 3. 排序查询结果的评价 P-R曲线量化评价该排序方法平均精确度 4. mean average precision(平均正确率均值）对于一个主题，求查询所得的相关文档的正确率并求均值（以下为转载的MAP例子) ...

2018-02-22 20:22:53 256

原创 text retrieval week2

一、TF-IDF加权的向量空间模型 1. TF加权这里的x,y不再是0，1表示，而是看该词出现的次数 2. IDF加权 M:文档数目 k:包含该词的文档数目在已TF加权下得到的值再乘以IDF值，即为最终的TF-IDF加权二、TF变换: 将c(w,d)转换为TF(w,d) 目的：限制高频词的权重经过不断的尝试，我们获得了鲁棒且有效的次线性TF转换函数，命...

2018-02-09 23:23:08 217

原创 python nltk常用函数

截图来自《python自然语言处理》

2018-02-09 14:50:05 473

原创 text retrieval week1

一、文本访问 1. 访问方式：pull push pull: 用户通过搜索引擎等搜索访问，可满足用户的临时信息需求 pull模式下有两种技术：查询(搜关键词) 浏览(看相关主题信息) push: 系统推荐信息给用户二、文本检索 1. 文本检索vs数据库检索 2. 文本检索的公式化表达最终任务就是要计算文档的相关性R’(q) R’(q)计算方法：文档选择文...

2018-02-01 21:13:32 431

原创 text mining week6

一、潜在方面评分分析 (LARA) 1. 输入：关于具有整体评级的主题的评论文章输出：评论中评论的主要方面，价值、客房服务等各方面的评级，评论者对不同方面的相对权重先做不同方面的分离，再利用一个潜在回归模型来学习方面评分和权重 2. 一个统一的生成模型应用于LARA 对文本生成和文本整体评分都分别建模存在一些实体，假设其中有由词汇分布描述的方面(

2018-01-28 23:14:31 252

原创公式

1. 计算词境相似度假如d1表示cat,d2表示dog,x1,x2,…,xn分别表示句子中单词正则化后出现的概率。 2. TF-IDF加权 TF: 词频 IDF:反文档频率包含词条的文档越少，IDF越大，则说明词条具有很好的类别区分能力。 TF-IDF的计算: TF*IDF 3. 熵函数条件熵函数 eg. 4. 互信息互信息的计

2018-01-25 23:20:46 383

原创 text mining week5学习笔记

一、文本分类 1. 判别分类器 (1) logestic回归 (2) knn分类如要求正中间那个四方格属于哪个分类，则先要确定k的值，若设k=1,则归为距它最近的一个类。若k=4，如图圈中会看到玫红方格所占概率3/4，点方格为1/4，则归为玫红方格的类中.(3) SVM 尽力使分开的两个类别有最大的间隔，这样才使得分类具有更高的可信度，而且对于未知的新样本才有很好

2018-01-24 16:39:53 414

原创策略建模--基于机器学习学习笔记

1. 特征选择三种方法：（1）选择子集从比如有300个特征集，以某种方式从中选一些子集来做计算预测方式可以是暴力地设k=1到300，然后分别求出R^2值，然后再选R^2值相对大的子集们，衡量指标除了R^2也可以是AIC BIC。又或者是从300中选取1到300，就是排列组合的方法来依次求R^2 （2）收缩估计。构造一个罚函数使得得到一个精炼的模型，同时设定一些系数为0，保留了子

2018-01-22 17:12:44 1137

原创 text mining week4

一、文本聚类 1. 概念用户必须定义是从什么角度来判断相似性，而这个角度即为聚类偏差。 2. 方式：生成概率模型 (1) 主题模型与聚类 input: a text collection C and a number of topics k, and vocabulary V output: 词分布，每一个文档覆盖一个话题的概率 input: a text colle

2018-01-06 16:52:38 349

原创 text mining week3

一、概率主题模型：混合的一元语言模型混合模型中单词的概率是生成单词的不同方法的总和。二、概率主题模型：混合模型估计假设文本数据包括两种词，一种是像the is 等的背景词，一种是像text mining等的高频词分布中的词。为了筛选高频率的背景词，我们设该混合模型为假，即我们将假设模型中除了以参数theta d表示的文本分布，所有其他分布的参数值都是已知的，然后再假设背

2017-12-25 23:42:27 279

原创 text mining week2

一、组合关系探索熵函数确定x随机性的熵函数 coin tossing抛硬币熵在这里是表示一个事件发生的概率的离散程度，因为the在很多文档中的出现频率都非常高，所以它的熵会比一些词如meat等的熵要小。二、组合关系探索条件熵 1. 条件熵 0 H(meat|meat)=0 “the”的出现对是否有meat并无多大影响，所以对于减小meat的熵值也

2017-12-20 22:19:56 293

原创 text mining and analysis 学习笔记week1

一、一些现实存在的事物在经过人的观察思考后通过语言表达就形成了文本数据，通过对文本的挖掘可以得到以下四个方面的内容： 1. 挖掘文本中关于语言的东西，一个文本它所运用的语言可能是多种混合的。 2. 挖掘文本中的内容 3. 得到观察者的思想或观点等 4. 推断预测现实生活里的变量此外，文本挖掘并不局限于文本数据，一些相关的数值数据也能给

2017-12-18 22:55:39 428

xy773545778的博客