自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 text retrieval week3

一、文本挖掘系统的评价方法 1. cranfield评价方法论 构建一个可重用的测试集并定义度量方法 2. P-R 3. 排序查询结果的评价 P-R曲线 量化评价该排序方法 平均精确度 4. mean average precision(平均正确率均值) 对于一个主题,求查询所得的相关文档的正确率并求均值 (以下为转载的MAP例子) ...

2018-02-22 20:22:53 228

原创 text retrieval week2

一、TF-IDF加权的向量空间模型 1. TF加权 这里的x,y不再是0,1表示,而是看该词出现的次数 2. IDF加权 M:文档数目 k:包含该词的文档数目 在已TF加权下得到的值再乘以IDF值,即为最终的TF-IDF加权 二、TF变换: 将c(w,d)转换为TF(w,d) 目的:限制高频词的权重 经过不断的尝试,我们获得了鲁棒且有效的次线性TF转换函数,命...

2018-02-09 23:23:08 195

原创 python nltk常用函数

截图来自《python自然语言处理》

2018-02-09 14:50:05 442

原创 text retrieval week1

一、文本访问 1. 访问方式:pull push pull: 用户通过搜索引擎等搜索访问,可满足用户的临时信息需求 pull模式下有两种技术:查询(搜关键词) 浏览(看相关主题信息) push: 系统推荐信息给用户 二、文本检索 1. 文本检索vs数据库检索 2. 文本检索的公式化表达 最终任务就是要计算文档的相关性R’(q) R’(q)计算方法:文档选择 文...

2018-02-01 21:13:32 402

原创 text mining week6

一、潜在方面评分分析 (LARA) 1. 输入:关于具有整体评级的主题的评论文章 输出:评论中评论的主要方面,价值、客房服务等各方面的评级,评论者对不同方面的相对权重 先做不同方面的分离,再利用一个潜在回归模型来学习方面评分和权重 2. 一个统一的生成模型应用于LARA 对文本生成和文本整体评分都分别建模 存在一些实体,假设其中有由词汇分布描述的方面(

2018-01-28 23:14:31 232

原创 公式

1. 计算词境相似度 假如d1表示cat,d2表示dog,x1,x2,…,xn分别表示句子中单词正则化后出现的概率。 2. TF-IDF加权 TF: 词频 IDF:反文档频率 包含词条的文档越少,IDF越大,则说明词条具有很好的类别区分能力。 TF-IDF的计算: TF*IDF 3. 熵函数 条件熵函数 eg. 4. 互信息 互信息的计

2018-01-25 23:20:46 344

原创 text mining week5学习笔记

一、 文本分类 1. 判别分类器 (1) logestic回归 (2) knn分类 如要求正中间那个四方格属于哪个分类,则先要确定k的值,若设k=1,则归为距它最近的一个类。若k=4,如图圈中会看到玫红方格所占概率3/4,点方格为1/4,则归为玫红方格的类中.(3) SVM 尽力使分开的两个类别有最大的间隔,这样才使得分类具有更高的可信度,而且对于未知的新样本才有很好

2018-01-24 16:39:53 373

原创 策略建模--基于机器学习 学习笔记

1. 特征选择三种方法: (1) 选择子集 从比如有300个特征集,以某种方式从中选一些子集来做计算预测 方式可以是暴力地设k=1到300,然后分别求出R^2值,然后再选R^2值相对大的子集们,衡量指标除了R^2也可以是AIC BIC。又或者是从300中选取1到300,就是排列组合的方法来依次求R^2 (2) 收缩估计。构造一个罚函数使得得到一个精炼的模型,同时设定一些系数为0,保留了子

2018-01-22 17:12:44 1110

原创 text mining week4

一、文本聚类 1. 概念 用户必须定义是从什么角度来判断相似性,而这个角度即为聚类偏差。 2. 方式:生成概率模型 (1) 主题模型与聚类 input: a text collection C and a number of topics k, and vocabulary V output: 词分布,每一个文档覆盖一个话题的概率 input: a text colle

2018-01-06 16:52:38 304

原创 text mining week3

一、概率主题模型:混合的一元语言模型 混合模型中单词的概率是生成单词的不同方法的总和。 二、概率主题模型:混合模型估计 假设文本数据包括两种词,一种是像the is 等的背景词,一种是像text mining等的高频词分布中的词。 为了筛选高频率的背景词,我们设该混合模型为假,即我们将假设模型中除了以参数theta d表示的文本分布,所有其他分布的参数值都是已知的,然后再假设背

2017-12-25 23:42:27 230

原创 text mining week2

一、组合关系探索 熵函数 确定x随机性的熵函数 coin tossing抛硬币 熵在这里是表示一个事件发生的概率的离散程度,因为the在很多文档中的出现频率都非常高,所以它的熵会比一些词如meat等的熵要小。 二、组合关系探索 条件熵 1. 条件熵 0 H(meat|meat)=0 “the”的出现对是否有meat并无多大影响,所以对于减小meat的熵值也

2017-12-20 22:19:56 233

原创 text mining and analysis 学习笔记week1

一、 一些现实存在的事物在经过人的观察思考后通过语言表达就形成了文本数据,通过对文本的挖掘可以得到以下四个方面的内容: 1. 挖掘文本中关于语言的东西,一个文本它所运用的语言可能是多种混合的。 2. 挖掘文本中的内容 3. 得到观察者的思想或观点等 4. 推断预测现实生活里的变量 此外,文本挖掘并不局限于文本数据,一些相关的数值数据也能给

2017-12-18 22:55:39 378

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除