- 博客(4)
- 资源 (15)
- 收藏
- 关注
原创 剑指offer - 第四题
在一个二维数组中,每一行都按照从左到右递增的顺序排序。每一列都按照从上到下递增的顺序排序。请完成这样一个函数,输入这样的一个二维数组和一个整数,判断数组中是否含有该整数。1 2 8 92 4 9 124 7 10 136 8 11 15如果查找数字是7, 返回true; 查找5返回false
2017-10-24 11:07:23 357
原创 文本挖掘 - 文档模型
文档模型,主要针对的是如何把文档数字化、向量化,最终可以利用这些文档来建立模型。当前文档模型主要包括三类:布尔模型,向量空间模型,概率模型。1. 布尔模型每个词在文档中出现则记为1,否则记为0。这样就可以将每一篇文章都转化为向量,这种方法非常简单易懂,但是会丢失很多重要信息,比如词组出现的次数。因为排除停用词(stop words)以外,一个单词在文章中出现次数较多,那么它相对来说也更重要
2017-10-24 09:43:32 1501
原创 文本挖掘 - 分词
分词即对词语进行划分。分词的基本方法包括:最大匹配法,最大概率分词法,最短路径分词法分词的难点:分词歧义,未登录词识别(冷启动)1. 最大匹配法最大匹配法实际上是一种贪心算法,它同时还利用现实中人们使用的词语长度都是在一个比较固定的范围内。利用这个长度的限制来逐步贪心。1.1 正向最大匹配算法从左到右截取词组并判断是否为一个词语。s: 待分的句子te
2017-10-18 21:02:54 1401
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人