NLP
colorful_-_
在读博士,前互联网大厂工程师,人工智能研究院技术产品经理,深耕人工智能、大模型等领域的研究与落地应用
展开
-
Task2 :特征提取(分词(结巴分词);词、字符频率统计)
jieba“结巴”中文分词:做最好的 Python 中文分词组件支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。安装说明pip install jieba主要功能分词创建函数:(1)精确模式 函数...原创 2019-05-14 16:07:40 · 1353 阅读 · 0 评论 -
朴素贝叶斯/SVM/LDA主题模型
一. 朴素贝叶斯在所有的机器学习分类算法中,朴素贝叶斯和其他绝大多数的分类算法都不同。对于大多数的分类算法,比如决策树,KNN,逻辑回归,支持向量机等,他们都是判别方法, 也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数Y=f(X),要么是条件分布P(Y|X)。 但是朴素贝叶斯却是生成方法,也就是直接找出特征输出Y和特征X的联合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(...原创 2019-05-20 19:35:03 · 1073 阅读 · 0 评论 -
Task3 特征选择(TF-IDF以及互信息)
一. 什么是TF-IDFTF-IDF(Term Frequency-Inverse Document Frequency, 词频-逆文件频率).字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。词频 (term frequency, TF) 指的是某一个给定的词语在该文件中出现的次数。这个数字通常会被归一化(一般是词频除以文章总词数), 以防止...原创 2019-05-15 19:13:04 · 443 阅读 · 0 评论 -
Text-CNN模型来进行文本分类
1 .结构2.参数与超参数sequence_lengthQ: 对于CNN, 输入与输出都是固定的,可每个句子长短不一, 怎么处理?A: 需要做定长处理, 比如定为n, 超过的截断, 不足的补0. 注意补充的0对后面的结果没有影响,因为后面的max-pooling只会输出最大值,补零的项会被过滤掉.num_classes多分类, 分为几类.vocabulary_size语料库的词典...原创 2019-05-24 18:33:11 · 298 阅读 · 0 评论 -
基于TensorFlow的CNN/RNN用于文本分类
代码链接:环境Python 3TensorFlow 1.3以上numpyscikit-learnscipy数据集本文采用了清华NLP组提供的THUCNews新闻文本分类数据集的一个子集。本次训练使用了其中的10个分类,每个分类6500条,总共65000条新闻数据。类别如下:体育, 财经, 房产, 家居, 教育, 科技, 时尚, 时政, 游戏, 娱乐数据集划分如下:训练...原创 2019-05-12 15:05:10 · 702 阅读 · 2 评论 -
FastText原理
一、简介fasttext是facebook开源的一个词向量与文本分类工具,在2016年开源,典型应用场景是“带监督的文本分类问题”。提供简单而高效的文本分类和表征学习的方法,性能比肩深度学习而且速度更快。fastText结合了自然语言处理和机器学习中最成功的理念。这些包括了使用词袋以及n-gram袋表征语句,还有使用子字(subword)信息,并通过隐藏表征在类别间共享信息。我们另外采用了一个...原创 2019-05-22 12:34:35 · 1120 阅读 · 0 评论 -
词向量和语言模型
1.词向量是什么(One-hot Representation)每个词表示为一个很长的向量。这个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。 举个栗子, “话筒”表示为 [0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 …] “麦克”表示为 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 …] ...原创 2019-05-18 09:02:34 · 297 阅读 · 0 评论