自然语言处理
文章平均质量分 77
zwwhsxq
思路是在写作的过程中产生的,2022年,我要多学多写
展开
-
使用word2vec(C语言版本)训练中文语料 并且将得到的vector.bin文件转换成txt文件
1、下载word2vec源码:http://download.csdn.net/download/qq_15987811/8681485 2、得到分词好的中文训练语料。 3、修改demo-word.sh文件: make #if [ ! -e text8 ]; then # wget http://mattmahoney.net/dc/text8.zip -O tex原创 2017-08-15 21:12:40 · 3713 阅读 · 0 评论 -
深度【文本分类】【关系抽取】模型中,如何读取并处理输出的训练文件(TXT格式)
1、一般在此类模型中,需要原始文件四个: train.txt 一般格式为(分类类型 句子)或(关系类型 头实体 尾实体 句子) test.txt 格式同上 relation2id.txt (关系类型 关系id) vec.txt (word, vec1,...,vec50)假设Embedding的维度为50 注意:要保证这些txt文件都是utf-8编码的 2、先处理vec.原创 2017-10-31 12:14:13 · 1131 阅读 · 0 评论 -
python NLP总结
1 https://www.zhihu.com/question/19929473 目前常用的自然语言处理开源项目/开发包有哪些?刘知远 2自然语言处理工具包spaCy介绍 spaCy 是一个Python自然语言处理工具包,诞生于2014年年中,号称“Industrial-StrengthNatural Language Processing in Python”,是具有原创 2017-10-25 21:00:00 · 5573 阅读 · 0 评论 -
CRF中的f(x,y)是什么
CRF中假设P(x,y)正比于exp(w内积f(x,y)) w是被训练得到的参数,可正可负。物理含义是:原创 2017-12-14 16:02:15 · 1203 阅读 · 0 评论 -
关于维特比算法的一些笔记
维特比算法是在HMM和CRF常用的预测算法,主要思想是用动态规划求解概率最大路径(即最优路径,这个我们可以想象成在已知观测句子x时,求概率最大的对应的标记序列y) 直观的理解可以参考维基百科上的动图:https://en.wikipedia.org/wiki/File:Viterbi_animated_demo.gif原创 2017-12-14 17:23:29 · 309 阅读 · 0 评论 -
ltp使用
1、Windows 下cmd使用2、linux 下pyltp安装使用 2.1 pip install pyltp原创 2018-03-12 19:14:46 · 326 阅读 · 0 评论