![](https://img-blog.csdnimg.cn/20210202112508952.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
自然语言处理
文章平均质量分 96
中文自然语言处理,中文NLP,机器学习,深度学习,Python,算法
小基基o_O
GitHub:https://github.com/AryeYellow
码云:https://gitee.com/arye
展开
-
NLP关键词权重算法总结Python实现(超级全,持续更)
词频TFIDF词在文中位置文章总长度词长词跨度词性词与主题的关系否定句自然衰减权重TextRank内联权重上下文特征向量最尾补充一些失败实验原创 2020-09-01 14:16:18 · 6192 阅读 · 5 评论 -
Python程序写诗【训练1分钟】古诗生成
from gensim.models import Word2Vecfrom random import choiceimport warningswarnings.filterwarnings('ignore') # 不打印警告""&amp原创 2019-02-01 14:33:15 · 17585 阅读 · 52 评论 -
Python文本分类总结:贝叶斯,逻辑回归,决策树,随机森林,SVM,词向量,TFIDF,神经网络,CNN,LSTM,GRU,双向RNN,LDA
实际工作中,待测数据可能已知,也可能未知逻辑回归整体最优(最高准度第2,平均准度第1,结果稳定,速度ok)独热编码优于词向量独热编码tfidf优于count线性svm训练时间过长,结果不稳定独热tfidf+线性svm准度最优深度学习的训练轮数不易确认,导致不稳定数据量较少情况下深度学习的准确度较机器学习低词向量相当于降维,低维空间上,逻辑回归和线性SVM效果一般,高斯核函数SVM效果更好但不稳定无监督学习中,【词向量+专家系统】有76%的准确率主题模型LDA是垃圾原创 2020-09-27 15:18:37 · 2302 阅读 · 9 评论 -
标注数据较少时【长文本分类任务】的半监督学习Python算法
具有小量准确标注数据#mermaid-svg-O0JlRfpc08ZZQ7aH .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-O0JlRfpc08ZZQ7aH .label text{fill:#333}#mermaid-svg-O0JlRfpc08ZZQ7aH .node rect,#mermaid-svg原创 2020-09-19 00:10:29 · 1255 阅读 · 5 评论 -
Python+gensim-文本相似度分析(小白进)
from gensim import corpora, models, similaritiesimport jieba# 生成分词列表def cut(sentence): generator = jieba.cut(sentence) words = [word for word in generator] print(words) return word...原创 2018-07-12 23:10:58 · 34823 阅读 · 52 评论 -
【20行代码】中文NLP词向量词聚类Python原创算法(直接复制可用)
文章目录学前基础原理词向量+norm+kmeans部分结果展示学前基础1、词向量2、聚类算法原理:语料>文本切分>词向量>词单位向量>聚类主要可调参数: 停词和词性过滤时间词处理词窗词向量维度sg=1簇数失败实验词向量+kmeans:高频词和低频词会被分开词向量+norm+DBSCAN:大部分词被连成一片LDA(长文切短):大部分词主题概率极低(主题0)原创 2020-09-10 11:08:19 · 6345 阅读 · 10 评论 -
NLP相关的语言学基础
自然语言处理是一门融语言学、计算机科学、数学于一体的科学。只会数学和计算机是不够的,本文补充相关的语言学基础。语言学是以人类语言为研究对象的学科。探索范围包括语言的性质、功能、结构、运用和历史发展,以及其他与语言有关的问题。语言学的重要分支学科:语法学。相关重要学科:英语语法、汉语语法、句法、词法、现代汉语…主要目的:搞清楚哪些词属于什么词类;词性标注表的由来。原创 2020-07-22 08:09:43 · 1417 阅读 · 0 评论 -
行政区划信息抽取算法(区划抽取)
文章目录前言基础知识数据处理歧义名称指向不明带歧义地名重名后缀后缀去掉后缀代码示例前言行政区划信息抽取算法,简称区划抽取本文区划仅针对中国(缺港澳台),时间2019年,:http://www.stats.gov.cn/tjsj/tjbz/http://www.stats.gov.cn/tjsj/tjbz/tjyqhdmhcxhfdm/2019/index.html全国区...原创 2020-05-02 18:17:55 · 2514 阅读 · 0 评论 -
NLP项目测试和验证
文章目录功能测试数据验证功能测试数据验证数据准确性数据准确率原创 2020-03-15 20:11:55 · 2654 阅读 · 0 评论 -
TF-IDF关键词抽取Python实现
文章目录原理手写jieba(免训练)sklearngensim原理手写jieba(免训练)sklearngensim原创 2019-12-22 11:29:04 · 2768 阅读 · 0 评论 -
初阶NLP总结
文章目录词库构建词词性分词算法语料处理清洗实体统一特征工程分类聚类模型应用词库构建词网上下载垂直领域词库(科技、农业、体育、政治……)功能词库(停词、情感词、量词……)新词探索算法基于HMM:jieba基于深度学习:LTP暴力循环命名实体识别算法:bilstm-crf爬虫抓取名词电影名、公司名词性jieba词性自定义词性垂直领域属性分词算法jiabaltpf...原创 2019-09-04 17:13:29 · 3690 阅读 · 1 评论 -
Python【极简】文本分类+文本编码
文章目录文本分类【极简】模板文本编码sklearn文本向量化CountVectorizerTfidfVectorizer(继承CountVectorizer)引入中文分词器知识补充:压缩稀疏矩阵word2idone hot representation文本分类【极简】模板from jieba import cutfrom sklearn.linear_model import Logisti...原创 2019-07-30 08:52:28 · 1151 阅读 · 0 评论 -
Python文本分类【NB、LR、SVM、CNN、RNN、TF-IDF、Word2Vec、FastText】
文章目录评估结果1、贝叶斯2、贝叶斯+TF-IDF3、逻辑回归+词向量(FastText)4、神经网络(CNN或RNN)5、神经网络+词向量(FastText)数据预处理模块模型评估模块语料地址评估结果模型时间空间精度贝叶斯38高0.83逻辑回归103高0.85贝叶斯+TfIdf86高0.84逻辑回归+TfIdf306高0.84...原创 2019-05-09 14:57:11 · 5101 阅读 · 8 评论 -
Python-NER-CRF
文章目录投票模型条件随机场附录投票模型import pandas as pdfrom sklearn.metrics import classification_report# 数据df = pd.read_csv('train.csv').fillna(method='ffill')X = df.Word.valuesy = df.Tag.valueslabels = df...原创 2019-04-18 09:50:24 · 1632 阅读 · 1 评论 -
Python-编辑距离-拼写检查
文章目录编辑距离遍历词库,全量计算编辑距离先生成指定编辑距离的词,再行匹配时间复杂度比较编辑距离是针对二个字符串的差异程度的量化量测,量测方式是看至少需要多少次的处理才能将一个字符串变成另一个字符串。编辑距离有几种不同的定义,差异在可以对字符串进行的处理。在莱文斯坦距离中,可以删除、加入、取代字符串中的任何一个字元。Damerau-Levenshtein 距离是一种莱文斯坦距离的变种,...原创 2019-04-03 15:42:26 · 1278 阅读 · 0 评论 -
统计语言模型Python实现
文章目录原理简述N-gramunigrambigram代码&步骤1、工具导入2、语料预处理3、unigram4、bigram5、概率计算连贯代码附录原理简述统计语言模型(Statistical Language Model),可用于计算一个句子的合理程度。SSS 表示句子,由有序的 nnn 个词 w1,w2,w3,..wnw_1,w_2,w_3,..w_nw1,w2,w3,.....原创 2019-04-08 17:28:08 · 4264 阅读 · 3 评论 -
jieba分词,识别【带空格的词】
找到源码变量进行修改识别中间带空格的词使【Blade Master】这类中间有空格的词被识别import jieba, resentence = 'Blade Master疾风刺杀Archmage'# 添词jieba.add_word('Blade Master')print([word for word in jieba.cut(sentence)])jieba.re_han_d...原创 2018-10-08 08:57:38 · 5346 阅读 · 1 评论 -
Python+gensim【中文LDA】简洁模型
文章目录完整代码过程详解words_lsdictionarydictionary.doc2bow函数corpuslda完整代码from gensim import corpora, modelsimport jieba.posseg as jp# 待分析文本集text1 = '美国教练坦言,没输给中国女排,是输给了郎平'text2 = '中国女排世界排名第一?真实水平如何,听听巴西和美...原创 2018-10-16 21:36:25 · 26729 阅读 · 51 评论 -
Python-基于词典-中文分词算法
sentence = '一起去暨南大学吃'length = tail = len(sentence)max_size = 4 # 词最大长度while tail > 0: head = tail - max_size if head &原创 2018-10-23 11:49:15 · 5406 阅读 · 3 评论 -
Python 中文分词 jieba(小白进)
cut(sentence, cut_all=False, HMM=True)1、创建【生成器】对象import jieba# 将要被切词的文本sentence = '金融数据分析'# 创建【生成器】对象generator = jieba.cut(sentence)print(generator)print结果:&a原创 2019-10-24 10:26:19 · 12796 阅读 · 3 评论 -
Python【jieba】词性标注表
Python、jieba、0.39版flagcne.g.a形容词高 明 尖 诚 粗陋 冗杂 丰盛 顽皮 很贵 挺好用 …ad副形词努目 完全 努力 切面 严实 慌忙 明确 仓惶 详细 …ag形语素详 笃 睦 奇 洋 裸 渺 忤 虐 黢 怠 峻 悫 鄙 秀 …an名形词麻生 猥琐 腐生 困苦 危难 负疚 刚愎 危险 悲苦 …b区别词...原创 2018-11-12 19:30:59 · 25073 阅读 · 20 评论 -
gensim词向量Word2Vec
文章目录Word2Vec代码捏造数据建模训练词间相似度预测词词向量3d可视化附录Word2Vec代码捏造数据数据格式为list of words[[word1, word2, …], [word1, word2, …],&原创 2018-11-22 21:28:04 · 5046 阅读 · 2 评论 -
中文依存句法分析接口
API文档from aip import AipNlp # pip install baidu-aip# 创建连接APP_ID = '你的 App ID'API_KEY = '你的 Api Key'SECRET_KEY = '你的 Secret Key'client = AipNlp(APP_ID, API_KEY, SECRET_KEY)# 依存句法分析text = '噪音...原创 2018-12-20 09:39:44 · 4079 阅读 · 0 评论 -
Python【极简】搜索引擎+倒排索引
搜索引擎TF-IDFWord2VecWord2Vec+TF-IDF倒排索引创建倒排索引,优化检索效率时间复杂度比较图解原创 2019-03-14 19:36:59 · 4147 阅读 · 2 评论 -
Python词性标注HMM+viterbi实现
文章目录完整代码创建HMMemission_probabilitystart_probabilitytransition_probability附录完整代码import numpy as np"""配置"""PATH_TRAIN = 'train.txt' # 训练数据log = lambda p: np.log(p + 1e-9)START = '<start>' ...原创 2019-04-07 10:51:24 · 3626 阅读 · 1 评论