小基基o_O
GitHub:https://github.com/AryeYellow
码云:https://gitee.com/arye
展开
-
NLP数据标注错误的修正方法
标注数据不纯,导致训练出来的模型不行文章目录图修真方法机器学习基于规则图#mermaid-svg-Ro01SZFqdITcjxSN .label{font-family:'trebuchet ms', verdana, arial;font-family:var(--mermaid-font-family);fill:#333;color:#333}#mermaid-svg-Ro01SZFqdITcjxSN .label text{fill:#333}#mermaid-svg-Ro01SZFqdITc原创 2021-06-09 10:36:26 · 555 阅读 · 1 评论 -
Spark机器学习+中文分词实现文本分类
文章目录1、极简样例代码2、完整代码2.1、下载链接2.2、代码架构图(Maven工程)2.3、效果打印1、极简样例代码手写中文分词算法继承org.apache.spark.ml.feature.Tokenizer,重写createTransformFuncScala手写中文分词算法继承org.apache.spark.ml.feature.Tokenizer,重写createTransformFunc中文分词+TFIDF编码+逻辑回归 => 实现文本分类原创 2021-03-25 17:20:14 · 684 阅读 · 2 评论 -
引进【文章长度】作为特征 来提高 文本分类准确率
场景文章长度特征示例引入文章长度特征示例语料单用分词编码单用文章长度混用合体模型场景其中1和2的文字内容很像,3和4的文字内容很像单用【分词编码+逻辑回归】不能分出原创 2021-03-29 20:37:21 · 305 阅读 · 1 评论 -
内核解析:比较sklearn逻辑回归、朴素贝叶斯、决策树【预测概率】
逻辑回归和朴素贝叶斯是业界常用的有监督分类模型总体而言:逻辑回归较准朴素贝叶斯速度较快决策树较飘(因此,随机森林也会有点飘)通常优先选用逻辑回归下面使用极简文本分类例子进行验证原创 2020-06-17 19:40:08 · 505 阅读 · 0 评论 -
中文舆情分析【实体级】+否定词模型
舆情分析,又称【情感分析】,本质是文本二分类,特殊在于存在否定语境流程分类模型计分方式否定词模型示范语料机器学习(失败)深度学习(失败)手写规则(能实现但很low)合并同flag词(规则提升)否定词常见否定词双重否定不确定否定但减弱不完全否定(不确定)中立反义疑问句假设特殊附录先从每篇文章抽取多个实体,再对每个实体进行情感二分类否定词算法原创 2019-09-24 10:45:49 · 1640 阅读 · 1 评论 -
计算单词在文章中不同位置的权重
场景在信息抽取中,词语在文章中各个位置具有不同的权重。把文章简单分为前中后三部分,某词出现在前面时有较大概率是关键词,出现在其它位置时有较小概率是关键词例如某【日期类】实体在结尾出现的概率较大,故该实体结尾权重较高,在开头和中间出现的词极可能是伪实体通常文章信息权重排序:开头>结尾>中间步骤统计实体在文章出现的位置计算位置密度计算位置权重原创 2020-05-13 09:04:43 · 868 阅读 · 0 评论 -
词向量变种大全Python原创代码:引入词性、引入TFIDF、单位向量、降维
1、词向量引入词性1.1、原理1.2、预设词性特征1.3、完整代码示例1.4、效果比较及改进方向2、词向量-->单位向量2.1、原理2.2、极简代码3、词向量+TFIDF3.1、原理3.2、极简代码3.3、引入TFIDF前后可视化对比4、降维4.1、降到二维并可视化4.2、降到三维并可视化对训练后的词向量,引入预设词性特征应用场景:关键词抽取提升、命名实体识别提升…大家可以根据自身业务场景来选择是否引入词性原创 2020-07-25 11:01:00 · 1302 阅读 · 12 评论 -
信息抽取Python算法总结:词库匹配,词向量,TFIDF,机器学习,深度学习(持续更)
文章目录词典匹配词典匹配升级版:设定阈值、多标签TFIDF词典匹配+词向量TFIDF+词向量LDA词典匹配from jieba import cutlexicon = {'剑圣', '大法师', '守望者', '山丘之王'}def extract(text): return [w for w in cut(text)if w in lexicon]print(extract('剑圣斩杀大法师'))词典匹配升级版:设定阈值、多标签TFIDF词典匹配+词向量TFIDF+词向量原创 2020-09-02 20:51:42 · 1207 阅读 · 0 评论 -
Python监督学习【词分类】算法
基于统计单标签多分类多标签多分类机器学习补充全部分析结果比较阅读扩展:半监督词分类算法前言场景根据关键词来判断一个标题属于什么类型的文章例如《小米雷军用苹果被吐槽,官方回应:不用就是不关心产品》标题里出现小米和苹果,则大概率认为该文章的主题是手机,而此处就是要用算法找出【小米、苹果】这类词及其对应的主题常用方法基于统计、监督分类模型(贝叶斯…)、半监督、无监督模型(词向量…)原创 2020-05-21 09:59:16 · 669 阅读 · 0 评论 -
半监督词分类算法
监督分类模型单标签分类全监督词分类结果半监督词分类结果多标签分类无监督模型近义词扫描找邻居前言全监督词分类算法场景词归类及迭代近义词查找原创 2019-09-20 10:53:30 · 821 阅读 · 0 评论 -
NLP算法Python相近词查找
近义词查找近似词查找相近词查找自然语言处理NLP词向量编辑距离找邻居使用编辑距离查找相近词原创 2020-10-24 21:20:42 · 1739 阅读 · 1 评论 -
【极简】实体识别和消歧
命名实体识别消除歧义TF-IDF句向量(有监督)词周边特征TF-IDF特征(有监督)词向量(无监督)基于规则的内联修改权重方法变种:地名消歧正则表达式原创 2019-07-31 10:01:23 · 1225 阅读 · 0 评论 -
Python新词探索ngram特征统计
Python新词探索新词扫描ngram特征统计统计语言模型词组扫描原创 2019-08-18 11:12:55 · 1364 阅读 · 0 评论 -
特征工程引入首尾词特征
from sklearn.feature_extraction.text import CountVectorizerfrom sklearn.linear_model import LogisticRegressionfrom jieba import lcutxy = '''苹果味牛奶 drink牛奶味苹果 fruit苹果 fruit牛奶 drink香蕉 fruit可乐 drink'''.strip().split('\n')x = [i.split()[0] for i in x原创 2021-04-29 09:14:27 · 92 阅读 · 0 评论 -
用户画像、物品画像、内容画像(不定更)
1、什么是用户画像2、架构2.1、技术2.2、层级标签2.3、用户画像管理平台界面3、标签抽取3.1、普通计算3.2、离散化3.3、业务规则3.4、历史行为3.5、预测未知标签3.6、无监督学习3.7、从文本信息中抽取4、用户分层原创 2021-07-19 18:18:01 · 495 阅读 · 0 评论