自然语言处理
文章平均质量分 73
xieyan0811
算法工程师,终生学习者,《Python大数据与机器学习实战》作者
展开
-
开源的语音合成工具_ChatTTS_用法及资源
ChatTTS 在情绪的可控性显著提升,但对说话人的控制相对较弱。原创 2024-07-20 14:52:19 · 1208 阅读 · 0 评论 -
ChatGPT为什么使用强化学习
自然语言模型针对人提出的问题生成N种答案,由强化学习根据当前情况,选择其中最符合用户偏好的答案。原创 2023-02-04 13:17:56 · 5314 阅读 · 0 评论 -
EasyNLP简介
EasyNLP中文NLP算法框架原创 2022-09-25 10:14:05 · 900 阅读 · 0 评论 -
论文阅读_用字典提升基于BERT的中文标注效果
论文题目:Lexicon Enhanced Chinese Sequence Labeling Using BERT Adapter论文地址:https://arxiv.org/abs/2105.07148这是一篇自表于2021 ACL(NLP顶会)的论文。论文提出将字典融入BERT网络层记作字典加强BERT(Lexicon Enhanced BERT,LEBERT) ,用于提升中文标注效果。新模型在命名实体识别、分词、成份标注实验中均达到了目前最佳水平。简介由于存在分词(CWS)问题,中文面原创 2022-01-23 14:54:57 · 1151 阅读 · 0 评论 -
论文阅读_语义嵌入
论文题目:Making Sense of Word Embeddings相关源码:https://github.com/uhh-lt/sensegram论文地址:https://arxiv.org/abs/1708.03390简介论文是2016年发表于ACL(Association for Computational Linguistics,自然语言处理顶会,一年召开一次,CCF等级/JCR分区:A类)的会议论文。背景知识论文介绍了一种简单有效的方法用于学习语义嵌入。文中方法既可以直接从原创 2022-01-08 08:15:11 · 575 阅读 · 0 评论 -
使用有向无环图实现分词
结巴分词如果搜索”Python 分词”,跳出来的前五个除了广告基本都包括“结巴分词”(Jieba)。可以说它是Python自然语言中使用最广泛的分词工具。它属于基于概率的模型,其原理主要是利用了显性的中文词库(包含常用词及词性和频率)。形如:同时也支持隐马尔可夫模型从数据中训练出的发射概率,转移概率等不易理解的数据。简单地说,分词就是识别句中的词组,然后把句子拆分成尽量大的块。但由于上下文语境不同,拆分时也常常出现规则冲突,比如“研究生命的起源”,既可拆成“研究生 命 的 起源”,也可拆原创 2021-02-28 20:43:03 · 792 阅读 · 1 评论 -
建立垂直搜索引擎&中文分词
关键字:垂直搜索引擎中文分词 nutch tomcat linux 1.说明建立简单的垂直搜索引擎。通过实际操作信息搜索软件,环境配置,了解主要模块的构成,及交互方式。通过修改搜索软件,了解软件架构,接口及插件等运作方式。通过对分词部分的修改,了解了分词原理及主流的中文分词技术及其应用。2.目标利用信息检索工具,搜索http://beijing.cncn.com/网站中原创 2012-05-03 10:26:28 · 2271 阅读 · 0 评论 -
Python实现PDF转TXT
用手机或者Kindle看PDF文档字实太是太小了,总觉得PDF转TXT是个刚需,却一直没找到PDF转TXT的简单方法,最近有空,不妨自己用Python写一个。 将PDF格式转换成纯文本的TXT,虽然会损失掉一些排版和图片,却可以给文件瘦身,也可将其中的文字用于更多场合。 PDF里一般都包含文字和图片,有些文字以图片形式存储,比如大多数以扫描方式制作的PDF图书都使用这种方式,以此方式存储...原创 2019-08-15 13:31:44 · 14604 阅读 · 1 评论 -
Python对网页内容作词云图分析
在线生成词云图WordArt 定制性比较强,支持中文,但是图中的词需要手动输入。https://wordart.com/图悦 支持分析大段文字并生成词云图,但是功能相对比较简单。http://www.picdata.cn/picdata/index.phpPython生成词云图本文介绍使用Python程序生成词云图,它依赖的三方库wordcloud需要编译C++库,在Win...原创 2019-09-26 14:20:27 · 683 阅读 · 0 评论 -
Fasttext快速文本分类
Fasttext源于2016年的论文《Bag of Tricks for Efficient Text Classification》,论文地址:https://arxiv.org/pdf/1607.01759.pdf。论文非常短,加上References不过五页,Model architecture只有一页。深度学习神经网络在自然语言处理中表现非常优秀,但动辄几十层,上亿参数的大型网络速度慢...原创 2020-03-15 09:54:33 · 1182 阅读 · 0 评论 -
轻量级BERT模型ALBERT
BERT有很多改进版本,ALBERT是一个轻量化版本。ALBERT源自2020年的发表论文《ALBERT: A LITE BERT FOR SELF-SUPERVISED LEARNING OF LANGUAGE REPRESENTATIONS》,论文地址:https://arxiv.org/pdf/1909.11942.pdf。从题目可以看出,论文重点是轻量化BERT模型,以及优化了半监督学习,...原创 2020-03-13 12:16:01 · 2487 阅读 · 0 评论 -
机器学习_TF-IDF逆文本频率指数
1. 原理 TF-IDF(term frequency–inverse document frequency)是信息处理和数据挖掘的重要算法,它属于统计类方法。最常见的用法是寻找一篇文章的关键词。 其公式如下: TF(词频)是某个词在这篇文章中出现的频率,频率越高越可能是关键字。它具体的计算方法如上面公式所示:某关键在文章中出现的次数除以该文章中所有词的个数,其中的i是词索引号,j...原创 2019-05-03 19:54:47 · 3508 阅读 · 0 评论 -
随笔_从《芳华》影评到TF/IDF算法
《芳华》的影评说:“为什么好人没好报?”我觉得应该叫:为什么中央空调不被看好?一个典型的TF/IDF算法问题。原创 2017-12-30 11:35:33 · 452 阅读 · 0 评论 -
NLTK中文词性自动标注
NLTK是多语言支持的, 但目前网上的例程几乎没有用NLTK处理中文的,其实可以做。比如标注功能, 它自身提供了带标注的中文语库(繁体语料库sinica_treebank). 下面来看看怎样通过数据训练来实现中文词性自动标注.原创 2017-03-24 09:15:56 · 10287 阅读 · 0 评论 -
用WordNet实现中文情感分析
用WordNet实现中文情感分析原创 2017-03-14 21:15:13 · 15953 阅读 · 4 评论 -
中文自然语言处理工具介绍
自然语言处理是人工智能领域中的一个重要方向。它研究能人机之间通讯的方式,并涉及机器对人类知识体系的学习和应用.从分词,相似度计算,情感分析,文章摘要,到学习文献,知识推理,都涉及自然语言分析.下面介绍一些中文语言语义分析的资源.原创 2017-03-09 16:54:02 · 8615 阅读 · 0 评论 -
定向写作模型CTRL
介绍CTRL全称为Conditional Transformer Language有条件的文本生成模型,它始于Salesforce在2019年发布的论文《A Conditional Transformer Language Model for Controllable Generation》,该模型用于定向写作。论文地址如下:https://arxiv.org/pdf/1909.05858.p...原创 2020-01-03 13:55:57 · 2222 阅读 · 0 评论 -
序列对抗网络SeqGAN
SeqGAN源自2016年的论文《SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient》,论文地址:https://arxiv.org/pdf/1609.05473.pdf。其核心是用生成对抗网络处理离散的序列数据。之前介绍了使用GAN生成图像的方法,由于图像是连续数据,可以使用调整梯度的方法逐步生成图像,而离散数据...原创 2020-03-12 15:50:09 · 10005 阅读 · 4 评论 -
自然语言处理——使用词向量(腾讯词向量)
向量化是使用一套统一的标准打分,比如填写表格:年龄、性别、性格、学历、经验、资产列表,并逐项打分,分数范围[-1,1],用一套分值代表一个人,就叫作向量化,虽然不能代表全部,但至少是个量度。因此,可以说,万物皆可向量化。词向量同理,词也可以向量化word2vec(word to vector),可以从词性、感情色彩、程度等等方面量度,用一套分值代表一个词,从而词之间可以替换,比较。词与向量...原创 2020-03-08 17:49:14 · 5921 阅读 · 1 评论 -
NLP模型应用之三:GPT与GPT-2
GPT模型GPT全称Generative Pre-Training,出自2018年OpenAi发布的论文《Improving Language Understandingby Generative Pre-Training》,论文地址:https://www.cs.ubc.ca/~amuham01/LING530/papers/radford2018improving.pdf。在自然语言处...原创 2020-02-12 14:16:19 · 3833 阅读 · 0 评论 -
NLP模型应用之二:BERT
引入BERT是谷歌在2018年10月发布的自然语言处理模型,它在十一项自然语言任务中打破记录,在有些任务中有显著提高,并超越了人类水平,被誉为开启了NLP的新时代。虽然,在之后又出现了大量新算法,这两年BERT仍然是各大比赛以及产品中的主流算法。论文地址:https://arxiv.org/pdf/1810.04805.pdf。BERT全称为Bidirectional Encoder Re...原创 2020-02-06 18:01:47 · 2193 阅读 · 0 评论 -
NLP模型应用之一:基础知识
引入2018年底发布的BERT模型和2019年初发布的GPT-2模型,开始挑战人类的语言处理能力。二者都基于之前介绍过的Transformer基础模型。对模型的研究有几个层次:研究基础模型、扩展模型、应用模型 研究基础模型 我们熟知的卷积神经网络CNN,循环神经网络RNN,Transformer模型,残差网络ResNet等等,都是底层模型,它们是神经网络应用的基础。 扩展模...原创 2020-01-31 15:29:02 · 542 阅读 · 0 评论 -
Transformer-XL框架
引入Transformer-XL超长上下文的注意力模型,出自CMU和Google Brain在2019年1月发表的论文:《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》。其中XL是extra long的缩写,意为额外长度。论文地址:https://arxiv.org/pdf/1901.02860....原创 2020-01-31 14:53:14 · 1009 阅读 · 0 评论 -
国产的自然语言处理框架ERNIE
看到题目是否引发一些刻板印象?国产的自然语言处理,主要是用于处理中文?有没有用到最前沿的技术?是不是只提供服务,里面是黑盒?是否全面开源并提供模型?平台是否通用?本文将为您一一解答。ERNIE是继BERT,ELMo之后又一个以芝麻街人物命名的自然语言模型。ERNIE全称 Enhanced Language Representation with Informative Entities。...原创 2020-01-07 14:21:27 · 1077 阅读 · 0 评论 -
Pytorch_Seq2Seq与Attention
自然语言处理是典型的序列问题,其底层算法在最近几年迅速发展,比如去年年底发布的BERT在11项自然语言处理任务中表现卓越,今年GPT-2生成文本(写作)的水平也有了显著提高。目前这些最先进的技术都基于Transformer模型,该模型从RNN,LSTM,Seq2Seq,Attention,ConvS2S,Transformer一步步进化而来,还涉及自然语言处理的相关知识,包含的知识点太多,无法...原创 2019-12-18 11:16:38 · 1244 阅读 · 0 评论 -
实战_瑞金医院MMC知识图谱大赛初赛
1. 说明 《瑞金医院MMC人工智能辅助构建知识图谱大赛》是一个天池的自然语言处理相关的比赛,初赛是命名实体识别(Named Entity Recognition,简称NER)。具体说,就是从医学文档里标注出药名,疾病,病因,临床表现,检查方法等十二种实体的类别和位置。这是一个有监督学习,它的训练集是标注好的医学文档。 还是延续以往比赛的思路,找一个类似的简单项目,在其上修修改改,于是找到...原创 2018-12-01 17:51:54 · 3468 阅读 · 5 评论 -
知识图谱之WordNet
1. 说明 今天讨论的是自然语言中的知识抽取和知识表示,换言之,就是如何从大量的书籍文献中剥离出我们关心的所谓“知识”,并将起组织保存成简单可用的描述。 不同的知识类型需要采用不同的知识表示方式,温有奎教授总结了10种知识类型 (具体见参考部分) 。对于静态概念及概念之间关系用面向对象形式来表示,对命题型问题用一阶逻辑来表示,对于系统流程和实验流程等过程性知识用脚本表示法。 静态概念是...原创 2018-09-02 11:32:05 · 20356 阅读 · 1 评论 -
自然语言处理之_SentencePiece分词
1、 说明 SentencePiece是一个google开源的自然语言处理工具包。网上是这么描述它的:数据驱动、跨语言、高性能、轻量级——面向神经网络文本生成系统的无监督文本词条化工具。 那么它究竟是干什么的呢?先举个例子:假设在数据挖掘时,有一列特征T是文本描述,我们需要将其转成枚举型,或者多个布尔型代入模型,即:需要从文本中提供信息构造新特征。...原创 2018-05-26 16:52:43 · 8226 阅读 · 1 评论