自然语言处理与文本检索
文章平均质量分 92
BlackStar_L
Keep Coding, Reading and Writing, for the Data Scientist
展开
-
自然语言处理从零到入门 Attention 机制
Attention 正在被越来越广泛的得到应用。尤其是 BERT 火爆了之后。Attention 到底有什么特别之处?他的原理和本质是什么?Attention都有哪些类型?本文将详细讲解Attention的方方面面。原创 2022-11-08 18:03:46 · 1398 阅读 · 0 评论 -
自然语言处理从零到入门 NLP
每种动物都有自己的语言,机器也是!自然语言处理(NLP)就是在机器语言和人类语言之间沟通的桥梁,以实现人机交流的目的。人类通过语言来交流,狗通过汪汪叫来交流。机器也有自己的交流方式,那就是数字信息。不同的语言之间是无法沟通的,比如说人类就无法听懂狗叫,甚至不同语言的人类之间都无法直接交流,需要翻译才能交流。而计算机更是如此,为了让计算机之间互相交流,人们让所有计算机都遵守一些规则,计算机的这些规则就是计算机之间的语言。原创 2022-11-07 15:01:09 · 2888 阅读 · 1 评论 -
自然语言处理从零到入门 命名实体识别NER
命名实体识别(Named Entity Recognition,简称NER),又称作“专名识别”,是指识别文本中具有特定意义的实体,主要包括人名、地名、机构名、专有名词等。简单的讲,就是识别自然文本中的实体指称的边界和类别。百度百科详情|维基百科详情。原创 2022-11-07 14:22:53 · 1428 阅读 · 0 评论 -
自然语言处理从零到入门 BERT
BERT的全称是Bidirectional Encoder Representation from Transformers,即双向Transformer的Encoder,因为decoder是不能获要预测的信息的。模型的主要创新点都在pre-train方法上,即用了Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的representation。从现在的大趋势来看,使用某种模型预训练一个语言模型看起来是一种比较靠谱的方法。原创 2022-11-07 14:05:04 · 1215 阅读 · 0 评论 -
自然语言处理从零到入门 文本挖掘
每到春节期间,买火车票和机票离开一线城市的人暴增——这是数据再匹配这些人的身份证信息,发现这些人都是从一线城市回到自己的老家——这是信息回老家跟家人团聚,一起过春节是中国的习俗——这是知识每周末流量会有规律性的上升或者下降,这是为什么?国庆长假,使用 iPad 购物比例比平时要高,这时为什么?…而文本挖掘的意义就是从数据中寻找有价值的信息,来发现或者解决一些实际问题。维基百科:文本挖掘,也称为文本数据挖掘,大致相当于文本分析,是从文本中获取高质量信息的过程。原创 2022-11-07 13:38:10 · 2069 阅读 · 0 评论 -
自然语言处理从零到入门 Transformer
Transformer在2017年由Google在题为《Attention Is All You Need》的论文中提出。Transformer是一个完全基于注意力机制的编解码器模型,它抛弃了之前其它模型引入注意力机制后仍然保留的循环与卷积结构,而采用了自注意力(Self-attention)机制,在任务表现、并行能力和易于训练性方面都有大幅的提高。transformer过程。原创 2022-11-07 13:25:01 · 1356 阅读 · 0 评论 -
自然语言处理从零到入门 自然语言理解NLU
自然语言处理(NLP , Natural Language Processing)是使用自然语言同计算机进行通讯的技术, 因为处理自然语言的关键是要让计算机「理解」自然语言,所以自然语言处理又叫做自然语言理解(NLU ,Natural Language Understanding), 也称为计算语言学(Computational Ling uistics)。一方面它是语言信息处理的一个分支, 另一方面它是人工智慧(AI , Artificial Intelligence)的核心课题之一。原创 2022-11-07 12:25:04 · 3028 阅读 · 0 评论 -
自然语言处理从零到入门 自然语言生成NLG
自然语言生成 – NLG 是 NLP 的重要组成部分,他的主要目的是降低人类和机器之间的沟通鸿沟,将非语言格式的数据转换成人类可以理解的语言格式。本文除了介绍 NLG 的基本概念,还会介绍 NLG 的3个 Level、6个步骤和3个典型的应用。原创 2022-11-07 11:28:01 · 1764 阅读 · 0 评论 -
自然语言处理从零到入门 依存句法分析
句法分析(syntactic parsing)是自然语言处理中的关键技术之一,它是对输入的文本句子进行分析以得到句子的句法结构的处理过程。对句法结构进行分析,一方面是语言理解的自身需求,句法分析是语言理解的重要一环,另一方面也为其它自然语言处理任务提供支持。例如句法驱动的统计机器翻译需要对源语言或目标语言(或者同时两种语言)进行句法分析。原创 2022-11-07 00:56:34 · 1034 阅读 · 0 评论 -
自然语言处理从零到入门 Word2vec
Word2vec,是一群用来产生词向量的相关模型。这些模型为浅而双层的神经网络,用来训练以重新建构语言学之词文本。网络以词表现,并且需猜测相邻位置的输入词,在word2vec中词袋模型假设下,词的顺序是不重要的。训练完成之后,word2vec模型可用来映射每个词到一个向量,可用来表示词对词之间的关系,该向量为神经网络之隐藏层。原创 2022-11-07 00:41:16 · 969 阅读 · 0 评论 -
自然语言处理从零到入门 词嵌入
词向量(Word embedding),又叫Word嵌入式自然语言处理(NLP)中的一组语言建模和特征学习技术的统称,其中来自词汇表的单词或短语被映射到实数的向量。 从概念上讲,它涉及从每个单词一维的空间到具有更低维度的连续向量空间的数学嵌入。生成这种映射的方法包括神经网络,单词共生矩阵的降维,概率模型,可解释的知识库方法,和术语的显式表示 单词出现的背景。当用作底层输入表示时,单词和短语嵌入已经被证明可以提高NLP任务的性能,例如语法分析和情感分析。原创 2022-11-07 00:11:32 · 1222 阅读 · 0 评论 -
自然语言处理从零到入门 成分句法分析
句子的组成成分叫句子成分,也叫句法成分。在句子中,词与词之间有一定的组合关系,按照不同的关系,可以把句子分为不同的组成成分。句子成分由词或词组充当。句法结构分析是指对输入的单词序列(一般为句子)判断其构成是否合乎给定的语法,分析出合乎语法的句子的句法结构。句法结构一般用树状数据结构表示,通常称之为句法分析树(syntactic parsing tree)或简称分析树(parsing tree),而完成这种分析过程的程序模块称为句法结构分析器(syntactic parser),也简称分析器(parser原创 2022-11-06 23:04:29 · 541 阅读 · 0 评论 -
自然语言处理从零到入门 词性标注
维基百科上对词性的定义为:In traditional grammar, a part of speech (abbreviated form: PoS or POS) is a category of words (or, more generally, of lexical items) which have similar grammatical properties.词性指以词的特点作为划分词类的根据。原创 2022-11-06 16:30:03 · 536 阅读 · 0 评论 -
自然语言处理从零到入门 分词
分词是 自然语言理解 – NLP 的重要步骤。分词就是将句子、段落、文章这种长文本,分解为以字词为单位的数据结构,方便后续的处理分析工作。比如将:今天的天气很不错转化为:今天的\天气\很\不错百度百科:中文分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。我们知道,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段能通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,不过在词这一层上,中文比之英文要复杂得多、困难得多。原创 2022-11-06 13:40:27 · 883 阅读 · 0 评论 -
自然语言处理从零到入门 词干提取与词形还原
词干提取(百度百科)在词法学和信息检索里,词干提取是去除词缀得到词根的过程(得到单词最一般的写法)。对于一个词的形态词根,词干并不需要完全相同;相关的词映射到同一个词干一般能得到满意的结果,即使该词干不是词的有效根。从1968年开始在计算机科学领域出现了词干提取的相应算法。很多搜索引擎在处理词汇时,对同义词采用相同的词干作为查询拓展,该过程叫做归并。词干提取项目一般涉及到词干提取算法或词干提取器。词干提取(维基百科)原创 2022-11-06 12:12:37 · 1320 阅读 · 0 评论 -
自然语言处理从零到入门 Encoder-Decoder 与 Seq2Seq
Encoder-Decoder模型主要是NLP领域里的概念。它并不是特指某种具体的算法,而是一类算法的统称。Encoder-Decoder算是一个通用的框架,在这个框架下可以使用不同的算法来解决不同的任务。将现实问题转化为数学问题,通过求解数学问题,从而解决现实问题。Encoder又称作编码器。将现实问题转化为数学问题。求解数学问题,并转化为现实世界的解决方案。把两个环节连接起来,用通用的图来表达则是下面的样子:不论输入和输出的长度是什么,中间的向量c长度都是固定的。原创 2022-11-03 16:19:14 · 1135 阅读 · 1 评论 -
从智能对话系统导论,到如何设计第一个对话机器人
从智能对话系统导论,到如何设计第一个对话机器人一、智能对话系统导论1、生活中的 Conversational AI2、一种新的人机交互方式3、一些关于 Conversational AI 的数据4、对话机器人行业产业链及产业图谱5、课程主要部分二、Conversational AI 概览1、什么是Conversational AI?2、对话机器人行业相关领域发展历程示意图3、对话机器人的优势4、对话机器人在学术界的种类5、对话机器人在工业界的种类三、Chatbot(Chichat)1、什么是Chatbot原创 2022-01-21 08:31:25 · 2110 阅读 · 0 评论 -
U1C1 数据挖掘与文本分析的背景与实际应用
U1C1 Background and practical applications of data mining and text analytics一、机器学习 与 数据挖掘 (Machine learning / Data mining)1、机器学习2、数据挖掘二、数据挖掘的跨行业标准流程 CRISP-DM1、商业理解 - Business Understanding2、数据理解 - Data Understanding3、数据准备 - Data Preparation4、建模 - Modeling翻译 2022-02-05 03:51:03 · 593 阅读 · 0 评论 -
U1C2 文本预处理
U1C2 Text pre-processing一、正则表达式 - Regular Expressions1、基本正则表达式模式 Basic Regular Expression Patterns2、析取、分组与优先级 Disjunction, Grouping, and Precedence二、更多正则表达式:替换和ELIZA - More Regular Expressions:Substitutions and ELIZA三、词汇和语料库 - Words and Corpora四、单词标记化 - Wo翻译 2022-02-07 01:32:26 · 1657 阅读 · 0 评论 -
U1C3 介绍SketchEngine和Web语料库研究
U1C3 Introduction to SketchEngine and Web as Corpus research一、Sketch Engine二、单词素描 - word sketch三、一致性 - Concordance四、分布词库 - Distributional Thesaurus五、平行语料库 - Parallel corpus六、 WebBootCat七、术语 - Terminology八、SketchEngine 的其他功能九、网络作为语料库的研究 - Web as Corpus rese翻译 2022-02-07 07:42:37 · 3505 阅读 · 1 评论