算法模型 - 高阶篇
文章平均质量分 92
算法模型 - 高阶篇
文晓武
专注搜索推荐问答推荐工程领域,涉及到的技术有:Java、ElasticSearch、SpringBoot、SpringCloud、Dubbo、Linux、Docker、Sql、Kafka、RabbitMQ、RocketMQ、MyBatis、XXl-Job、Zookeeper、Nginx、Redis、Tomcat、Git、SVN、Maven、K8S等,每周不定期更新精华文章!
展开
-
NLP 隐含马尔可夫链(HMM)模型的简单介绍
前言 随着大规模语料库的建立,以及统计学、机器学习方法的研究和发展,基于统计的中文分词算法逐渐成为主流。 基于统计分词的详解 主要思想:把每n(n>=1)个相邻的字(可重叠)看作是一个待识别的词,如果待识别的词在不同文本中出现的次数越多,就说明这待识别的词很可能就是一个词。因此,我们可以利用字与字相邻出现的频率来反应组成词的可靠度,统计语料中相邻共现的各个字的组合的频率,当频率高于某一个临界值的时候,便可以认为该字的组合可能是一个词。 基于统计的分词算法: ..转载 2022-04-25 08:14:56 · 516 阅读 · 0 评论 -
达摩院命名实体识别及其在阿里小蜜的应用(v2020-05-11)
今天我们将围绕主题,分享以下三个方面:首先对命名实体识别(NER)这个任务做一个问题定义,再基于一篇Survey论文去介绍解决NER问题的统一框架。然后会详细介绍前沿的一些研究工作,重点基于ACL18和arXiv19这两篇论文来探讨中文命名实体识别中关于引入词汇信息的工作。最后简单介绍一下实体识别技术在我们阿里小蜜的应用场景。01 问题定义及基本框架命名实体识别是信息抽取的一个子任务,能够从非结构化文本中识别出特殊含义的词汇或专有名词。这个特殊含义其实是“用户自定义”的语义类别,比如说是一些转载 2022-04-25 08:04:57 · 850 阅读 · 0 评论 -
通俗理解 Word2Vec 之 Skip-Gram 模型
作者丨天雨粟知乎专栏丨机器不学习地址丨https://zhuanlan.zhihu.com/p/27234078一、写在之前这次的分享主要是对Word2Vec模型的两篇英文文档的翻译、理解和整合,这两篇英文文档都是介绍Word2Vec中的Skip-Gram模型。下一篇专栏文章将会用TensorFlow实现基础版Word2Vec的skip-gram模型,所以本篇文章先做一个理论铺垫。原文英文文档请参考链接:-Word2Vec Tutorial - The Skip-Gram ...转载 2022-04-25 07:46:12 · 397 阅读 · 0 评论 -
图解Word2vec,读这一篇就够了(通俗易懂)
大数据文摘出品作者:Jay Alammar编译:张秋玥、毅航、高延、龙心尘嵌入(embedding)是机器学习中最迷人的想法之一。 如果你曾经使用Siri、Google Assistant、Alexa、Google翻译,甚至智能手机键盘进行下一词预测,那么你很有可能从这个已经成为自然语言处理模型核心的想法中受益。在过去的几十年中,嵌入技术用于神经网络模型已有相当大的发展。尤其是最近,其发展包括导致BERT和GPT2等尖端模型的语境化嵌入。BERT:https://jalammar..转载 2022-04-02 04:42:54 · 23837 阅读 · 7 评论