词汇的计算机处理
正则表达式;N元语法;词类标注等
XB_please
谢谢
展开
-
NLP学习路径(持续更新)
数学部分:大学本科《高等数学》、《线性代数》和《概率论》这三本书足够应对很大一部分了;nlp基础:《自然语言处理综论》(目前正在写第三版英文版,中文版有第二版);《统计自然语言处理》第二版,宗成庆老师;《Python自然语言处理》;机器学习深度学习:《机器学习》周志华老师;《统及学习方法》李航老师;《深度学习》花书;视频:CS224N;李宏毅老师;...原创 2019-12-14 12:58:41 · 297 阅读 · 0 评论 -
Transformer详解
分享几篇介绍Transformer的文章。1.《Attention is All You Need》2.Transformer各层网络结构详解3.谷歌NIPS论文Transformer模型解读:只要Attention就够了4.哈工大SCIR Lab带你从头了解Transformer这几篇文章介绍的很详细了,里面也有代码实现。...原创 2019-10-12 11:15:46 · 212 阅读 · 0 评论 -
AIS(ACL,IJCAI,SIGIR)(2019)论文报告会,感受大佬的气息...
AlS2019是由中国中文信息学会青工委、杭州钱塘新区管委会、搜狗搜索联合举办的论文报告会。 会议将于2019年5月25日一5月26日,在杭州钱塘新区大创小镇国际创博中心内举办。会议介绍本次会议把ACL(国际计算语言学协会年会)、IJCAI(国际人工智能联合会议)、SIGIR(国际计算机学会信息检索大会)三大会议的精彩内容融为一体,邀请来自国内各地数十所高校及科研企业单位的讲者,将要在这三大会...原创 2019-05-25 17:28:29 · 840 阅读 · 0 评论 -
nlp系列-jieba安装
jieba中文分词工具,具有以下特点:1.三种分词模式:精确模式,全模式和搜索引擎模式;精确模式,试图将句子最精确地切开,适合文本分析;全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。2.词性标注和返回词语在原文的起止位置;3.可加入自定义词典;4.代码对pytho...原创 2019-05-17 17:51:16 · 177 阅读 · 0 评论 -
nltk.book实战
词语索引视图显示一个指定单词的每一次出现,连同一些上下文一起显示。函数名concordance函数名similar函数common_contexts允许我们研究两个或两个以上的词共同的上下文,如monstrous和very。我们必须用方括号和圆括号把这些词括起来,中间用逗号分割。判断词在文本中的位置:从文本开头算起在它前面有多少词。这个位置信息可以用离散图表示。每一个竖线代表一个单...原创 2019-05-28 11:21:09 · 618 阅读 · 0 评论 -
AIS(nlp2019)会议视频回放
会议介绍本次会议把ACL(国际计算语言学协会年会)、IJCAI(国际人工智能联合会议)、SIGIR(国际计算机学会信息检索大会)三大会议的精彩内容融为一体,邀请来自国内各地数十所高校及科研企业单位的讲者,将要在这三大会议上进行报告的论文进行提前预讲。届时,会议将以口头报告及展板展示相结合的形式,共同探讨NLP和IR等领域的前沿发展。会议PPT:链接:https://pan.baidu.co...原创 2019-05-28 11:43:38 · 415 阅读 · 0 评论 -
jieba使用
jieba“结巴”中文分词:做最好的 Python 中文分词组件“Jieba” (Chinese for “to stutter”) Chinese text segmentation: built to be the best Python Chinese word segmentation module.特点1.支持三种分词模式:精确模式,试图将句子最精确地切开,适合文本分析;全模...原创 2019-08-27 09:58:37 · 442 阅读 · 0 评论 -
从Word Embedding到Bert模型:自然语言处理中的预训练技术发展史
转:https://zhuanlan.zhihu.com/p/49271699作者:张俊林 专栏:深度学习前沿笔记目录:1.图像领域的预训练2.Word Embedding考古史3.从Word Embedding到ELMO4.从Word Embedding到GPT5.Bert的诞生本文的主题是自然语言处理中的预训练过程,会大致说下NLP中的预训练技术是一步一步如何发展到Bert...转载 2019-09-27 12:07:44 · 303 阅读 · 0 评论