NLP与深度学习
桃汽宝
这个作者很懒,什么都没留下…
展开
-
【azcopy】
【代码】【azcopy】原创 2023-07-09 22:31:53 · 302 阅读 · 0 评论 -
经典检索算法:BM25原理
经典检索算法:BM25原理转载 2021-06-02 09:32:19 · 370 阅读 · 0 评论 -
模型ensemble
HUMAN ENSEMBLE LEARNINGBagging, boosting and stacking in machine learningEnsemblesNeural Networks and Ensemble LearningEnsembling neural networks: Many could be better than allkaggle-ensembling-guide原创 2021-04-21 10:29:41 · 359 阅读 · 0 评论 -
baseline
>>> batch_size = 3>>> sequence_length = 6>>> token_type_ids=torch.zeros(batch_size,sequence_length)>>> attention_mask=torch.zeros(batch_size,sequence_length)>>> input_ids = torch.zeros(batch_size,sequence_le原创 2021-01-27 19:47:15 · 122 阅读 · 0 评论 -
ConceptNet
https://blog.csdn.net/itnerd/article/details/103478224转载 2020-12-30 10:59:16 · 467 阅读 · 0 评论 -
modeling_bert.py
model_bert.pyBertEmbeddings类token embeddingssegment embeddingsposition embeddingsBertSelfAttention类三级目录BertEmbeddings类pytorch中nn.Embedding原理及使用https://www.jianshu.com/p/63e7acc5e890token embeddingsdef __init__(self, config): super().__init__()原创 2020-11-12 14:43:24 · 517 阅读 · 1 评论 -
为什么BERT有3个嵌入层,它们都是如何实现的
https://www.cnblogs.com/d0main/p/10447853.html转载 2020-11-11 23:14:30 · 221 阅读 · 0 评论 -
基于python的jieba包中文分词(三)
#中文词性标注import jieba.posseg as psegwords = pseg.cut('我爱北京天安门')for word, pos in words: print('%s %s' % (word, pos))我 r爱 v北京 ns天安门 ns转载 2020-07-13 16:14:02 · 146 阅读 · 0 评论 -
Seq2Seq模型及代码 好的文章
https://mp.weixin.qq.com/s/0k71fKKv2SRLv9M6BjDo4whttps://blog.csdn.net/qq_32241189/article/details/81591456?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-4.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task原创 2020-06-05 22:12:05 · 272 阅读 · 0 评论 -
RNN LSTM 内容讲得好的网址
https://www.jianshu.com/p/30b253561337——RNN的分类https://zhuanlan.zhihu.com/p/30844905——RNN的结构https://blog.csdn.net/qq_39422642/article/details/78676567原创 2020-06-04 15:40:19 · 94 阅读 · 0 评论 -
数据结构与算法——树
数据结构与算法——树1.树的定义及相关术语1.1 定义1.2 特点1.3 形式化1.4 相关术语1.5 树的基本操作2.二叉树2.1 基本概念1.树的定义及相关术语1.1 定义树(Tree)是n(n>=0)个结点的有限集合。当n=0时,该集合满足以下条件:(1)有且只有一个特殊的结点称为树的根(root),根结点没有直接前驱结点,但有零个或多个直接后继结点。(2)根结点之外的其余n...转载 2020-05-02 17:04:45 · 537 阅读 · 0 评论 -
基于python的jieba包中文分词(二)
基于python的jieba包中文分词jieba包载入词典调整词典1、add_word()2、del_word()3、get_FREQ()4、suggest_freq()jieba包载入词典开发者可以指定自己自定义的词典,以便包含 jieba 词库里没有的词。虽然 jieba 有新词识别能力,但是自行添加新词可以保证更高的正确率。可通过以下方法引入词典。 jieba.load_userd...原创 2020-04-18 12:00:24 · 1128 阅读 · 0 评论 -
基于python的jieba包中文分词(一)
基于python的jieba包中文分词jieba包简介安装四种分词模式函数1、jieba.cut(全模式、精确模式)& jiabe.cut_for_search(搜索引擎模式)2、jieba.lcut(全模式、精确模式)& jiabe.lcut_for_search(搜索引擎模式)jieba包简介中文分词不同于英文分词。在英文句子中空格会将词与词分开,因此对其分词十分简单...原创 2020-04-17 22:50:24 · 1099 阅读 · 0 评论 -
NLP Word2Vec原理
https://www.cnblogs.com/pinard/p/7160330.html—— CBOW与Skip-Gram模型基础,霍夫曼树原理https://www.cnblogs.com/pinard/p/7243513.html——基于Hierarchical Softmax的模型https://www.cnblogs.com/pinard/p/7249903.html——基于Negative Sampling的模型...原创 2020-06-01 23:19:07 · 111 阅读 · 0 评论 -
nn.Embedding
nn.EmbeddingWord Embedding代码Word Embedding假如我们使用一个二维向量(a, b)来定义一个词,其中a,b分别代表这个词的一种属性,比如a代表是否喜欢玩飞盘,b代表是否喜欢玩毛线,并且这个数值越大表示越喜欢。对于一个词,我们自己去想它的属性很困难,所以这个时候就可以交给神经网络了,我们只需要定义我们想要的维度,比如100,然后通过神经网络去学习它的每一个属性的大小,而我们并不用关心到底这个属性代表着什么,我们只需要知道词向量的夹角越小,表示他们之间的语义更加接近。转载 2020-06-01 12:10:35 · 349 阅读 · 0 评论