- 博客(453)
- 资源 (21)
- 收藏
- 关注
原创 读懂英文文章所需的单词量
备考托福,GRE需要背上万单词,除去考试通关的因素,就想看看是不是真有必要花时间去背那么多单词。实验使用从初中到GRE不同等级考试要求的单词表,代入Brown文本数据集,评估背会各等级单词后,能看懂多大比例的文本。比如:高中毕业要求4000左右单词量,背会后对于取自不同领域的各种文本,能看懂句中单词的比例是多少。从实验结果可以看到,即使背会了GRE要求的15000+以上,还会有很多词不认识,如一些专业领域的词汇。当然,如果就认识200个词,那也确实太少了。
2022-11-27 16:45:09
407
原创 论文阅读_基于深度学习的异常检测综述
本篇解读的论文发表于2020年,主要介绍基于深度学习的异常检测技术,可作为2009年发表的那篇高引的传统异常检测综述的互补。
2022-11-13 14:57:00
1043
1
原创 论文阅读_异常检测综述
一篇典型的综述文章,快速了解异常检测的定义,用途,方法……发表时间比较早,是机器学习异常检测方法的总结。正文50多页,比较长。
2022-11-13 14:55:55
409
1
原创 论文阅读_模型剪枝_彩票假设
文章介绍了一种针对图像处理的剪枝算法,不同与以往先训练后剪枝的方法,它的目标是直接训练出一个稀疏的子网络,并使子网络性能与稠密网络性能相当。
2022-10-06 14:02:59
876
1
原创 深度学习模型压缩
对于复杂问题建模时,深度学习模型在容纳更多参数的情况下,效果一般更好,但是模型占内存大,预测时间长的,往往限制其在小型或普通配制的硬件上使用。一般使用模型压缩方法给模型减肥。
2022-09-25 10:15:22
489
原创 论文阅读_知识蒸馏_TinyBERT
对BERT模型进行蒸馏,老师模型和学生模型都使用Transformer架构,但是层数和每层的输出维度可以不同,从而实现对模型的精减。
2022-09-24 19:07:00
392
1
原创 论文阅读_对比学习_SimCSE
主要用于提升句嵌入的质量。方法很简单,利用BERT模型本身的dropout性质,通过同一输入输出不同嵌入作为正例对,然后取同一batch下的反例对训练模型。
2022-09-18 09:41:09
271
原创 论文阅读_自然语言模型加知识图谱_DKPLM
自然语言和知识图结合的一种新尝试,几种优化方法比较有意思。尤其是他对长尾信息的分析,很有启发性:即使在无监督学习的情况下,也要尽量使用重要的数据训练模型。
2022-09-11 16:11:31
377
原创 ubuntu 更新
建议安装 LTS(long term support)版本,比如:16.04, 18.04, 20.04, 22.04,一般大版本为双数,小版本为04。
2022-09-03 18:03:33
543
原创 论文阅读_广义加性模型_GAMs
加性模型在模型精度和可解释性间取平衡.其核心原理是针对单个特征建立模型,然后把这些模型加在一起形成最终模型.本文描述了具体实现方法.
2022-08-20 16:38:03
698
2
原创 论文阅读_胶囊网络CapsNet
胶囊是一组神经元,其激活向量能表示特定类型的特征,比如一个对象或对象部分。文中用激活向量的长度表示存在的概率,用方向表示参数。
2022-07-31 17:01:59
310
原创 论文阅读_多任务学习_MMoE
多任务学习效果一般取决于不同任务之间的相关性.文中提出的MMoE(Multi-gateMixture-of-Experts)是对之前方法MoE的改进.主要用于解决多任务相关性小时,同时优化多个目标的问题.比如同时预测用户是否购买及用户满意度.在研究过程中,遇到的问题还有如何衡量不同任务的相关性;如果不让模型由于多任务变得过大和过于复杂.文章贡献提出MMoE结构,构建了基于门控的上层网络,模型可自动调节网络参数.设计了生成实验数据的方法,以便更好的衡量任务相关性对建模的影响。...
2022-07-24 19:40:43
412
原创 啥是图神经网络?
图神经网络的算法原理很简单,假设我是一个实体(比如词),利用我的邻居来算我(红色),我的邻居(蓝色)又根据它的邻居计算(这其中也包括我),经过数次反复迭代,直到表示我们的向量逐渐趋于稳定(不再因为迭代而变化),此时就认为找到了合适的编码.比较推荐之前写的。试试说说我的理解,也不一定对从根本上看,它们都是知识表示,文本向量化.通俗地讲就是把文本编码成一串数,文本可能是一个字("生"),一个词("苹果"),一个短语("你说呢")或者一个句子("我是一个句子")…归根结底,它们都是知识的表示,...
2022-07-17 19:46:10
279
原创 论文阅读_医疗NLP_ SMedBERT
提出SMedBERT模型,将知识注入医疗自然语言模型。它使用大规模的医疗数据,同时又融入了知识图中实体连接的语义结构。
2022-07-17 19:44:25
166
原创 论文阅读_ICD编码_BERT
BERT是常用的自然语言处理深度学习模型, BoiBERT和ClinicalBERT是针对医疗领域预训练的模型,文中提出的架构用于将上述模型通过微调解决医疗实体规范化问题.
2022-07-10 15:22:09
200
原创 论文阅读_ICD编码_TLSTM
论文主要挖掘了**ICD编码之间的层级和相关性**,同时还考虑到**人工描述和ICD标准文本**不同的语言风格,一对多的情况下,**多个对应项的重要性排序**,以及**编码的协同和互斥**。
2022-07-10 15:21:00
233
原创 论文阅读_ICD编码_MSATT-KG
很好地结合了现有的资源和方法:利用**编码的内在关系**,结合了注意力机制,**知识图谱**,**密连接网络**等方法。
2022-07-10 15:19:46
202
原创 论文阅读_医疗NLP模型_ EMBERT
针对医疗领域,利用**知识图中的同义词**(只使用了词典,未使用图计算方法),训练类似BERT的自然语言表示模型。优势在于代入了知识,具体设计了**三种自监督学习方法**来捕捉细粒度实体间的关系。...
2022-07-03 13:14:41
303
原创 论文阅读_中文NLP_LTP
基于**Pytorch**的针对**中文**的**离线工具**,带训练好的模型,**最小模型仅164M**。直接支持分词,命名实体识别等六种任务,六种任务基本都围绕分词、确定词的成份、关系。
2022-07-03 13:12:37
302
原创 论文阅读_ICD编码_MSMN
通过代入外部资源UMLS,论文收集了**每个编码的同义词**,从而弥补了电子病历与ICD编码描述中同义不同词的问题。其算法并没有像之前一些模型那么精巧,但引入外部资源后,效果的确提升不少。...
2022-07-02 22:10:21
143
原创 论文阅读_中文NLP_ELECTRA
ELECTRA由Manning联合谷歌发布,后来哈工大讯飞联合实验室训练了相应的中文模型。精减后的模型效果和BERT差不太多,而模型大小只有BERT的1/10,ELECTRA-small 只有46M。
2022-07-02 22:05:21
86
原创 论文阅读_清华ERNIE
2019年前后清华和百度都提出了名为ERNIE的模型,名字相同,方法不同。清华的ERNIE把**知识图融入了文本的向量**表示,也叫KEPLM,想法比较有意思,模型改进效果:**使用少量数据训练模型时,ERNIE比其它模型效果更好**。从技术角度,它示范了**整合异构数据的方法**。...
2022-07-02 22:03:29
173
android文件管理器源码
2011-07-06
2010年谢彦的android笔记
2011-01-18
android将lib库打包成apk安装
2010-11-18
Android使用XML-RPC实现blog客户端源码
2010-10-29
MSN博客搬家工具的可执行程序和源码
2010-10-21
学习java编程(二)
2009-10-13
学习java编程(一)
2009-10-13
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人