2018年11月_小杨算法屋

12月 11月 10月 09月 08月 07月

原创哈工大LTP本地安装及python调用

LTP即哈工大语言技术平台云，是基于云计算技术的中文自然语言处理服务平台在线使用的网址：https://www.ltp-cloud.com/github网址：https://github.com/HIT-SCIR/ltp模型下载网址：http://ltp.ai/download.html1、安装我主要完成了python安装pyltp，但是在安装的过程中，需要安装VS，不同版本的...

2018-11-27 15:23:25 4890 2

原创 LTP：Model not loaded!

最近在研究中文名字脱敏问题，主要是基于规则的，但是当文书中的中文名字描述比较没有规则时，则只使用规则是很难提取准确的，于是使用哈工大的语义云技术LTP，但是在调试代码时出现了下面的问题：后来查了一下，这个是模型的版本问题，后来将模型的版本换成ltp_data_v3.4.0就好用了，运行成功的图显示如下所示：一定可以哦，有什么问题可以交流...

2018-11-26 08:48:52 2910 7

原创数据脱敏python

最近在对数据做脱敏的事情，第一次接触这方面的，所以将自己的做法记录了下来，希望对大家有所帮助，仅是自己的一点拙见。1、数据脱敏定义数据脱敏(Data Masking)，又称数据混淆、数据漂白、数据去隐私化。是一种为用户提供虚假数据而非真实数据、防止敏感数据滥用的技术，包括静态脱敏（通常在非生产数据库中防止静态数据的滥用）和动态脱敏（生产数据库中传输数据的脱敏）2、任务描述相关单位在...

2018-11-23 11:49:59 8060 4

原创 Transformer的理解

1、seq2seqseq2seq有两个RNN组成，一个是encoder，一个是decoder，举一个翻译的例子：“我是女孩”，翻译“I am a girl”输入序列：x = (x0,x1,x2,x3) ,x0=我,x1=是,x2=女,x3=孩目标序列：t = (t0,t1,t2,t3)=(I am a girl)通过encoder，把x=(x0,x1,x2,x3)映射为一个隐层状态...

2018-11-20 11:07:44 3626

原创 BERT的理解

最近BERT大火，所以最近也开始研究这个模型，将自己的简单认识记录了下来从模型的创新角度看一般，创新不大，但是实验的效果太好了，基本刷新了很多NLP的任务的最好性能，另外一点是BERT具备广泛的通用性，就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果。与最近的语言表征模型不同，BERT基于所有层中的左、右语境进行联合调整，来预训练深层双向表征。只需要增加一个输出层，就可以对...

2018-11-20 09:43:55 71146 8

原创正确率、召回率、F值例子

例子来源：http://bookshadow.com/weblog/2014/06/10/precision-recall-f-measure/某池塘有1400条鲤鱼，300只虾，300只鳖。现在以捕鲤鱼为目的。撒一大网，逮着了700条鲤鱼，200只虾，100只鳖。那么，这些指标分别如下：正确率 = 700 / (700 + 200 + 100) = 70%召回率 = 700 / 14...

2018-11-15 16:47:15 5220

原创 CRF进行实体的识别

最近在研究实体的识别，之前在博客中介绍过基于深度学习的实体识别。实验效果还可以！后来对我们所使用的语料进行了分析发现，语料的描述都是很像的，于是在想用传统的机器学习算法效果如何呢？于是尝试了CRF什么是CRFConditional Random Field：条件随机场，一种机器学习技术（模型）语料格式训练和测试文件必须包含多个tokens，每个token包含多个列。token的...

2018-11-08 19:13:13 3582

原创 ValueError: Cannot feed value of shape (64, 2) for Tensor 'input_y:0', which has shape '(?, 3)'

当我运行text_cnn的深度学习代码时，遇到了下面的问题：ValueError: Cannot feed value of shape (64, 2) for Tensor 'input_y:0', which has shape '(?, 3)'这个问题是，你设置的y输入的维度是3，但是喂入的数据时2，简单的解释为，我输入的数据时二分类数据，但是我的代码为三分类，所以只需要对代码中的...

2018-11-05 11:37:07 15868 10

中文句子向量生成代码

利用现有的python自带的包gensim调用doc2vec进行词向量生成，向量的维度可以自己指定，代码主要是针对中文进行处理的，自己给定训练语料，然后调用该代码可以实现对每一个句子直接给出指定维度的向量

2018-12-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人