自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

摆渡者

我愿做你的摆渡者,即使只能把你送到岸

  • 博客(8)
  • 资源 (1)
  • 收藏
  • 关注

原创 哈工大LTP本地安装及python调用

LTP即哈工大语言技术平台云,是基于云计算技术的中文自然语言处理服务平台在线使用的网址:https://www.ltp-cloud.com/github网址:https://github.com/HIT-SCIR/ltp模型下载网址:http://ltp.ai/download.html1、安装我主要完成了python安装pyltp,但是在安装的过程中,需要安装VS,不同版本的...

2018-11-27 15:23:25 4890 2

原创 LTP:Model not loaded!

最近在研究中文名字脱敏问题,主要是基于规则的,但是当文书中的中文名字描述比较没有规则时,则只使用规则是很难提取准确的,于是使用哈工大的语义云技术LTP,但是在调试代码时出现了下面的问题: 后来查了一下,这个是模型的版本问题,后来将模型的版本换成ltp_data_v3.4.0就好用了,运行成功的图显示如下所示:一定可以哦,有什么问题可以交流...

2018-11-26 08:48:52 2910 7

原创 数据脱敏python

最近在对数据做脱敏的事情,第一次接触这方面的,所以将自己的做法记录了下来,希望对大家有所帮助,仅是自己的一点拙见。1、数据脱敏定义数据脱敏(Data Masking),又称数据混淆、数据漂白、数据去隐私化。是一种为用户提供虚假数据而非真实数据、防止敏感数据滥用的技术,包括静态脱敏(通常在非生产数据库中防止静态数据的滥用)和动态脱敏(生产数据库中传输数据的脱敏)2、任务描述相关单位在...

2018-11-23 11:49:59 8060 4

原创 Transformer的理解

1、seq2seqseq2seq有两个RNN组成,一个是encoder,一个是decoder,举一个翻译的例子:“我是女孩”,翻译“I am a girl”输入序列:x = (x0,x1,x2,x3) ,x0=我,x1=是,x2=女,x3=孩目标序列:t = (t0,t1,t2,t3)=(I am a girl)通过encoder,把x=(x0,x1,x2,x3)映射为一个隐层状态...

2018-11-20 11:07:44 3626

原创 BERT的理解

最近BERT大火,所以最近也开始研究这个模型,将自己的简单认识记录了下来从模型的创新角度看一般,创新不大,但是实验的效果太好了,基本刷新了很多NLP的任务的最好性能,另外一点是BERT具备广泛的通用性,就是说绝大部分NLP任务都可以采用类似的两阶段模式直接去提升效果。与最近的语言表征模型不同,BERT基于所有层中的左、右语境进行联合调整,来预训练深层双向表征。只需要增加一个输出层,就可以对...

2018-11-20 09:43:55 71146 8

原创 正确率、召回率、F值例子

例子来源:http://bookshadow.com/weblog/2014/06/10/precision-recall-f-measure/某池塘有1400条鲤鱼,300只虾,300只鳖。现在以捕鲤鱼为目的。撒一大网,逮着了700条鲤鱼,200只虾,100只鳖。那么,这些指标分别如下:正确率 = 700 / (700 + 200 + 100) = 70%召回率 = 700 / 14...

2018-11-15 16:47:15 5220

原创 CRF进行实体的识别

最近在研究实体的识别,之前在博客中介绍过基于深度学习的实体识别。实验效果还可以!后来对我们所使用的语料进行了分析发现,语料的描述都是很像的,于是在想用传统的机器学习算法效果如何呢?于是尝试了CRF什么是CRFConditional Random Field:条件随机场,一种机器学习技术(模型)语料格式训练和测试文件必须包含多个tokens,每个token包含多个列。token的...

2018-11-08 19:13:13 3582

原创 ValueError: Cannot feed value of shape (64, 2) for Tensor 'input_y:0', which has shape '(?, 3)'

当我运行text_cnn的深度学习代码时,遇到了下面的问题:ValueError: Cannot feed value of shape (64, 2) for Tensor 'input_y:0', which has shape '(?, 3)'这个问题是,你设置的y输入的维度是3,但是喂入的数据时2,简单的解释为,我输入的数据时二分类数据,但是我的代码为三分类,所以只需要对代码中的...

2018-11-05 11:37:07 15868 10

中文句子向量生成代码

利用现有的python自带的包gensim调用doc2vec进行词向量生成,向量的维度可以自己指定,代码主要是针对中文进行处理的,自己给定训练语料,然后调用该代码可以实现对每一个句子直接给出指定维度的向量

2018-12-21

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除