nlp
yang_live
这个作者很懒,什么都没留下…
展开
-
条件随机场
1 条件随机场概述;条件随机场CRF是自然语言处理的基础模型,广泛应用于中文分词、命名实体识别、词性标注等标注场景。1.1 条件随机场场景假设有一系列照片,我们要去给打标签,在吃饭或是在跑步等等,一张照片上只有张着的嘴巴,他可能是在吃饭也可能是在唱歌,这时候单单依靠照片本身的信息,不足以准确的判断照片中的人的行为。但是如果把这些照片按照时间的顺序来排列起来,它的前一张照片是在吃饭,那有极大的可能这张嘴也是在吃饭。将每一个行为都看成一个随机场,如果找到当前行为前后的行为,有助于当前时刻行为分类,这就是条原创 2020-10-12 15:30:37 · 1761 阅读 · 0 评论 -
信息提取
信息提取信息抽取的定义为:从自然语言文本中抽取指定类型的实体、关系、事件等事实信息,并形成结构化数据输出的文本处理技术信息抽取是从文本数据中抽取特定信息的一种技术。文本数据是由一些具体的单位构成的,例如句子、段落、篇章,文本信息正是由一些小的具体的单位构成的,例如字、词、词组、句子、段落或是这些具体的单位的组合。抽取文本数据中的名词短语、人名、地名等都是文本信息抽取。信息抽取主要包含以下几个关键内容。指代消解;指代消解技术主要用于解决多个指称对应同一实体对象的问题。在一次会话中,多个指称可能指向的是原创 2020-10-12 15:30:21 · 1650 阅读 · 0 评论 -
2020-10-09
基于注意力机制的文本生成:Image-to-text=-with-Visual-Attention训练过程:ai_challenageai_challenage的训练集有3w张,我只在前30000张训练图像上训练了这个模型。最后一层的特征提取VGG需要大约15GB的内存。训练过程中数据集被分成大小为64的批。一个epoch大约需要100秒。我训练了它大约20个周期,一次约一小时左右训练完成。训练结果:coco数据集:ai_challenage数据集下周工作计划:1.加入评价指标2原创 2020-10-10 08:58:26 · 228 阅读 · 0 评论 -
Sinhash文档排重
Simhash理论simhash是一种能计算文档相似度的hash算法。通过simhash能将一篇文章映射成64bit,再比较两篇文章的64bit的海明距离,就能知道文章的相似程序。若两篇文章的海明距离<=3,可认为这两篇文章很相近,可认为它们是重复的文章。Simhash的算法简单的来说就是,从海量文本中快速搜索和已知simhash相差小于k位的simhash集合,这里每个文本都可以用一个simhash值来代表,一个simhash有64bit,相似的文本,64bit也相似,论文中k的经验值为3。该原创 2020-06-19 09:26:35 · 297 阅读 · 0 评论 -
论文阅读-面向图像自动语句标注的注意力反馈模型
文献:吕凡,胡伏原,张艳宁,夏振平,盛胜利.面向图像自动语句标注的注意力反馈模型[J].计算机辅助设计与图形学学报,2019,31(07):1122-1129.主要工作在传统注意力基础上引入反馈机制,利用关注信息的图像特征指导文本生成,借助文本中的关注信息进一步修正图像中的关注区域,解决了传统注意力机制的注意分散问题。技术两种图像语义提取常用技术与ATTENTION结合1.基于全图:...原创 2020-06-19 09:23:43 · 213 阅读 · 0 评论 -
Practice3:分词
作业1:Hanlp安装hanlp工具安装pyhanlp包命令行:pip install pyhanlpfrom pyhanlp import *在python中调用pyhanlp工具会自动安装hanlp.jar包并配置环境测试语句:“今天开心了吗?”‘from pyhanlp import *print(HanLP.segment("今天开心了吗?"))安装成功。2....原创 2020-04-08 14:34:13 · 226 阅读 · 0 评论 -
【lecuure1】深度学习和自然语言处理课
1.语言层次输入:语音输入:音位分析单词结构分析句法分析语义理解一些还涉及到篇章分析原创 2020-03-24 22:47:51 · 136 阅读 · 0 评论 -
文本相似度计算:Jaccard系数,余弦相似度等
基础知识文本相似度计算是把文本投影到向量空间,文本的相似度是把文本投影到向量空间,用向量相似度来表示语义相似度,通过比较计算向量的空间距离来比较文本的相似度。Jaccard系数Jaccard系数是计算两个集合重合度的常用方法:两个集合A和B交集元素的个数在A、B并集中所占的比例,称为这两个集合的Jaccard系数,用符号 J(A,B) 表示。Jaccard系数是衡量两个集合相似度的一种指标,...原创 2020-03-24 22:41:58 · 9337 阅读 · 0 评论 -
P2-计算编辑距离
编辑距离定义:给定两个字符串,两者的编辑距离是将S1转化成S2的最小操作数。如:cat和dog的编辑距离是3.编辑距离算法:实验过程初始化一个二维数组,设置str1长度为行长度,str2长度为列长度。(伪代码第一行)matrix = [[0 for i in range(len(str2) + 1)] for j in range(len(str1) + 1)]初始化矩阵...原创 2020-03-24 19:27:59 · 229 阅读 · 0 评论 -
深度学习笔记(8课时)
分布相似性概念语言学家认为,一个单词的含义是由经常和它一起出现的上下文决定的,“You shall know a word by company it keeps.”w2v模型(google2013)核心思想:基于大量的语料库corpus of text固定词汇表中的每个单词都由一个向量表示文本中的每个位置 t,其中有一个中心词c,和上下文(“外部”)单词o(用固定窗口扫描文本库的句...原创 2020-03-24 16:53:37 · 418 阅读 · 0 评论 -
基于传统计算机视觉特征的图片分类
1 理论知识1.1 局部特征SIFT特点:多量性;支持视角变换,仿射变换,对噪声处理效果好。基本思想:Step1:找关键点用DOG(高斯差分)代替LOG(高斯微分)①用两个不同尺度的高斯核滤波得到的图片相减,可得到边缘。②构建高斯金字塔:金字塔的每一层:用不同参数做高斯模糊,得到多组图片。层与层之间:下层降采样得到上层,每一层包含了不同尺度特征。下层包含细节特征,上层包含大的...原创 2020-03-19 09:55:11 · 1250 阅读 · 2 评论 -
网页爬虫:爬取百度咨询新闻
1.获取网页源码工具:import urllib.requesturllib.request库可以模拟浏览器发送网页请求并获取request的结果。以科技类新闻为例,拟爬取这样一篇文章。首先,发送请求html = "https://baijiahao.baidu.com/s?id=1654779534169792316&wfr=spider&for=pc"requ...原创 2020-03-19 09:54:45 · 2089 阅读 · 0 评论 -
论文阅读:基于多模态词向量的语句距离计算方法
论文信息文章来源:cnki.net添加链接描述文章类别,发表时间华阳. 基于多模态词向量的语句距离计算方法[D].哈尔滨工业大学,2018.摘要原创 2020-02-18 08:19:18 · 846 阅读 · 0 评论 -
K-means文本聚类
理论介绍Kmeans算法k-means算法又称k均值,是一种无监督的机器学习方法,通过多次求均值实现聚类。即无需知道所要搜寻的目标,而是直接通过算法来得到数据的共同特征。如图所示,通过找到合适的K值和合适的中心点,来实现目标的聚类。其具体算法思想实现过程如下:1.指定簇的个数2.随机选取K个中心点3.将每条记录归到离它最近的中心点所在的簇中4.以各个簇的记录均值的中心点取代之前的中...原创 2019-12-30 23:38:05 · 3937 阅读 · 0 评论 -
KNN分类算法
一.理论方法介绍什么是K近邻K最近邻算法是一种监督学习算法。K最近邻指的是:每个样本都可以由离它最近的K个邻居来代表。KNN和SVM算法都是一种距离测度进行分类的算法。思路是:物以类聚。如果样本周围的K个样本都属于某一类,那么样本也应该属于同一类别。K近邻中所选择的邻居都是已经正确分类的对象。因此,KNN的分类结果只取决于和他临近的几个样本的类别。K的选择结果不同会直接影响到分类结果,以...原创 2019-12-21 23:19:42 · 2848 阅读 · 0 评论