自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(39)
  • 资源 (2)
  • 收藏
  • 关注

转载 揭开知识库问答KB-QA的面纱6·深度学习中篇

内容速览语义解析方法的再思考什么是查询图查询图的阶段生成各阶段的特征论文实验与总结在上期,我们介绍了深度学习对传统向量建模KB-QA方法进行提升的一篇代表论文,可以看出它的效果击败了当时所有的传统方法。本期,我们将以深度学习提升语义解析方法的一篇代表作为例,作为深度学习篇的中篇,为大家进一步揭开知识库问答的面纱。我们在揭开知识库问答KB-QA的面纱2·语义解析篇中介绍了传统方法之一的语义解析(Se...

2018-05-30 11:11:49 1848

转载 揭开知识库问答KB-QA的面纱5·深度学习上篇

内容速览向量建模方法的再思考Multi-Column卷积神经网络实验分析与总结自2015年开始,深度学习用于KB-QA的方法取得了很好的效果,并逐渐成为了KB-QA的主流方法。也涌现出了一批使用深度学习提升传统的语义解析、信息抽取和向量建模方法的优秀论文。本期,我们先以深度学习提升向量建模方法为例,作为深度学习篇的上篇,为大家进一步揭开知识库问答的面纱。我们在揭开知识库问答KB-QA的面纱4·向量...

2018-05-30 09:41:59 2174

转载 揭开知识库问答KB-QA的面纱4·向量建模篇

内容速览向量建模的核心思想如何用分布式表达表示答案和问题如何训练分布式表达论文实验与总结本期我们将介绍KB-QA传统方法之一的向量建模(Vector Modeling),我们以一个该方法的经典代表作为例,为大家进一步揭开知识库问答的面纱。该方法来自Facebook公司Bordes A, Chopra S, Weston J的论文 Question answering with subgraph e...

2018-05-29 19:06:13 776 3

转载 揭开知识库问答KB-QA的面纱3·信息抽取篇

内容速览 你是如何通过知识库回答问题的 如何确定候选答案 如何对问题进行信息抽取 如何筛选候选答案 论文实验与总结 本期我们将介绍KB-QA传统方法之一的信息抽取(Information Extraction),我们以一个该方法的经典代表作为例,为大家进一步揭开知识库问答的面纱。该方法来自约翰·霍普金斯大学Yao X, Van Durme B.的 Information Extraction ov...

2018-05-29 16:27:44 1035

转载 揭开知识库问答KB-QA的面纱2·语义解析篇

内容速览 什么是语义解析(Semantic Parsing) 什么是逻辑形式(Logic Form) 语义解析KB-QA的方法框架 实验结果本期我们从传统方法之一的语义解析(有时也被称为语义分析)开始,以一个经典的语义解析baseline方法为例,介绍语义解析如何进行KB-QA。该方法来自斯坦福Berant J, Chou A, Frostig R, et al. 的Semantic Parsin...

2018-05-29 14:18:22 1747

转载 揭开知识库问答KB-QA的面纱1·简介篇

内容速览 什么是知识库(knowledge base, KB) 什么是知识库问答(knowledge base question answering, KB-QA) 知识库问答的主流方法 知识库问答的数据集什么是知识库“奥巴马出生在火奴鲁鲁。”“姚明是中国人。”“谢霆锋的爸爸是谢贤。”这些就是一条条知识,而把大量的知识汇聚起来就成为了知识库。我们可以在wiki百科,百度百科等百科全书查阅到大量的知...

2018-05-29 14:16:28 1414

转载 RDF查询语言SPARQL

前面我们已经介绍过了语义网技术栈中的RDF,RDFS/OWL。这次我们介绍最后一个核心技术标准——SPARQL(RDF,OWL和SPARQL称为语义网的三大核心技术)。RDF本质上是一种数据模型,那么我们如何在RDF上进行查询呢?类似使用SQL查询关系数据库,我们使用SPARQL查询RDF格式的数据。本文先简单介绍一下SPARQL的历史,然后结合我们实践篇的数据举几个具体的例子。一、SPARQLS...

2018-05-29 09:42:22 805

转载 知识图谱基础之RDF,RDFS与OWL

看过之前两篇文章(1, 2)的读者应该对RDF有了一个大致的认识和理解。本文将结合实例,对RDF和RDFS/OWL,这两种知识图谱基础技术作进一步的介绍。其实,RDF、RDFS/OWL是类语义网概念背后通用的基本技术,而知识图谱是其中最广为人知的概念。一、知识图谱的基石:RDFRDF表现形式RDF(Resource Description Framework),即资源描述框架,其本质是一个数据模型...

2018-05-29 09:34:10 800

转载 语义网络,语义网,链接数据和知识图谱

前一篇文章“为什么需要知识图谱?什么是知识图谱?——KG的前世今生”提及了和知识图谱相关的一些早期概念。为了让读者能够更好地区分这些概念,以及更好地在整体上把握知识谱图发展过程,本文将对这些概念作一个更为详细的介绍。一、语义网络(Semantic Network)对于初学者来讲,这个概念很容易和语义网(Semantic Web)相混淆。为了行文一致,除非特别说明,语义网络指Semantic Net...

2018-05-28 18:06:21 3688

转载 为什么需要知识图谱?什么是知识图谱?——KG的前世今生

标题的命名顺序可能让有的读者不太习惯。通常在介绍一个陌生事物的应用前,我们先给出其定义。之所以换个顺序,是为了不让读者一开始就接触比较冰冷生硬的概念刻板描述(后面我尽量用更具体、准确的例子来表达),另一方面也是为了通过现实生活中的例子自然的引入知识图谱的概念。希望通过这种方式加深读者的印象和理解。为了减轻读者理解的负担,我尽可能地避免引入过多的概念和技术细节,将其留到后续的文章进行介绍。言归正传,...

2018-05-28 18:04:17 974

转载 知识图谱概念篇

随着互联网的发展,网络数据内容呈现爆炸式增长的态势。由于互联网内容的大规模、异质多元、组织结构松散的特点,给人们有效获取信息和知识提出了挑战。知识图谱(Knowledge Graph) 以其强大的语义处理能力和开放组织能力,为互联网时代的知识化组织和智能应用奠定了基础。最近,大规模知识图谱库的研究和应用在学术界和工业界引起了足够的注意力。知识图谱旨在描述现实世界中存在的实体以及实体之间的关系。知识...

2018-05-28 16:38:07 4667

原创 LeetCode--Python解析【Reverse Linked List】(206)

题目:方法一:考察链表的操作和遍历新建一个链表创建一个头节点,头节点不用来储存数据,只用指针域然后每次将原始链表的元素插入新链表的头节点后的位置最后返回主链表结束# Definition for singly-linked list.# class ListNode(object):# def __init__(self, x):# self.val = x# ...

2018-05-27 21:45:31 690

原创 LeetCode--Python解析【Insertion Sort List】(147)

题目:方法一:用到的基本概念有两个:链表的插入操作和插入排序方法首先说说链表的插入操作,就是在链表要插入的位置,断开当前链接,然后将前一节点的指针域指向要插入的节点,然后将插入节点的指针域指向下一个节点。插入排序则是将一个新的元素根据大小,插入已排序好的列表中的操作方法的具体代码实现如下构造一个新的链表,每次取原始链表的一个元素,根据大小关系插入新的链表中,最后返回新的链表# Definition...

2018-05-27 20:55:56 992

原创 LeetCode--Python解析【Delete Node in a Linked List】(237)

题目:方法:链表为一种常见的数据结构本题目考察链表节点的删除操作首先取到该节点指针域所指节点的value,赋予node.val然后将指针域所指的下一个节点的地址,赋予node.next完成需要注意的是,由于需要先取到下一个节点的值所以两行语句的顺序不能改变否则取到的值就不是下一个节点的值了这里需要理解一下# Definition for singly-linked list.# class Li...

2018-05-25 19:00:52 810

原创 LeetCode--Python解析【Maximum Gap】(75)

题目:方法:python可以用一种偷懒的方法使用python内置的sort()排序直接一行代码搞定class Solution(object): def sortColors(self, nums): """ :type nums: List[int] :rtype: void Do not return anything, modify n...

2018-05-22 12:48:44 593

原创 LeetCode--Python解析【Maximum Gap】(164)

题目:方法:使用了python中的内置排序方法sort()剩下就是根据题目要求,依次计算差值最后返回最大差值class Solution(object): def maximumGap(self, nums): """ :type nums: List[int] :rtype: int """ res = 0...

2018-05-21 20:13:10 1081

原创 LeetCode--Python解析【Two Sum II - Input array is sorted】(167)

题目:方法一:二分查找的方法由于是顺序数组,所以一次遍历数组中的元素然后求target与该元素的差值从数组中以该元素为开头的子数组中,使用二分查找,寻找等于差值的元素下标组成列表返回class Solution(object):    def twoSum(self, numbers, target):        """        :type numbers: List[int] ...

2018-05-21 16:21:45 817

原创 LeetCode--Python解析【Search Insert Position】(35)

题目:方法一:一个非常简单又实用的方法,用到了python内建的函数sort()和index()体现出了python的简洁之美~这里忠心的想说一句:人生苦短,我用Python~class Solution(object): def searchInsert(self, nums, target): """ :type nums: List[int] ...

2018-05-21 15:16:16 567

原创 LeetCode--Python解析【Plus One】(66)

题目:方法:很简单的一道题,时间复杂度为O(n),首先将数组转换为数字,加一后再转换回数组,最后返回,结束。其中对数组进行了str到int的两次转换。class Solution(object): def plusOne(self, digits): """ :type digits: List[int] :rtype: List[int]...

2018-05-17 17:10:08 608

原创 LeetCode--Python解析【Maximum Subarray】(53)

题目:方法:这道题虽然是easy tag,但是从编程思想上来说还是有一定难度,参考了别人的算法进行完成。算法时间复杂度为O(n),一次遍历数组,对数组进行累加的操作。需要维护两个变量,分别为局部最优curr_sum,和全局最优max_sum。遍历数组时,从第一个元素开始累加,并赋值给局部最优curr_sum,当局部最优为负数时,可放弃对应子串,重置局部最优为0。每一次计算出新的局部最优时,与当前全...

2018-05-17 11:39:32 1470 3

原创 LeetCode--Python解析【Contiguous Array】(525)

题目:方法:首先考虑如何计算具有相同数量的0和1,可以通过将0转换为-1,若长度n的元素之和为0,则说明n个元素中的0与1的个数相等。若前n个元素之和等于前n+j个元素之和,则n到n+j个元素中的0与1个数相等。可以通过2*nums[i] -1的方法,将nums中的0转换为1。接下来创建一个dict,键值为元素累加求和,value为最后一个累加元素的角标遍历的同时,当前元素与dict中键值相同元素...

2018-05-14 16:33:37 1043

原创 LeetCode--Python解析【Binary Tree Inorder Traversal】(94)

题目:首先说说二叉树的遍历,分为,前序,中序和后序遍历前序遍历:根结点、左子树、右子树。中序遍历:左子树、根结点、右子树。后序遍历:左子树、右子树、根结点。方法一:递归递归的方法很简单,反复调用方法本身,当其没有左右孩子时,返回该节点的值,再根据中序遍历的顺序对二叉树进行遍历。代码如下。# Definition for a binary tree node.# class TreeNode:#...

2018-05-14 11:36:09 834

原创 LSTM部分问题汇总详解

题记LSTM(Long Short-Term Memroy Cell)是一种RNN网络的改进结构,相较于传统的RNN网络在处理长序列时有着很多优势这也让它在自然语言处理的多种任务中有着很广范的运用。关于LSTM的具体介绍有很多,大家也可以从我之前的一篇博客  基于Tensorflow的LSTM-CNN文本分类模型  中查看。同时最近看到很多朋友对于LSTM的具体运用产生了一些疑问,而这些问题也是我...

2018-05-13 22:26:51 48530 9

原创 LeetCode--Python解析【Sort Characters By Frequency】(451)

题目:方法:遍历字符串s到字典中,key为s中出现的字符,value为出现次数随后遍历字典,每次将最大值输出value次依次将最大值输出至result中返回result,结束class Solution: def frequencySort(self, s): """ :type s: str :rtype: str """...

2018-05-11 10:44:28 1037

原创 LeetCode--Python解析【Top K Frequent Elements】(347)

题目:方法:首先将nums遍历进字典之中键值为nums中的数字,value为数字出现的次数随后每次求字典中的最大元素的索引,将索引append进list中,并删除该元素重复k次,取出现次数最多的k个元素class Solution: def topKFrequent(self, nums, k): """ :type nums: List[int] ...

2018-05-09 22:45:19 1301

原创 LeetCode--Python解析【Group Anagrams】(49)

题目:方法:首先将strs中的每一个字符串转换为list进行排序,再append进新的list中此时字符串的顺序变为一致,但在strs中的索引没有变化接下来构建一个dict,采用hash table的方法,遍历新的listkey值为字符串,value为出现的索引最后把索引对应的字符串添加进新的列表中输出,结束class Solution: def groupAnagrams(self, s...

2018-05-06 18:22:26 966

原创 LeetCode--Python解析【Set Mismatch】(645)

题目:方法:非常简单的一道题,首先将nums遍历进一个dict,同时找出重复的数字,放入result中下一步在遍历n个整数,找出不在dict中的整数,放入result中返回,结束class Solution: def findErrorNums(self, nums): """ :type nums: List[int] :rtype: Li...

2018-05-05 21:40:48 1090

原创 LeetCode--Python解析【Minimum Index Sum of Two Lists】(599)

题目:方法:首先构造一个dict,将list1遍历到dict中,key为字符,value为list1中字符串对应的索引下一步看list2中的字符串是否在dict中,若在的话求索引之和接下来判断索引之和,预设索引之和为2000构造一个list存放最小索引字符串若小于最小索引之和的话,清空list,将新的最小索引之和对应的字符串放入list若等于最小索引之和,则将字符串append进list中最后返回...

2018-05-05 21:13:47 1073

原创 LeetCode--Python解析【Longest Harmonious Subsequence】(594)

题目:方法:首先创建一个dict,将nums中的数字遍历至dict中,key为数字,value为数字出现的次数然后在dict的key值中查看是否存在差值为1的另一个key值如若存在证明nums中存在差值为1的数组,计算其长度最后返回长度最长的和谐子序列class Solution: def findLHS(self, nums): """ :type num...

2018-05-05 18:39:53 934 1

原创 LeetCode--Python解析【Find All Anagrams in a String】(438)

题目:方法1:创建两个dict,第一个作为窗口,每次滑动一格,里面键值为窗口里出现的字母,value为字母出现的次数。第二个dict是字符串p中字母和出现次数的统计随后在s上滑动dict1,即每次减掉最前面的字符,加上后面一个字符,统计出现次数若dict1==dict2,则把索引放入res列表中class Solution: def findAnagrams(self, s, p): ...

2018-05-05 16:39:10 1103

原创 【TensorFlow】关于tf.nn.sparse_softmax_cross_entropy_with_logits()

tf.nn.sparse_softmax_cross_entropy_with_logits()这是一个TensorFlow中经常需要用到的函数。官方文档里面有对它详细的说明,传入的logits为神经网络输出层的输出,shape为[batch_size,num_classes],传入的label为一个一维的vector,长度等于batch_size,每一个值的取值区间必须是[0,num_cla...

2018-05-04 21:03:27 53322 56

原创 LeetCode--Python解析【Longest Palindrome】(409)

题目:方法:首先设置一个字典dict1,和两个计数器j,zj用来计算回文长度,z统计出现单数次字符的个数字典用来存储出现过的字符和出现的次数出现的字符作为键值,次数作为value构造好字典之后,对字典进行遍历出现双数次数的字符一定可以用来构造回文出现单数次数的字符要构造回文就需要次数-1因为如果  出现单数次的字符  的次数  为单数(这句话比较难理解),就是判断z是单数还是双数回文长度需要+1(...

2018-05-02 22:41:25 1394

原创 基于深度学习问答系统中的语义相似度计算

问答系统问答系统,简称QA,是自然语言处理领域的一类经典问题。问答系统的模式基本上分为两类:1. 由输入的问题在n个候选答案中选取一个最佳的答案。2. 由输入的问题在已有的问题中选取一个语义最相似的问题,将该已有问题的答案作为最终的答案返回。        第一种问答系统类似与京东客服的自动回答系统,很多使用过京东客服或是淘宝客服的同学会知道,当你问关商品或是关于售后以及物流的一些问题时,系统会自...

2018-05-02 20:49:10 8657 1

原创 LeetCode--Python解析【Find the Difference】(389)

题目:方法1:这道题的的解法类似于LeetCode--Python解析【Intersection of Two Arrays II】(350),第一种方法也用list的方法来解将s转为list,然后遍历t中的字符,若存在于s中,则删除s中的该字符若s中无该字符,则证明该字符是被添加的字符,返回该字符class Solution: def findTheDifference(self, s,...

2018-05-01 18:42:06 805

原创 LeetCode--Python解析【Intersection of Two Arrays II】(350)

题目:方法1:每次pop出nums2中的第一个元素,查找nums1中是否存在。若存在,将该元素放入result中,并删除nums1中的该元素。class Solution: def intersect(self, nums1, nums2): """ :type nums1: List[int] :type nums2: List[int]...

2018-05-01 18:14:36 944

原创 LeetCode--Python解析【Intersection of Two Arrays】

题目:方法:首先设置一个dict,遍历num1,将不重复的的数字作为键值放入dict再对nums2进行去重的处理遍历nums2,若数字存在于dict中,则加入result列表最后返回result列表class Solution: def intersection(self, nums1, nums2): """ :type nums1: List[int]...

2018-05-01 17:33:30 834

原创 LeetCode--Python解析【Valid Anagram】

题目:方法:设置两个dict,键值分别为t,与s中出现的字母value为出现的次数遍历两个字符串对比两个dict如果键值对应的value相等则返回True,value不等或键值不同则返回Falseclass Solution: def isAnagram(self, s, t): """ :type s: str :type t: str ...

2018-05-01 17:16:20 716

原创 LeetCode--Python解析【First Unique Character in a String】

题目:方法:利用collections.OrderedDict库创建有序字典遍历字符串,字母为k,下标为value放入字典中遍历字典,value长度为1则返回最后如果未找到不重复的字符,则返回-1class Solution: def firstUniqChar(self, s): """ :type s: str :rtype: int ...

2018-05-01 16:47:54 869

原创 LeetCode--Python解析【Word Pattern】

题目:方法:此题目与LeetCode--Python解析【Isomorphic Strings】非常类似因此也采用同样的思路来解长度不同代表字数不同,直接返回False然后定义两个dict一个用来储存pattern中各字母出现的下标另一个储存str中各单词出现的下标key为字母或单词,value为下标再通过一个循环比较字符串中重复出现的下标是否相同class Solution: def w...

2018-05-01 16:09:55 834 2

sentiment140情感分类数据集

该数据集包含了1,600,000条从推特爬取的推文,可用于情感分析相关的训练。 该数据集包含两个数据文件:测试集(test)和训练集(training) 数据文件没有包含heading,从左到右分别是: (1)推文标注(polarity): 0 = 负面,2 = 中立,4 = 正面 (2)推文的id (3)时间:Sat May 16 23:58:44 UTC 2009 (4)Query (lyx),如果没有query,数值为NO_QUERY. (5)发推的用户:robotickilldozr (6)推文内容

2019-08-03

搜狗新闻文本分类数据集SougoCS

SougoCS数据集,内含11类搜狐新闻文本,近10万条。 搜狗提供的数据为未分类的XML格式。 此资源已经将XML解析并分类完毕,方便使用。

2019-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除