自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(62)
  • 资源 (3)
  • 收藏
  • 关注

原创 【论文阅读】StereoRel Relational Triple Extraction from a Stereoscopic Perspective

2022-02-28 13:14:09 360

原创 序列标注的方法

2021-12-11 21:23:38 437

原创 复杂NER问题

2021-12-11 21:10:19 375

转载 Linux中screen的使用

概述本文转载自https://www.cnblogs.com/mchina/archive/2013/01/30/2880680.html,主要讲述了linux中screen命令的使用,可以用这个命令来实现程序的后台运行,这样即使服务器连接断了,程序也能继续运行。【具体而言】1.使用指令screen -S name 打开新窗口,输入程序运行后,使用快捷键Ctrl+A+D,关闭窗口即可实现程序的后台运行。2.要想重现窗口,使用指令screen -r name。3.要想关闭后台进程,先使用scree

2021-12-09 22:14:58 11304

原创 在服务器(Ubuntu)上,修改默认的python版本3.8==>3.7(不删除原版本)

1、降级python3.7conda create -n py37 python=3.7 anaconda注:他会重新安装所有包,花点时间有的多我在conda命令行安装的安装好后,会有提示:To activate this environment, use$ conda activate py37To deactivate an active environment, use$ conda deactivate2、确定安装好的py37的路径这是我的安装路径,用VScode找

2021-12-09 19:56:48 3564

转载 Word2Vec 怎么将得到的词向量变成句子向量,以及怎么衡量得到词向量的好坏

1.Word2Vec 怎么将得到的词向量变成句子向量1)平均词向量:平均词向量就是将句子中所有词的word embedding相加取平均,得到的向量就当做最终的sentence embedding。这种方法的缺点是认为句子中的所有词对于表达句子含义同样重要。2)TF-IDF加权平均词向量:TFIDF加权平均词向量就是对每个词按照 TF-IDF 进行打分,然后进行加权平均,得到最终的句子表示。3)SIF加权平均词向量:在2016年的论文 A simple but tough-to-beat bas

2021-09-24 20:57:39 877

转载 gensim提供的word2vec主要功能

在gensim中,word2vec 相关的API都在包gensim.models.word2vec中。和算法有关的参数都在类gensim.models.word2vec.Word2Vec中。算法需要注意的参数有:sentences: 我们要分析的语料,可以是一个列表,或者从文件中遍历读出。后面我们会有从文件读出的例子。size:词向量的维度,默认值是100。这个维度的取值一般与我们的语料的大小相关,如果是不大的语料,比如小于100M的文本语料,则使用默认值一般就可以了。如果是超大的语料,建议增大维度.

2021-09-23 14:19:56 266

原创 知识图谱---Neo4J篇

一、什么是Neo4J知识图谱由于其数据包含实体、属性、关系等,常见的关系型数据库诸如MySQL之类不能很好的体现数据的这些特点,因此知识图谱数据的存储一般是采用图数据库(Graph Databases)。而Neo4j是其中最为常见的图数据库。Neo4j是基于Java的图形数据库,运行Neo4j需要启动JVM进程,因此必须安装JAVA SE的JDK,并且JDK版本需要和Neo4j版本兼容。二、Neo4J安装官网下载(下载很慢)https://neo4j.com/download-center/#re

2021-09-01 00:47:07 6312

原创 知识图谱基本概念

一、什么是知识图谱知识图谱就是把很多零散的知识用语义的关系来组成一个有关联的图。知识图谱是一种基于图的数据结构,由节点、边和属性值构成,每个节点表示一个“实体”。知识图谱可以作为认知智能的基石:原因是它能解决语义理解问题,也能解决知识推理问题。本质:基于图的语义网络意在描述客观世界的概念实体事件及其之间的关系,并且对其进行语义建模。目的:早期的目的是把基于早起的文本万维网转换于基于实体连接的语义网,让机器具备认知能力,理解这个世界。分类:垂直领域的知识图谱:指专门的某一个领域,比如医疗、

2021-08-31 01:55:49 1977

转载 Sqlmap在sqli-lab上的一些使用

目录1.get使用方法:2.post使用方法:3.header注入使用方法:4.指定注入的位置:5.盲注使用不接收http body:6.设置多线程(可以设置的最大数量为10,默认为1):7.预测输出:8.持久连接:9.指定数据库的探测10.sqlmap脚本绕过(详细的脚本解释)11.强制设置无效值替换:12.自定义载荷(payload)位置13.sqlmay设置tamper脚本:14.sqlmap设置具体的注入技术:15.查看当前用户以及是否是dba用户16.枚举dbms的

2021-08-19 01:34:11 1201

原创 虚假消息基础概念

虚假新闻(1)广义定义对假新闻的更广泛的定义侧重于新闻内容的真实性或意图。一些报纸认为讽刺新闻是假新闻,因为其内容是假的,尽管讽刺新闻往往是面向娱乐的,并向消费者揭示了它自己的欺骗性。(2)狭义定义(常用)假新闻的狭义定义是故意和可验证的虚假的和可能误导读者的新闻文章。这个定义有两个关键特征:真实性和意图。首先,假新闻包括可以被验证的虚假信息。其次,虚假新闻是用不诚实的意图来误导消费者的。这一定义在最近的研究中被广泛采用。采用狭义的定义的原因有三点:1)假新闻的潜在意图提供了理论和实践价值,

2021-08-08 23:44:00 1265

原创 论文阅读笔记:语义增强的多模态虚假新闻检测

目录总体笔记模型

2021-08-08 22:48:42 403

原创 论文笔记:一种基于多关系传播树的谣言检测方法

依赖关系图模型

2021-08-08 22:44:10 245

转载 ELMo学习

2021-08-08 22:31:50 75

原创 中文NLP笔记

1.中文自然语言处理的一般流程图片发自简书App中文NLP一般流程1. 获取语料语料,是NLP任务所研究的内容通常用一个文本集合作为语料库(Corpus)来源:已有语料积累的文档下载语料搜狗语料、人民日报语料抓取语料2. 语料预处理1.语料清洗留下有用的,删掉噪音数据常见的数据清洗方式 :人工去重、对齐、删除和标注等,或者规则提取内容、正则表达式匹配、根据词性和命名实体提取、编写脚本或者代码批处理等。2.分词将文本分成词语常见的分词算法 :

2021-07-16 02:13:04 551 1

原创 文本数据如何转换成计算机能够计算的数据

文本数据如何转换成计算机能够计算的数据图片发自简书App词袋模型(Bag of Words Model)把文本(段落或者文档)看作无序的集合,忽略语法和单词的顺序,计算每个单词出现的次数实战步骤:例如有三句话语料["机器学习带动人工智能飞速的发展。", "深度学习带动人工智能飞速的发展。", "机器学习和深度学习带动人工智能飞速的发展。" ] 1.引入 jieba 分词器、语料和停用词集合2.对语料进行分词操作,用

2021-07-16 01:24:43 910

原创 Pandas常用操

读取本地EXCEL数据import pandas as pddf = pd.read_excel('/home/kesci/input/pandas1206855/pandas120.xlsx')将字典创建为DataFramedata = {"grammer":["Python","C","Java","GO",np.nan,"SQL","PHP","Python"], "score":[1,2,np.nan,4,5,6,7,10]}df = pd.DataFrame(data)

2021-07-16 00:12:32 524 4

原创 RNN(循环神经网络)

1、为什么需要RNN(循环神经网络)对于普通的神经网络,他们都只能单独的取处理一个个的输入,前一个输入和后一个输入是完全没有关系的。但是,某些任务需要能够更好的处理序列的信息,即前面的输入和后面的输入是有关系的。比如,当我们在理解一句话意思时,孤立的理解这句话的每个词是不够的,我们需要处理这些词连接起来的整个序列; 当我们处理视频的时候,我们也不能只单独的去分析每一帧,而要分析这些帧连接起来的整个序列。以nlp的一个最简单词性标注任务来说,将我 吃 苹果 三个单词标注词性为 我/nn 吃/v 苹果

2021-07-12 17:41:25 903 3

原创 GCN图卷积网络学习

1、什么是GCN在最开始,先梳理一下经常被提到的几个术语的区别和联系,也就是Graph Embedding,Graph Neural Network和Graph Convolutional Network的区别和联系是什么。Graph Embedding图嵌入(Graph Embedding/Network Embedding,GE),属于表示学习的范畴,也可以叫做网络嵌入,图表示学习,网络表示学习等等。通常有两个层次的含义:将图中的节点表示成低维、实值、稠密的向量形式,使得得到的向量形式可以在向

2021-07-12 17:11:25 487

转载 CNN卷积神经网络

参考转载:https://zhuanlan.zhihu.com/p/156926543一、卷积神经网络1、定义卷积神经网络(Convolutional Neural Networks)是一种深度学习模型或类似于人工神经网络的多层感知器,常用来分析视觉图像。卷积神经网络的创始人是着名的计算机科学家Yann LeCun,目前在Facebook工作,他是第一个通过卷积神经网络在MNIST数据集上解决手写数字问题的人。2. 卷积神经网络的架构如上图所示,卷积神经网络架构与常规人工神经网络架构非常相似.

2021-06-29 15:55:13 182

原创 记录pythorch的torchvision下载失败的问题

使用环境:pycharm最后解决办法:直接在中,输入命令:pip install torchvision下载结果:

2021-06-28 15:58:19 424

原创 5、注意力机制和Transformer模型

1、人类的视觉注意力从注意力模型的命名方式看,很明显其借鉴了人类的注意力机制,因此,我们首先简单介绍人类视觉的选择性注意力机制。视觉注意力机制是人类视觉所特有的大脑信号处理机制。人类视觉通过快速扫描全局图像,获得需要重点关注的目标区域,也就是一般所说的注意力焦点,而后对这一区域投入更多注意力资源,以获取更多所需要关注目标的细节信息,而抑制其他无用信息。简单来说,就和我在上一段官方文章中进行的加粗有着异曲同工之妙。人们会把更多的注意力放在ta认为重要需要注意的地方。这样我们更专注于更加重要的细节,减少信

2021-06-25 02:28:48 3827 5

转载 4、迁移学习和预训练模型

王五: 我很好,谢谢!Note right of 王五: 李四想了很长时间, 文字太长了不适合放在一行.李四–>>张三: 打量着王五…张三->>王五: 很好… 王五, 你怎么样?这将产生一个流程图。:```mermaidgraph LRA[长方形] -- 链接 --> B((圆))A --> C(圆角长方形)导出与导入### 导出如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 **文章导出*

2021-06-25 00:27:23 4143

原创 Numpy基础

2021-06-18 17:36:31 54

原创 pytorch1

pytorch基础1、Tensor最基本的操作对象,tensor:tensor就是张量的英文,表示多维的矩阵,比如一维就是向量,二维就是一般的矩阵等等,pytorch里面处理的单位就是一个一个的tensor可以显示的得到其大小这个和numpy很相似,同时tensor和numpy.array之间也可以相互转换运算和numpy也类似x = torch.rand(5, 4)y = torch.rand(5, 4)c = 3加:乘:将 torch.Tensor 放到 GPU

2021-06-15 01:10:00 66

转载 Adam 优化算法

转载于:https://www.jiqizhixin.com/articles/2017-07-12什么是 Adam 优化算法?Adam 是一种可以替代传统随机梯度下降过程的一阶优化算法,它能基于训练数据迭代地更新神经网络权重。Adam 最开始是由 OpenAI 的 Diederik Kingma 和多伦多大学的 Jimmy Ba 在提交到 2015 年 ICLR 论文(Adam: A Method for Stochastic Optimization)中提出的。本文前后两部分都基于该论文的论述和解释

2021-06-14 23:53:06 1271

原创 神经网络的重要概念

文章转载于:https://geektutu.com/post/tensorflow-mnist-simplest.html神经网络的重要概念输入(x)输出(y)、标签(label)输入是指传入给网络处理的向量,相当于数学函数中的变量。输出是指网络处理后返回的结果,相当于数据函数中的函数值。标签是指我们期望网络返回的结果。损失函数(loss function)损失函数评估网络模型的好坏,值越大,表示模型越差,值越小,表示模型越好。因为传入大量的训练集训练的目标,就是将损失函数的值降到最.

2021-06-14 14:49:08 1984

原创 3、Seq2Seq语言生成模型

1.前言:机器怎么理解句子一直是一个难题,以前有人尝试将用句子中出现的词语频率来表达这个句子的含义(TF-IDF)。 也有人想把句子中的词语先向量化,然后再叠加句子中所有向量化的词语来表达一句话。 这些在的确都是一种计算机表达句子含义的方式,但是不一定会非常准确。因为他们都只是一种对词语理解的简单加工方式,有的忽略了词语的表达顺序, 有的忽略了词语的组合模式。这往往导致计算机不能非常准确的理解句子。2.什么是Encoder和Decoder在深度学习中,万物都可向量化,其中有两个问题:1、怎么样从原

2021-06-05 18:47:06 418

原创 2、word2vec ----- CBOW和skip-gram理解

一、什么是word2vecword2vec,即词向量,就是一个词用一个向量来表示。Word2Vec是用来生成词向量的工具,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。是2013年Google提出的。word2vec工具主要包含两个模型:跳字模型(skip-gram)和连续词袋模型(continuous bag of words,简称CBOW),以及两种高效训练的方法:负采样(negative sampling)和层序softmax(hierarchical softmax)。

2021-06-05 15:03:22 837

原创 1、TF-IDF算法学习

说明:文章中的学习内容和图片取自莫烦python的视频。1、何为TF-IDF?TF—词频(Term Frequency):表示词条在文章中出现的次数(频率);例如下图:IDF—逆文件频率指数(Inverse Document Frequency):所有的词在这个系统中的区分力的大小;例如下图:如果这个系统中每一篇文章中都有重复出现“我”这个字的时候,那么“我”这个字在任意一篇文档中的区分力就不强。如果搜索的时候关键字用的是“莫烦”,然鹅整个系统中叫莫烦的人又能有多少呢?所以“莫烦”这个词的区分力.

2021-06-03 18:34:35 300

原创 Dijkstra算法

基本思想:      Dijkstra算法(迪杰斯特拉算法),用于解决单源最短路问题,即给定图G和起点s,通过算法得到s,到达每个顶点的最短路径。      Dijkstra算法的基本思想是:对图G(V,E),设置一个集合S,用于存放已访问过的点。然后每次都从集合V-S(未在...

2021-06-02 21:44:42 236

原创 前端学习1-HTML

空格:&nbsp段落:<p> </p> 每个段落占单独行,不同段落重新起行。水平线:<hr>斜体:<i>标题:<h1> .......</h1>加粗:<b>换行: <br>图片:<img src="相对地址">无序列表:<ul type=""> <il> </il> </ul>有序列表:<ol type=""&.

2021-06-02 21:42:15 63

原创 广度优先遍历

基本内容:广度优先遍历,是以广度为第一关键词,当碰到分岔路口的时候总是先依次访问从该岔路道口能直接到达的所有结点,然后在按这些结点被访问的顺序去依次去访问他们能直接到达的所有结点,以此类推,直到所有结点都被访问为止。类似于一颗石头落在水里,水花总是以石头为中心,并以同心圆的方式向外扩散至整个水面。实现:广度优先搜索总是用队列来实现,且总是按层次的顺序进行遍历,其基本写法如下:void BF...

2020-01-23 22:56:20 353

原创 并查集

定义:并查集是一种维护集合的数据结构,他的名字中,“并”,“查”,“集”分别取自合并,查找,集合。所有说,并查集支持下面两个操作:合并:合并两个集合。查找:判断两个元素是否在一个集合。那么我们用什么实现并查集?答案:数组。 int father[N];其中,father[i]表示元素i的父亲节点。例如:如果father[i]=i,则说明元素i是该集合的根节点,但是对于同一个...

2020-01-22 16:40:55 1214

原创 迷宫问题----深度优先遍历

什么是深度优先搜索:深度优先搜索是一种:枚举所有完整路径以遍历所有情况的搜索方法。  我们可以想象我们正在走一个迷宫,没有上帝视角也没有通信设施,我们只能一条路一条路的去试(枚举),以当前位置为起点,沿着一条路走,碰到岔路口的时候,选择其中一个岔路口前进,如果选择的的这个岔路口是死路,就退回这个岔口道,然后选择另一个岔路前进。如果这个岔口道的所有道路都是死路,那么就退回到上一个岔口道,选择一条...

2020-01-20 15:00:21 605

原创 全排列--深度优先搜索

什么是全排列:  例如有一个字符串是由1 2 3构成,则这个字符串还可以写成1 2 3 ,1 3 2 ,2 1 3 ,2 3 1 ,3 1 2 ,3 2 1.这就是全排列。什么是深度优先搜索:深度优先搜索是一种:枚举所有完整路径以遍历所有情况的搜索方法。  我们可以想象我们正在走一个迷宫,没有上帝视角也没有通信设施,我们只能一条路一条路的去试(枚举),以当前位置为起点,沿着一条路走,碰到岔...

2020-01-19 16:35:11 261

原创 在最小堆中进行插入操作,然后进行顺序输出

在看本章前需要先了解最小堆的构建以及堆排序:连接:最小堆:https://blog.csdn.net/weixin_43570155/article/details/103946065堆排序:https://blog.csdn.net/weixin_43570155/article/details/103946522在堆中增加一个值:直接插入到新元素的末尾,在根据句情况判断元素是否需要向上...

2020-01-12 18:02:17 238

原创 堆排序

实现原理:比如我们现在要进行从小到大的排序,则我们可以先建立最小堆(之前写过最小堆的建立,网址 https://blog.csdn.net/weixin_43570155/article/details/103946065),然后每次删除顶部元素(删除后将最后一个元素插入至根节点)并将顶部元素输出或者放入一个新的数组中,直到堆为空位置。最终输出的或者存放在新数组中的那个数就是已经排序好了的。...

2020-01-12 16:41:03 80

原创 最小堆的构建

堆是什么?是一种特殊的完全二叉树,such as:但是这个二叉树有一个特点,就是所有的父节点都比子节点要小,符合这样特点的完全二叉树我们称为最小堆。反之,如果所有父节点都要比子节点要大,这样的完全二叉树称为最大堆。如何构建堆如下图所示,我们先把一串数字存储在数组里面,因违反二叉树存在一个节点下标i的左子树下标是2i,右子树的下标是2i+1;所以我们存在二维数组里面也可以很好的查找到一个节...

2020-01-12 15:30:11 1454

原创 纸牌游戏——小猫钓鱼

一、游戏规则将一副扑克牌平均分成两份,每人拿一份。小哼先拿出手中的第一张扑克牌放在桌上,然后小哈也拿出手中的第一张扑克牌,并放在小哼刚打出的扑克牌的上面,就像这样两人交替出牌。出牌时,如果某人打出的牌与桌上某张牌的牌面相同,即可将两张相同的牌及其中间所夹的牌全部取走,并依次放到自己手中牌的末尾。当任意一人手中的牌全部出完时,游戏结束,对手获胜。(小哼和小哈手中牌的牌面只有1~9)二、题目分析...

2020-01-11 22:40:30 2108

实体关系联合抽取.pdf

实体

2021-12-11

web课设2019上学期.zip

课设--我 的家乡,HTML,CSS,轮播图

2020-05-02

数据仓库与数据挖掘脑图总结_by_hql.zip

学习总结内容。。

2020-03-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除