自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(36)
  • 收藏
  • 关注

原创 图相似度计算:SimGNN: A Neural Network Approach to Fast Graph Similarity Computation论文分析

图相似度计算SImGNN

2022-12-06 12:07:41 1376 1

原创 深度学习模型--图神经网络复杂度分析

深度学习模型--图神经网络复杂度分析

2022-11-17 19:10:45 3573

原创 torch.mean和torch.max输出不一样

纠错

2022-07-05 21:44:45 248

原创 Python基础知识总结(第五部分)

模块:每个.py文件就是一个模块。以主程序形式运行程序。:if __name__ = 'main' :编码格式:GBK,UTF-8....文件读写操作俗称IO操作常用的文件打开方式:文件对象常用方法os模块是和操作系统和文件系统相关的模块:os.getcwd()os.listdir('c/:sys/')使用os模块操作目录:import os.path例如:os.path.join('目录','文件名')os.walk(path) #遍历所有文件...

2022-06-04 21:59:08 142

原创 Python基础知识总结(第四部分)

编程的两大思想:面向过程和面向对象类和对象python中一切皆为对象(3,int ,a, list)类:class Student: ##单词首字母大写,其余小写 native_pace='吉林' ##直接写在类里的变量称为类属性##初始化方法 def __int__(self,name,age): self.name=name ##实例属性 self.age=age self.

2022-06-04 16:41:43 180

原创 Python基础知识总结(第三部分)

函数的创建和调用:def 函数名(输入参数):函数体return xx形参,实参传参(位置、关键字)函数返回值:1.返回为多个值时,结果为元组。2.没有返回值,return可以省略。函数参数的默认值:例:def fun(a,b=10):print(a,b)fun(100) ##将100给afun(20,30) ##用30替换b的默认值10参数的传递:变量的作用域:局部变量:只在函数内不有效,函数外无效,可以使用global声明,将其声明为全局变量。全局变量:函数体外定义的变量,可作用于函数的内外。pytho

2022-06-04 08:54:50 84

原创 Python基础知识总结(第二部分)

字符串常用操作:字符串查询操作:index:第一个出现的位置,不存在抛出异常find:不存在不会抛出异常,不存在返回-1rindex:最后一个出现的位置rfind##建议使用find进行索引字符串大小写转换:upper():把所有小写转换成大写lower():把所有大写转换为小写swapcase():小写转换成大写,大写转换成小写capitalize():第一个字符转换为大写,其余转换为小写title():每个单词的首字母大写,其余小写字符串对齐操作:center():居中对齐,两个参数,第一个指定总长度,

2022-06-03 20:02:30 1134

原创 Python基础知识总结(第一部分)

转义字符和原字符:转义字符包括 :字符串前加字母"r"表示后面字符串中不进行转义>>> print(r'http:\\www.baidu.com')http:\\www.baidu.com数据类型:int float bool str数据类型的相互转换:int() float() str()python中的运算符:算数运算符:注意的:/除 //除向下取整 %除取余。比较运算符:>布尔运算符:and,or,not,in, not...

2022-05-30 16:19:17 92

原创 Pytorch主要组成模块

参考资料:课程内容链接:https://github.com/datawhalechina/thorough-pytorch教程视频链接:https://www.bilibili.com/video/BV1L44y1472Z导入包的方式import osimport numpy as npimport torchimport torch.nn as nnfrom torch.utils.data import Dataset, DataLoaderimport torch.opti

2022-05-18 22:39:05 317

原创 Pytorch的简介、安装和相关基础知识

参考:https://github.com/datawhalechina/thorough-pytorchhttps://gitee.com/datawhalechina/thorough-pytorch简介和安装简述:PyTorch是由Facebook人工智能研究小组开发的一种基于Lua编写的Torch库的Python实现的深度学习库,应用量已经远远超过TensorFlow。优势:简洁、上手快、项目开源、更好调试安装:1.Anaconda安装。2.检查安装的硬件环境配置,关注有无NV

2022-05-16 16:18:32 149

原创 异质网络模型metapath2vec算法

metapath2vec: Scalable Representation Learning for Heterogeneous Networks摘要:我们研究异构网络中的表征学习问题。其独特的挑战来自于多种类型的节点和链路的存在,这限制了传统网络嵌入技术的可行性。我们开发了两个可扩展的表示学习模型,即metapath2vec和metapath2vec++。metapath2vec将基于元路径的随机行走形式化,以构建节点的异构邻域,然后利用异构跳格模型来执行节点嵌入。metapath 2 vec++模型

2022-04-19 10:19:05 4668 1

原创 异质网络模型HetGNN论文总结理解

论文题目:Heterogeneous Graph Neural Network论文来源:KDD 2019论文链接:https://www3.nd.edu/~dial/publications/zhang_2019_heterogeneous.pdf代码链接:https://github.com/chuxuzhang/KDD2019_HetGNN1.摘要部分:HetGNN同时考虑到节点异质的内容信息(节点的不同属性信息的融合),以及图中异质的结构信息。两个模块:第一部分,通过编码异质内

2022-04-14 17:30:36 5310

原创 FANG: Leveraging Social Context for Fake News DetectionUsing Graph Representation论文阅读笔记

利用图表示的社会背景检测假新闻(1)一种图像表示,模拟所有社会参与者的交互。(2)提出了事实新闻图(FANG),这是一个归纳的图学习框架,可以有效地捕捉社会结构和参与模式,从而提高表示质量。(3)模型在有限的训练数据的情况下是稳健的(4)可推广到相关任务,如新闻媒体报道的真实性(5)Fang的可解释性得益于循环聚合器的注意力机制方法:1.定义假新闻检测问题2.社会情境图方的构建过程及其基本原理3.描述了从社会实体中提取特征的过程以及它们之间交互的建模1.三

2022-04-10 09:31:53 223

原创 注意力机制个人总结

输入:一堆向量(文字、语音、图...)输出:1.一个节点一个label(输入输出对应)2.整个序列有一个label(输入的序列对应一个输出)3.模型决定自己输出数目(如:翻译)self-attention框架如图,每一个输出对应所有位置的输入, 每一个位置的输入需要计算和其他位置输入的相似度,计算方法为:wq和wk为超参数,a为最终计算的相似度结果每一个输入对应一对q k,q查询向量 ,k被查向量,通过上述操作求出哪个向量和a1最相关,qk是位置关系,那如..

2022-04-07 10:21:42 355

原创 Fake News Detection on News-OrientedHeterogeneous Information Networks throughHierarchical Graph A

论文链接:https://arxiv.org/abs/2002.04397HGAT:假新闻检测的分层图注意力网络 - 简书思想:假新闻的检测不仅和内容相关,和其相关背景有关,作者选择了新闻的创作者(creators)和新闻主题(subjects)作为背景进行假新闻检测,作者搜集了creators和subjects的相关资料作为信息补充,进行假新闻的检测。方法:使用HGAT的异质网络模型(双层注意力,节点注意力机制和节点类别注意力机制)。HGAT可以通过反向传播以端到端的方式进行优化。HGAT

2022-04-06 15:36:54 1047

原创 解决cuda out of memory

问题:pytorch默认使用第一块显卡 cuda o ,在运行bert代码时,因为长文本,我把padsize调到512。导致显存不足,会占用大量的显存。程序会反复报Runtime Error,cuda out of memory的错。分析:服务器有三块显卡0,1,2。为啥空间不足,原来pytorch在初始化的时候会默认在第0块显卡上进行,这就导致,在第0块显卡空闲内存不多时,反复报错解决:通过几行代码解决问题开头添加:import osos.environ["CUDA_VIS

2022-03-30 16:48:24 5261 1

原创 Linux相关操作解决OSError: [Errno 28] No space left on device

1.df -h 以容易阅读的方式显示显示磁盘的使用情况看到sda2系统盘已经满了2.进入到每个目录下 输入 du -sh * 能够定位到占用空间最大的目录3.然后使用命令 fdisk -l发现自己有sdb,但是没挂上,一会挂上对比下效果4. 如何将sdb空间挂载到目录下: (1)sudo parted /dev/sdb (2) mklabel gpt 分区 (3) mkpart primary 0% 50% 给自己划分50%...

2022-03-22 15:13:16 3291

原创 论文写作和排版流程

目录一、论文撰写基本流程二、撰写技巧和方法三、word排版技巧一、论文撰写基本流程 选题具有创新性,前瞻性,普适性 ······ 选题流程:1.提出问题(将兴趣问题转换为研究课题?)二、撰写技巧和方法 1、制定计划,每天写##字,笔记,整理数据,与导师讨论···· 2、框架: (1)题目 (2)原创声明 (3)摘要 研究目的+方法+...

2022-02-27 10:37:27 897

原创 文本分类一些总结

FastText: 适用于文本长度长,且速度需求高的场景TextCNN:适用于短文本场景,不适合长文本,引文卷积核尺寸不会太长,无法捕获长距离特征DPCNN:对TextCNN的改进在Region embedding时不采用CNN那样加权卷积的做法,而是对n个词进行pooling后再加个1x1的卷积,因为实验下来效果差不多,且作者认为前者的表示能力更强,容易过拟合 使用1/2池化层,用size=3 stride=2的卷积核,直接让模型可编码的sequence长度翻倍(自己在纸上画一下就get啦)

2022-02-18 23:32:35 3448

原创 python数据处理总结

1.numpy2.pandasSeries:s=pd.Series(np.arange(3))输出:0 01 12 2dtype: int32替换索引列:s=pd.Series(np.arange(3),index=['a','b','c'])DataFrame:从df中提取两列生成新的DataFrame:df_new = DataFrame(df, columns = ['May 2018', 'Change.1'])给某一列赋值:

2022-02-18 20:31:10 365

原创 LDA主题模型实现

整体过程就是:一、首先拿到文档集合,使用分词工具进行分词,得到词组序列;二、为每个词语分配ID,既corpora.Dictionary;三、分配好ID后,整理出各个词语的词频,使用“词ID:词频”的形式形成稀疏向量,四、使用LDA模型进行训练。五、inference进行主题推断代码实现:第二步和第三步dictionary = corpora.Dictionary(texts) corpus = [dictionary.doc2bow(text) for ...

2022-02-13 20:26:23 2007

原创 sklearn评价指标

https://blog.csdn.net/weixin_39450145/article/details/115284725?spm=1001.2101.3001.6650.15&utm_medium=distribute.pc_relevant.none-task-blog-2~default~BlogCommendFromBaidu~Rate-15.pc_relevant_default&depth_1-utm_source=distribute.pc_relevant.none-task-blog-

2022-02-12 11:21:39 717

转载 sklearn数据集划分方法

Sklearn中不同的数据抽样验证方式_#苦行僧的博客-CSDN博客这里记录以下import语句的前4个抽样方法:from sklearn.model_selection import (train_test_split, KFold, StratifiedKFold, Stratif...

2022-02-07 20:46:08 1783

转载 NLTK word_tokenize 抛出 IndexError: list index out of range

NLTK 3.6.6 这个版本千万不要用!!!!!!!!!!!!!!!!!!!NLTK word_tokenize throws IndexError: list index out of range | GitAnswer I am working on some NLP experiments, where I want to tokenize some texts from users. For that I am using NLTK right now, but I noticed an

2022-01-24 15:48:13 590

原创 自然语言处理实验

跨象乘云的个人空间_哔哩哔哩_Bilibili跨象乘云,广州跨象乘云软件技术有限公司;人工智能科研教学一体化实验平台|人工智能专业建设|人工智能实验室 | 项目案例|网址:https://www.080910t.com/;跨象乘云的主页、动态、视频、专栏、频道、收藏、订阅等。哔哩哔哩Bilibili,你感兴趣的视频都在B站。https://space.bilibili.com/189064479/channel/collectiondetail?sid=701611.文本分析2.文本分词3.词性标注

2022-01-20 14:40:11 1554

原创 论文:Graph Convolutional Networks for Text Classification

TextGCN:使用图卷积网络进行文本分类,基于词共现和文档词关系为语料库构建一个单独的文本图,word和document的初始向量为one-hot表示。通过GCN的学习其嵌入表示,下游分类任务优于现有方法。优势:图神经网络由于具有丰富的关系结构,能够在图嵌入中保存全局的结构信息。GCN的方法不再赘述,主要讲述构图的方法,以“O”开头的节点是文档节点,其他节点是单词节点。黑色粗体边是文档-单词边,灰色细边是单词-单词边。R(x)表示x的表示(embedding)。不同的颜色意味着不同的文

2022-01-18 21:44:14 2889

原创 论文:Heterogeneous Graph Attention Networks for Semi-supervised Short Text Classification

概述:提出了异构图注意网络(Heterogeneous Graph ATtention networks, HGAT),在基于节点级和类型级注意的双层注意机制的基础上嵌入文本分类HIN。注意机制可以学习到不同相邻节点的重要性,以及不同节点(信息)类型对当前节点的重要性。...

2022-01-18 20:45:45 1553

原创 文本分类理论代码实践全过程

深度学习Bert文本分类理论部分机器学习方法:朴素贝叶斯、SVM、LR、KNN深度学习方法:FastText、TextFCNN、TextRNN、TextRCNN、DPCNN、BERT基本流程一、文本预处理1.文本去噪2.文本分词3.去停用词(the a 了 的)4.文本还原 (playing --play)5.文本消歧6.文本替换二、特征提取1.词频特征2.词性特征3.语法特征4.主题特征5.N-Gram6.TF-IDF三、文本表示

2022-01-15 21:09:02 4484 3

原创 指代消解or共指消解任务主要论文

原文链接:https://blog.csdn.net/weixin_44912159/article/details/105656866具体内容为:最近需要完成指代消解(共指消解)的任务,主要是用深度学习做,便有了以下的调研,不足之处,可积极指出论文:16年Clark等人发表《Improving Coreference Resolution by Learning Entity-Level Distributed Representations》????个人建议:有时间可以阅读论文下载:ht

2021-10-29 20:04:09 573

原创 twitter数据获取方式

从论文中摘出的一句话T-Scrapper, an open-source Twitter Tweet data crawling toolthat overrides some limits of the official Twitter API, is used tocollect the training data。

2021-10-20 21:19:25 176

原创 论文笔记:Encoding Social Information with Graph Convolutional Networks forPolitical Perspective *****

Encoding Social Information with Graph Convolutional Networks for Political Perspective Detection in News Media判断文本的意识形态,利用传播信息的社会背景来缓解这个问题,在无法获得直接监督时,提供基于认可文本内容并传播该内容的用户信息的远程监督来源(文档级别的分类依赖于通过社交网络传播的意识形态)嵌入的文档不止需要考虑其文本的内容,也要从其属于的社交网络中获得知识。数据:我们关注美.

2021-10-20 11:38:49 141

原创 论文阅读笔记:Knowledge Graph Augmented Political Perspective Detection in News Media

目的:political观点预测,过去工作关注语义信息,很少利用社交和political·背景进行political立场分析。方法概述:利用外部信息(外部political知识图,1071个实体和10703个三元组)和新闻文章建立一个异质的图网络,利用图卷积网络进行图分类;1.构建一个当代political知识图作为新闻文本的外部信息2.学习实体和关系的嵌入表示(为上述构建的外部知识图)3.建立一个异质的信息网络,包括新闻文本的内容和提到的实体4.构建模型对political进行观点预测

2021-10-11 16:18:14 187

原创 三大图网络自学总结(GAT、GraphSAGE、GCN)+RGCN

此内容作为补充内容图神经网络目的都是为了学习节点的embedding,其embedding能表示节点之间的关系模型输入为 节点x特征表示,邻接矩阵A输出为节点新的特征一、GATGAT模型提出了注意力机制,汇聚邻居节点时考虑不同的权重,适用于直推式和归纳式。直推式:所有的节点和边都是已知的归纳式:对未知的节点和边有学习能力,新加入的节点可以进行节点分类。使用多头注意注意力机制二、GraphSAGE原文题目:大规模网络的归纳式学习特点:1.汇聚(aggreg.

2021-10-08 10:10:39 3912 1

原创 论文阅读笔记:A Machine Learning Pipeline to Examine PoliticalBias with Congressional Speeches

对A Machine Learning Pipeline to Examine Political Bias with Congressional Speeches论文中的内容进行总结提炼使用国会的演讲来进行zz偏见的分类学习(zz表示zhengzhi,下同)优势:无需人工标注的数据 ,使用美国国会zz演讲文章来标记数据成果:在Twitter和Gab上进行zz偏见预测,准确率分别达到70.5%和65.1%,提出了机器学习的方法,级联了多种不同特征(social media text, us...

2021-10-05 16:35:20 90

原创 tensorflow版本迁移问题

原始tensorflow引用方式:import tensorflow as tf改成:import tensorflow._api.v2.compat.v1 as tftf.disable_v2_behavior()亲测有用

2021-10-05 11:15:05 163

原创 pytorch常用API说明

​​​​​​​Pytorch使用tensorboardX可视化。超详细!!! - 简书tensorboardX 可视化Torchtext使用教程 文本数据处理 - 林震宇 - 博客园torchtext 文本预处理NLP(二十三)序列标注算法评估模块seqeval的使用 - 山阴少年 - 博客园seqeval序列标注算法评估模块...

2021-09-16 22:09:45 98

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除