如何处理图数据集

这里的图是指表示实体的结点和表示实体之间关系的边构成的图,而不是一些神经网络需要识别和处理的图片。

按理说图的处理也很简单,但是很少看到人提及。

作为初学者,还是遇到了一些困难的,在此简单记录一下。

格式

首先,简单说一下数据集的格式。

一般来说,图数据集的存储文件每一行会存储两个结点,代表两个结点之间有一条边连接彼此。类似这样:

0 1

0 2

1 2

获取及查看

在关于图信息挖掘的论文中,一篇论文要想论证自己算法的优越性,大概率是要将算法用在大型数据集上挑战一番的。

但是这对于复现的小白造成了困难,这数据集我怎么放不到服务器上去呢?

普通且带有一点愚钝的做法,是将数据集下载到了我的Windows终端,然后找到一个可以打开文件进行查看还不会崩溃的软件glogg,查看数据集的具体格式。如何上传到服务器呢?Ctrl C,Ctrl V,实在是很朴素。小数据当然可行,大数据集甚至光复制就要崩溃了。

在经历了一段时间的思索后,我才想到可以通过wget的方式直接用下载地址的链接进行下载……

具体的命令就是:

wget url

下载得到一个zip文件,解压一下:

unzip xxx.zip /home/directory

解压到一个指定文件夹下。

好像快满500字了。

预处理前的冗余字段处理

数据预处理操作,得先读入数据,但是前几行都是说明性文字。感谢数据集提供者,真的很贴心。

我的方法也很无脑。

istream infile;

infile.open(datasetName, ios::in);

string s;

getline(infile, s); //有几行读几行

while(!infile.eof())

{

读取数据并操作;

}

infile.close();

大概就是这样了。

从不会到会一点点还是有一点乐趣可言的,希望大家都能在所做的事情中收获快乐。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值