代码理解—IRGAN(QA)_dataPrepare

本文介绍了如何阅读和理解IRGAN(Answer Selection in IRGAN)的代码,特别是数据预处理部分。首先,通过加载和解码二进制数据,然后调用convertALL和convert2TSV转换文件。接着,数据被格式化,以便模型从错误答案中选择正确答案。文章还探讨了Python中的main函数概念,并提及了os.path和pickle模块在处理文件和序列化数据中的作用。
摘要由CSDN通过智能技术生成

如何读在具体的QA task中的IRGAN代码呢?(Answer Selection in IRGAN)?以前也看了 answer selection 使用cnn实现的代码)
这里写图片描述

一般是直接按照开源的代码先运行看下效果(可能是环境配置或者是版本不对应,总之直接这样运行我是出现了点问题,所以打算直接看代码,然后再慢慢调吧),然后再看其中的代码(具有先后顺序)。

这里写图片描述

那就先看dataPrepare。(除了一开始的c和c++语言是上课时候的课程还从一点点学起外,对于java,c#,python等语言,都只是边看到哪个问题,边去百度或者google找下,没有具体的先去全部学习一遍。)

使用python一开始有几个很不适应的问题,主要的是它以缩进作为代码逻辑,中间有次想运行别人的代码,结果报错,是因为缩进不统一(linux的gedit,eclipse,pychram显示都不一样)。后面自己写代码或者运行在linux上时都是修改为统一的tab缩进。

看别人的代码,如果乱得飞起 那就是个非常痛苦的事情,当然如果是自己乱的飞起,那完全没压力。
所以只能看代码实际运行时需要使用的部分,理通了先后执行调用关系,去找到相应的代码才好理解。
所以突然想起了关于python中main函数的问题:
一般的main是程序执行的起点,所以经常看到有下面的这段代码,平时没有注意,Python中,也有类似的运行机制,Python使用缩进对齐组织代码的执行,所有没有直接缩进的代码,都会在载入时自动执行,这些代码,可以认为是Python的main函数。执行顺序,还是从上到下。

开始代码的学习(奈何水平低,很简单的东西都要查…):

第一步:加载数据

answers=load("original/answers")
print ("have %d answers" % len(answers))

vocabulary=load("original/vocabulary")
print ("have %d words" % len(vocabulary))

将二进制文件通过pickle load 加载还原为python对象:

def load(file_name):
  return pickle.load(open(os.path.join(path, file_name), 'rb'))

这里写图片描述

第二步:调用convertALL,将文件列表中的所有文件都调用convert2TSV转换。

if __name__ == "__main__":
    # parseTrain()
    convertAll(subset_size=0)                #
def convertAll(subset_size=0):
    for rawFilename in ["dev","test1","test2"]:
        filename=convert2TSV(rawFilename)
        temp_file=format_file(filename,subset_size)
        os.remove(filename)

第三步:调用convert2TSV,由于原始的数据是编码过的且保存为二进制文件,下

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值