代码理解—IRGAN（QA）_dataPrepare

最新推荐文章于 2022-03-04 14:10:34 发布

yAN_GUO_KAi

最新推荐文章于 2022-03-04 14:10:34 发布

阅读量1.4k

点赞数 1

分类专栏：代码笔记文章标签：代码笔记

本文链接：https://blog.csdn.net/y19930105/article/details/74642046

版权

本文介绍了如何阅读和理解IRGAN（Answer Selection in IRGAN）的代码，特别是数据预处理部分。首先，通过加载和解码二进制数据，然后调用convertALL和convert2TSV转换文件。接着，数据被格式化，以便模型从错误答案中选择正确答案。文章还探讨了Python中的main函数概念，并提及了os.path和pickle模块在处理文件和序列化数据中的作用。

摘要由CSDN通过智能技术生成

如何读在具体的QA task中的IRGAN代码呢？（Answer Selection in IRGAN）？以前也看了 answer selection 使用cnn实现的代码）
这里写图片描述

一般是直接按照开源的代码先运行看下效果（可能是环境配置或者是版本不对应，总之直接这样运行我是出现了点问题，所以打算直接看代码，然后再慢慢调吧），然后再看其中的代码（具有先后顺序）。

这里写图片描述

那就先看dataPrepare。（除了一开始的c和c++语言是上课时候的课程还从一点点学起外，对于java，c#，python等语言，都只是边看到哪个问题，边去百度或者google找下，没有具体的先去全部学习一遍。）

使用python一开始有几个很不适应的问题，主要的是它以缩进作为代码逻辑，中间有次想运行别人的代码，结果报错，是因为缩进不统一（linux的gedit，eclipse，pychram显示都不一样）。后面自己写代码或者运行在linux上时都是修改为统一的tab缩进。

看别人的代码，如果乱得飞起那就是个非常痛苦的事情，当然如果是自己乱的飞起，那完全没压力。
所以只能看代码实际运行时需要使用的部分，理通了先后执行调用关系，去找到相应的代码才好理解。
所以突然想起了关于python中main函数的问题：
一般的main是程序执行的起点，所以经常看到有下面的这段代码，平时没有注意，Python中，也有类似的运行机制，Python使用缩进对齐组织代码的执行，所有没有直接缩进的代码，都会在载入时自动执行，这些代码，可以认为是Python的main函数。执行顺序，还是从上到下。

开始代码的学习（奈何水平低，很简单的东西都要查…）：

第一步：加载数据

answers=load("original/answers")
print ("have %d answers" % len(answers))

vocabulary=load("original/vocabulary")
print ("have %d words" % len(vocabulary))

将二进制文件通过pickle load 加载还原为python对象：

def load(file_name):
  return pickle.load(open(os.path.join(path, file_name), 'rb'))

这里写图片描述

第二步：调用convertALL，将文件列表中的所有文件都调用convert2TSV转换。

if __name__ == "__main__":
    # parseTrain()
    convertAll(subset_size=0)                #

def convertAll(subset_size=0):
    for rawFilename in ["dev","test1","test2"]:
        filename=convert2TSV(rawFilename)
        temp_file=format_file(filename,subset_size)
        os.remove(filename)

第三步：调用convert2TSV，由于原始的数据是编码过的且保存为二进制文件，下