如何读在具体的QA task中的IRGAN代码呢?(Answer Selection in IRGAN)?以前也看了 answer selection 使用cnn实现的代码)
一般是直接按照开源的代码先运行看下效果(可能是环境配置或者是版本不对应,总之直接这样运行我是出现了点问题,所以打算直接看代码,然后再慢慢调吧),然后再看其中的代码(具有先后顺序)。
那就先看dataPrepare。(除了一开始的c和c++语言是上课时候的课程还从一点点学起外,对于java,c#,python等语言,都只是边看到哪个问题,边去百度或者google找下,没有具体的先去全部学习一遍。)
使用python一开始有几个很不适应的问题,主要的是它以缩进作为代码逻辑,中间有次想运行别人的代码,结果报错,是因为缩进不统一(linux的gedit,eclipse,pychram显示都不一样)。后面自己写代码或者运行在linux上时都是修改为统一的tab缩进。
看别人的代码,如果乱得飞起 那就是个非常痛苦的事情,当然如果是自己乱的飞起,那完全没压力。
所以只能看代码实际运行时需要使用的部分,理通了先后执行调用关系,去找到相应的代码才好理解。
所以突然想起了关于python中main函数的问题:
一般的main是程序执行的起点,所以经常看到有下面的这段代码,平时没有注意,Python中,也有类似的运行机制,Python使用缩进对齐组织代码的执行,所有没有直接缩进的代码,都会在载入时自动执行,这些代码,可以认为是Python的main函数。执行顺序,还是从上到下。
开始代码的学习(奈何水平低,很简单的东西都要查…):
第一步:加载数据
answers=load("original/answers")
print ("have %d answers" % len(answers))
vocabulary=load("original/vocabulary")
print ("have %d words" % len(vocabulary))
将二进制文件通过pickle load 加载还原为python对象:
def load(file_name):
return pickle.load(open(os.path.join(path, file_name), 'rb'))
第二步:调用convertALL,将文件列表中的所有文件都调用convert2TSV转换。
if __name__ == "__main__":
# parseTrain()
convertAll(subset_size=0) #
def convertAll(subset_size=0):
for rawFilename in ["dev","test1","test2"]:
filename=convert2TSV(rawFilename)
temp_file=format_file(filename,subset_size)
os.remove(filename)
第三步:调用convert2TSV,由于原始的数据是编码过的且保存为二进制文件,下