地址:https://github.com/shuzi/insuranceQA
仅用于研究目的 使用请引用一下论文: Applying Deep Learning to Answer Selection: A Study and An Open Task Minwei Feng, Bing Xiang, Michael R. Glass, Lidan Wang, Bowen Zhou ASRU 2015 来自于真实世界用户,答案的高质量来自具有深度背景知识专业人士的制作,有实际价值,而非玩具数据 主要用于QA 格式: 最新的是V2 Pool 是 SOLR生成的文件. 文件名含raw包含了原始文本 文件名含token包含了 Stanford Tokenizer 生成的文本 分成train/valid/test three 三部分,文件名对应包含train/valid/test 以 idx_开通的token, 请引用词汇表文件中对应的词 对所有 train/valid/test 文件, 格式相同, 答案池大小不同: <Domain><TAB><QUESTION><TAB><Groundtruth><TAB><Pool> For InsuranceQA.question.anslabel.*: <Domain><TAB><QUESTION><TAB><Groundtruth> 标签到答案 InsuranceQA.label2answer.* <Answer Label><TAB><Answer Text> 词汇表文件: <word index><TAB><original word> 语料库大小统计 Question Answer Question Running Words Train 12,889 21,325 107,889 Valid 2,000 3354 16,931 Test 2,000 3308 16,815 总共 27,413 答案 一共3,065,492个答案的 running words (我的理解是非停用词)