数据对齐问题

本文详细介绍了数据处理过程中的关键步骤,包括多线程计算tagnum和keynum、使用脚本执行reduce操作、计算贡献率、过滤低频共现、创建tag-id对应文件、生成数据文件和索引文件,以及确保数据对齐的重要性。在处理过程中,特别强调了对未出现在训练语料库中的tag处理方法和生成各种辅助文件的作用。
摘要由CSDN通过智能技术生成

一定要记得数据对齐啊

 

文件不关闭,也会出现问题。。。。。

 

一:获得tagnum,keynum,以及tagkey共现的次数,都是多线程实现的。多线程的母函数叫做map_func,这个会在取得一个任务之后,依次调用get_tagnum,get_keynum,以   及mapreduce函数。

 

二:第二步其实还是一个reduce函数,本来也可以在第一步实现的,只不过保存文件名比较繁琐,不如用脚本传入,比如你的可执行的reduce程序叫your_exe,则可以这样:./your_exe  *_reduce 就会去reduce所有以reduce结尾的文件,而如果写在一个函数中,需要额外记录,程序维护不方便,也破坏了一个函数最好只做一件事的原则。

 

三:第三步就可以计算贡献率了。load进三个词典,分别计算:tagkeynum/keynum  tagkeynum/tagnum

subprocess.call("./filterResult  food_result",shell = True);
  subprocess.call("./createTagIdFile  "+prefix+"_tagnum ",shell = True);
  subprocess.call("./createDataFile "+prefix+"_filter_result "+prefix+"_tagidfile ",shell = True);
  create_index4(prefix+"_i

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值