文本分类中遇到的小问题总结

1.当语料很大,并且编码和自己期望的不一样,用iconv命令单独转换很麻烦,可以考虑下边的形式。

比如要转换当前目录下所有文件的编码为utf8

for file in `ls`; do iconv -f gb2312 -t utf8 $file -o $file; done

2.使用fscanf读取文件中的数据时,当数据很大时,往往会失败。这个时候很有可能是我们的语料中出现了它不能识别的

字符,导致了读取失败,造成指针不移动,要重新检查一下你的语料。

3.递归处理文件夹的文件时,这个适合会改变当前的工作目录,加入你的程序中其他地方使用了相对路径,可以会打开文件

失败。

4.测试程序的时候,选择数据量较小的数据进行测试,一来方便检测,而也可以节省时间。

5.对于一些特殊的字符需要处理时,可以准备一个字典,当复查语料信息时,可以加入进去。

6.[error]stack smashing detecte 此类问题一般都是数组越界造成的,输入的数组大小小于要接受的内容。

未完。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值