文本挖掘 加载停用词

ParserError: Error tokenizing data. C error: EOF inside string starting at row 2126

在文本挖掘时,加载停用词时遇到的问题。这是由于可能你的txt文件中存在单数个双引号这样的现象,此时在读取时,他会自动将两个双引号之间的内容认作字符串,但此时由于只有单数个双引号,因此它找不到结束记号,所以报错。解决办法是,通过添加参数quoting = 3,例如

stop_words1 = pd.read_csv('E:\建模\data\stop_words1.txt',sep = '\t',header = None,encoding='utf-8', names = ['stop_w'],delimiter="\t",quoting=3)

这样即可让程序将双引号当作普通字符,从而正确读入txt中的内容。

在搜这个问题的解决办法时,遇到了很多的问答,发现都没有解决。因此,找到解决办法的时候,瞬间感受到了大神的魅力以及自己的编程任重而道远。希望可以帮助遇到困难的人以及共勉!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值