ParserError: Error tokenizing data. C error: EOF inside string starting at row 2126
在文本挖掘时,加载停用词时遇到的问题。这是由于可能你的txt文件中存在单数个双引号这样的现象,此时在读取时,他会自动将两个双引号之间的内容认作字符串,但此时由于只有单数个双引号,因此它找不到结束记号,所以报错。解决办法是,通过添加参数quoting = 3
,例如
stop_words1 = pd.read_csv('E:\建模\data\stop_words1.txt',sep = '\t',header = None,encoding='utf-8', names = ['stop_w'],delimiter="\t",quoting=3)
这样即可让程序将双引号当作普通字符,从而正确读入txt中的内容。
在搜这个问题的解决办法时,遇到了很多的问答,发现都没有解决。因此,找到解决办法的时候,瞬间感受到了大神的魅力以及自己的编程任重而道远。希望可以帮助遇到困难的人以及共勉!