在机器学习实战第四章 4.7 的示例中,书上写的两个 RSS 源打不开,替换成如下源:
https://newyork.craigslist.org/search/res?format=rss
https://sfbay.craigslist.org/search/apa?format=rss
OK
然而笔者在运行的时候却发现结果全为空列表,经过一顿 print 发现是在分词的时候将单词都分成了一个一个的字母,把分词函数里的 * 号改成 + 号运行成功,分词函数如下
def textParse(bigString):
listOfTokens = re.split(r'\W+', bigString)
return [tok