因为迭代一的版本是基于规则进行文本分类的,所以涉及到短小单词匹配的问题。
比如我的名词是 USA
key_name = 'USA'
content = "aaa bbb ccc usana ccc."
如果用最基础if key_name in content:这种方式的话会把 usana这种词也匹配进来。
所以采用了正则匹配中的边界匹配
key_pin = "\\b" + key_name + "\\b"
re.findall(key_pin, content)
如果文章中匹配到的usa是u开头a结尾的话,则把关键字以列表的方式返回出来。
否则则返回一个空列表