机器学习
zy4321234zx
这个作者很懒,什么都没留下…
展开
-
StanfordCoreNLP 运行缓慢(python)
StanfordCoreNLP 运行缓慢(python)使用python启动NLP服务器使用python启动NLP服务器 comments = open('../word2vec_train/comment_all.txt', 'r', encoding='utf-8').readlines() nlp = StanfordCoreNLP('G:/stanford-corenlp...原创 2019-03-30 15:53:37 · 3373 阅读 · 15 评论 -
StanfordCoreNLP 大批量处理数据报错json.decoder.JSONDecodeError: Invalid control character at: line 0 column 0
传给nlp的数据本身为空(空串,空行等)nlp服务器传回的数据为空或不是json数据(服务器炸了)解决办法排除空串修改 corenlp.py r = requests.post(self.url, params=params, data=data, headers={'Connection': 'close'}) try: r_dict = json...原创 2019-03-30 16:06:28 · 1549 阅读 · 0 评论 -
短评论聚类并显示提取属性
短评论聚类并显示提取属性评论获取使用selenium控制Chrome模拟访问爬取数据文本预处理清理爬取数据中的网页标签、特殊字符、非中文字符(不包括标点符号)等将一条评论按标点拆分为短句,同时记录下原始的长句,每个短句在长句中的索引,以方便展示时高亮分词。不需要去停用词,word2vec建模包含上下文信息word2vec 建模建立300维,迭代5次的模型使用word2vec计...原创 2019-05-05 11:50:22 · 1243 阅读 · 3 评论