自然语言处理
文章平均质量分 82
张小莹说她很忙
坚持博客,记录进步点滴,相信积累的力量。
展开
-
去重的类函数实现
# -*- coding: utf-8 -*- import pandas as pd import numpy as np import jieba.posseg as pseg import codecs from gensim import corpora, models, similarities from database import Database from demo impor...原创 2018-04-19 18:22:06 · 389 阅读 · 0 评论 -
匹配关键字,给新闻贴上个股标签
贴上个股标签import csv import pandas as pd from database import Database #from connect_keywords.database import Database csv_file = csv.reader(open('finace_news_content.csv', 'r')) csv_keyword = csv.reade...原创 2018-05-09 16:05:36 · 388 阅读 · 0 评论 -
分词
分词是进行词性标注、命名实体识别、关键词提取、文本聚类等后续自然语言处理任务的基础,也是语义分析等深层次文本理解任务的基础。 研究方法主要分为 三种: • 基于规则的方法 • 基于传统机器学习模型的方法: 0. N-gram语言模型 N-gram 语言模型是用来计算一个词串或者是一句话W=w1w2…wn出现概率的统计模型。N-gram 模型假设某词的出现概率只与该词前面的 n-...原创 2018-09-15 17:09:45 · 316 阅读 · 0 评论