中文分词+词向量化

最新推荐文章于 2024-08-15 09:36:21 发布

kecongxiao

最新推荐文章于 2024-08-15 09:36:21 发布

阅读量6.6k

点赞数

分类专栏： python 文章标签：自然语言处理 python

本文链接：https://blog.csdn.net/xkc_0706/article/details/50853498

版权

针对自然语言处理中中文处理的难题，本文介绍了如何使用结巴分词进行分词处理，结合搜狗实验室的网页新闻语料，然后利用Google word2vec将分词后的文本转化为词向量，为后续的自然语言处理任务奠定基础。

摘要由CSDN通过智能技术生成

好多自然语言处理工具包不能直接处理中文，如NLTK，因此，第一步要先进行分词处理，墙裂推荐使用结巴分词。
1、安装结巴python库

pip install jieba

2、语料库，这里使用搜狗实验室的网页新闻语料迷你版
3、分词

def jieba_cut(inputFile,outputFile):
    '''
    将从搜狗实验室下载的语料库<content></content>内容部分进行分词
    :param inputFile: 要分词的语料库
    :param outputFile:
    :return:
    '''
    fin = open(inputFile,'r')
    fout = open(outputFile,'w')

    for eachLine in fin:
        line = eachLine.strip().decode(