日语词频分析——mecab使用

hannah2sah

于 2021-08-18 10:50:54 发布

阅读量3.1k

点赞数

分类专栏： # python(软件安装与基础学习) 文章标签： python

本文链接：https://blog.csdn.net/weixin_43816759/article/details/119350234

版权

python(软件安装与基础学习) 专栏收录该内容

48 篇文章 25 订阅

订阅专栏

本文介绍了如何在Windows的Anaconda Python环境中安装和使用Mecab进行日语分词，包括Mecab的基本概念、使用步骤及代码示例。此外，还分享了对两款日语翻译软件——Google翻译和在线文档翻译器的使用体验，重点关注翻译速度和文件大小限制。

摘要由CSDN通过智能技术生成

说明

本篇是基于python下mecab使用，系统为windows，python是anaconda下的
如果你需要使用基于python下的mecab，你需要安装python，哪个系统环境下都可以，在安装mecab
如果你需要安装python可见python安装
如果你需要安装mecab可见mecab安装
如果你只需要简单的进行日语分词可以下载下面这个软件
链接: https://pan.baidu.com/s/1Xz3ZbuEItpEqvdUGZRnM9Q
提取码: mae9

什么是mecab

mecab 是基于CRF 的一个日文分词系统，代码使用 c++ 实现，基本上内嵌了 CRF++ 的代码，同时提供了多种脚本语言调用的接口 (python, perl， ruby 等).整个系统的架构采用通用泛化的设计，用户可以通过配置文件定制CRF训练中需要使用的特征模板。

mecab的使用

import os
os.getcwd()#将需要分析的文件放在相应的路径下面

#输出结果
'D:\\PythonFlie'

import MeCab
import pandas as pd
#导入对应的库

file_in = open('test.txt',encoding = "utf-8")#注意这边的编码格式，与所要分析的文件编码格式要对应
f_line = file_in.read()
mecab_tagger = MeCab.Tagger("-Ochasen")
result=mecab_tagger.parse(f_line)
my_list = []
for i in result.splitlines()[:-1]:
    i = i.split()
    try:
        v = (i[2], i[1], i[-1])     
    except:
        pass
    my_list.append(v)

word_dict = {}
word_sub = {}
word_pro={}
for i in my_list:
    if i[-1].split('-')[0] not in ['助詞','記号']:
        if i[0] not in word_dict:
            word_dict[i[0]]=1
            word_sub[i[0]]=i[-1]
            word_pro[i[0]]=i[1]
        else:
            word_dict[i[0]] =word_dict[i[0]]+1
df =pd.DataFrame({"fre":word_dict,'pro':word_pro,'sub':word_sub})
df=df[df.fre>1]
df=df.sort_values(by=['fre'],ascending=False)
df.to_csv('雅虎词频分析.txt',encoding = "utf-8")#这里与上面的编码格式要对应