说明
- 本篇是基于python下mecab使用,系统为windows,python是anaconda下的
- 如果你需要使用基于python下的mecab,你需要安装python,哪个系统环境下都可以,在安装mecab
- 如果你需要安装python可见python安装
- 如果你需要安装mecab可见mecab安装
- 如果你只需要简单的进行日语分词可以下载下面这个软件
- 链接: https://pan.baidu.com/s/1Xz3ZbuEItpEqvdUGZRnM9Q
- 提取码: mae9
什么是mecab
- mecab 是基于CRF 的一个日文分词系统,代码使用 c++ 实现, 基本上内嵌了 CRF++ 的代码, 同时提供了多种脚本语言调用的接口 (python, perl, ruby 等).整个系统的架构采用通用泛化的设计,用户可以通过配置文件定制CRF训练中需要使用的特征模板。
mecab的使用
import os
os.getcwd()
'D:\\PythonFlie'
import MeCab
import pandas as pd
file_in = open('test.txt',encoding = "utf-8")
f_line = file_in.read()
mecab_tagger = MeCab.Tagger("-Ochasen")
result=mecab_tagger.parse(f_line)
my_list = []
for i in result.splitlines()[:-1]:
i = i.split()
try:
v = (i[2], i[1], i[-1])
except:
pass
my_list.append(v)
word_dict = {}
word_sub = {}
word_pro={}
for i in my_list:
if i[-1].split('-')[0] not in ['助詞','記号']:
if i[0] not in word_dict:
word_dict[i[0]]=1
word_sub[i[0]]=i[-1]
word_pro[i[0]]=i[1]
else:
word_dict[i[0]] =word_dict[i[0]]+1
df =pd.DataFrame({"fre":word_dict,'pro':word_pro,'sub':word_sub})
df=df[df.fre>1]
df=df.sort_values(by=['fre'],ascending=False)
df.to_csv('雅虎词频分析.txt',encoding = "utf-8")
插句题外话
- 由于本人刚刚学完日语五十音,好多日语单词都不太认识,即使将日语词频弄出来,还要将这些日语词汇翻译成中文,以便后续更好的分析,所以下面讲讲日语翻译软件的使用体验
- 由于本人日语不精通,故不对准确性做评价,主要从分析的速度、处理日语文件的大小来评价
- 主要是两款软件:Google翻译、在线文档翻译器
日语翻译软件
Google翻译
- 可以直接翻译文档,可以翻译文档的类型挺多的,翻译的速度也非常可,基本上不到1分钟
- 不能翻译特别大的文件,基本上不到1M大小的文件可以翻译;太大了会卡到翻译不出来
- 直接网页端进行翻译,不能安装软件
- 但是不能同一时间段翻译很多次,会被禁
在线文档翻译器
- 可以直接翻译文档,可以翻译文档的类型挺多的,主要是能翻译几十M的文件,速度基本上也在5分钟之内
- 如果翻译文件比较大的话,强力推荐这个软件
- 同时网页端的翻译软件,不用安装软件
- 链接在线文档翻译器