用python 写一个中文分词器

在不用第三方库的情况下,用python 写一个分词器
需要先有一个本地词典才能进行分词,为演示方便,使用jieba自带的词典用于分词

import re
import os
os.chdir('d:\workpath')
# #将jieba分词的词典变为自己的词典
# f=open('dict.txt','r+',encoding="utf-8")
# g=open('dic.txt','w+',encoding='UTF-8')
# f=f.readlines()
# for i in range(0, len(f)):
#     m=re.search(r'(.*?) ',f[i])
#     a=m.group()
#     g.writelines('%s\n'%str(a))#将结果输出
# g.close()
h=open('dic.txt','r+',encoding='UTF-8')
text=h.readlines()
mydict=[]#创建新字典
for i in range(0, len(text)):
    mydict.append(str(text[i][0:len(text[i])-2]))
h.close()
def CutWords(sentence):
    result = []
    start = 0
    m=7
    while len(sentence)- start>=1:
        n =len(sentence)- start
        if n<m:
            m=n
        cutword = sentence[start:start+m]
        def CheckWords():
            nonlocal start
            nonlocal m
            if cutword in mydict:
                result.append(cutword)
                start = start + m
                m=7
        CheckWords()
        if cutword not in mydict:
            if m==1:
                result.append(cutword)
                start = start + m
                m = 7
            else:
                m = m - 1
                CheckWords()
    print(result)
  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值