对于２－gram 条件下对英语文本的分词处理

最新推荐文章于 2021-05-19 12:23:27 发布

置顶 zangao0718

最新推荐文章于 2021-05-19 12:23:27 发布

阅读量726

点赞数

分类专栏：自然语言

本文链接：https://blog.csdn.net/zangao0718/article/details/72667247

版权

自然语言专栏收录该内容

8 篇文章 0 订阅

订阅专栏

#coding=utf-8
import re
#得到１元条件下的分词，并将这些分词加入到list中
with open('/home/zheng/firstproject/lecture.txt', 'r') as lecture:
    content = lecture.read().strip().decode('gbk').encode('utf-8')
    lecture_list = re.findall('([A-Za-z\']+)', content)
    # print lecture_list
    n=len(lecture_list)#计算list表中的单词总数
new_list = []#构建一个新的list
#将list表中的数据以２元分词的方式存入新的list中
i=0
while i<n-1:
    j=1
    while j<n:
     new_list.append(lecture_list[i] + ' ' + lecture_list[j])
     j+=1
     i+=1
     while j>=n:
      print new_list
      break

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

zangao0718

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
对于２－gram 条件下对英语文本的分词处理

#coding=utf-8import re#得到１元条件下的分词，并将这些分词加入到list中with open('/home/zheng/firstproject/lecture.txt', 'r') as lecture: content = lecture.read().strip().decode('gbk').encode('utf-8') lecture_lis
复制链接

扫一扫