实验题目
使用python语言和数据库,完成以下内容
实验内容1:文本数据分词
针对材料中的新闻数据,使用结巴分词插件,完成分词程序的编写,对提供的文本进行分词标注。
实验2:去除停用词
使用停用词典,去除分词后文本中的停用词。
实验代码
1. 引入库
import jieba
import xlrd
import re
import xlwt
from xlutils.copy import copy
2. 打开文件
data = xlrd.open_workbook('新闻数据.xls')
sheet = data.sheet_by_index(0)
3. 创建停用词列表
直接打开有错误,因文件是ANSI编码,需要使用encoding='ANSI’打开
stopwords = [line.strip()