近期在做关于nlp的一些任务,LTP提供了一系列中文自然语言处理工具,用户可以使用这些工具对于中文文本进行分句、分词、词性标注、句法分析和语义标注等工作。
在这里主要对语言技术平台( Language Technology Plantform | LTP )在线文档在python的测试做一下记录。
版本:
ltp4.1.5.post2
python3.9
一、分句
from ltp import LTP ltp = LTP() input_file_dir = r'D:\毕业论文\数据处理\文本示例.txt' lines = [line.strip() for line in open(input_file_dir, 'r', encoding='utf-8').readlines()] for line in lines: print(line) sents = ltp.sent_split(line) print(sents) exit()
结果:
结果没有分句,而是分成了单个字符。
错误原因:
文本输入需要以列表的形式输入。修改如下&