使用Lucene建立索引 && 使用Luke工具检查索引文件

最新推荐文章于 2022-03-22 16:30:39 发布

weixin_56336619

最新推荐文章于 2022-03-22 16:30:39 发布

阅读量283

点赞数

分类专栏：自然语言处理文章标签： java

本文链接：https://blog.csdn.net/weixin_56336619/article/details/115897993

版权

任务：下载语料、保存为xml格式、使用Lucene为下载语料建立索引、使用索引查看工具Luke检查索引文件

使用Python的requests爬取网页

import requests
res = requests.get(u)
res.encoding = 'utf-8'
txt = res.text

获取的网页内容是在一堆标签组成的，用正则表达式匹配自己想要的内容

import re
title_result = re.findall(r"<title>.*</title>", txt)[0].replace("<title>", "").replace("</title>", "")# 提取标题

date_result = re.findall(r'<span>发布时间：.*</span>',

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_56336619

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用Lucene建立索引 && 使用Luke工具检查索引文件

任务：下载语料、保存为xml格式、使用Lucene为下载语料建立索引、使用索引查看工具Luke检查索引文件使用Python的requests爬取网页import requestsres = requests.get(u)res.encoding = 'utf-8'txt = res.text获取的网页内容是在一堆标签组成的，用正则表达式匹配自己想要的内容import retitle_result = re.findall(r"<title>.*</title&gt
复制链接

扫一扫