任务:下载语料、保存为xml
格式、使用Lucene
为下载语料建立索引、使用索引查看工具Luke
检查索引文件
- 使用Python的requests爬取网页
import requests
res = requests.get(u)
res.encoding = 'utf-8'
txt = res.text
- 获取的网页内容是在一堆标签组成的,用正则表达式匹配自己想要的内容
import re
title_result = re.findall(r"<title>.*</title>", txt)[0].replace("<title>", "").replace("</title>", "")# 提取标题
date_result = re.findall(r'<span>发布时间:.*</span>',