今天做了一个简单的爬虫(爬取小说网上的小说)用到了三个库——re(用于正则匹配)、requests(url相关)、
os(读写文件)
简单的爬虫基本思路:
第一步:获取目标url,并转换为代码
response = requests.get('url')
html = response.text
第二步:正则匹配
reg = r'正则表达式'
return re.findall(reg, html) #在html中以reg规则进行匹配内容,并返回匹配的结果所组成的列表
第三步:存储结果
with open(os.path.join('path', 'name' + '.后缀'), 'open mode(w:覆盖写。r:读。a:追加)') as fn
fn.write(result_string)