在巨人的肩膀上前行,基于大佬的框架改进而来,支持通用化解析文章标题、发布时间、作者、文章内容。
支持手动配置解析规则,包括xpath和正则两种方式。
支持采集网站历史内容,配置cookie等。
git搜xinwenSpider,欢迎star,提交issues!
PYTHON通用新闻网站采集
于 2021-08-18 11:43:49 首次发布
在巨人的肩膀上前行,基于大佬的框架改进而来,支持通用化解析文章标题、发布时间、作者、文章内容。
支持手动配置解析规则,包括xpath和正则两种方式。
支持采集网站历史内容,配置cookie等。
git搜xinwenSpider,欢迎star,提交issues!