完整版代码github地址:https://github.com/Monster2848/sougou_dic_spider
目标网站
下面有分类
点进 社会科学–金融保险分类
我们需要获取的数据是 词库标题 和 词库文件地址
通过查看请求发现这个网页并没有被加密
直接get请求就可以获得完整网页
然后要做的就是找到 标题元素 和 立即下载元素 提取 内容 和 url
完整版代码github地址:https://github.com/Monster2848/sougou_dic_spider
目标网站
下面有分类
点进 社会科学–金融保险分类
我们需要获取的数据是 词库标题 和 词库文件地址
通过查看请求发现这个网页并没有被加密
直接get请求就可以获得完整网页
然后要做的就是找到 标题元素 和 立即下载元素 提取 内容 和 url