python
文章平均质量分 65
左岸2420
计算机本科在读
展开
-
基于爬虫和Kettle的书籍信息采集与预处理
一:爬虫1、爬取的目标将读书网上的书籍的基本信息,比如:封面、书名、作者、出版社、价格、出版时间、内容简介、作者简介、书籍目录、ISBN和标签爬取出来,并将爬取的结果放入数据库中,方便存储。2、网站结构图1读书网书籍类别详情此次实验爬取读书网页面中文学、小说、传记、青春文学、艺术、散文随笔、励志、人文社科、经济管理、励志十大类书籍。每一类书籍包括书名、价格、作者、出版社、ISDN、出版时间、封面以及书籍简介、作者简介、书目录和书籍所属类别。页面具体情况如图2所示。原创 2024-01-11 13:13:16 · 1873 阅读 · 0 评论 -
基于爬虫天气网的基本信息的采集
爬取天气网。原创 2024-01-11 13:00:43 · 946 阅读 · 1 评论 -
基于爬虫和Kettle的豆瓣电影的采集与预处理
将豆瓣电影网上的电影的基本信息,比如:电影名称、导演、电影类型、国家、上映年份、评分、评论人数爬取出来,并将爬取的结果放入csv文件中,方便存储。6、在get_info函数中,同样构造请求URL,设置请求头,并发送GET请求以获取电影详情页的内容。7、使用lxml库解析电影详情页的内容,提取导演、电影类型、国家、上映时间、评分和评论人数等信息。每一个电影包括电影名称、导演、电影类型、国家、上映年份、评分、评论人数。1、导入所需的库,如re、time、requests、lxml、random和csv。原创 2024-01-11 12:40:45 · 1581 阅读 · 3 评论