- 博客(2)
- 收藏
- 关注
原创 web编程期末大作业:展示对爬虫爬取的数据
对新浪娱乐首页的简易爬虫文章目录一、目标网站的选取和分析 二、爬虫整体代码思路和逻辑 三、使用工具包辅助完成储存和搜索 四、网站前后端设计和展示前言本文实现了爬取新浪娱乐首页娱乐新闻信息的爬虫,并储存在数据库中,可以在简易网站前端搜索访问一、目标网站的选取和分析我选取了新浪娱乐首页作为爬取的目标,主要因为代码整齐易懂首先二、使用步骤1.引入库代码如下(示例):import numpy as np import pandas as pd
2021-06-30 17:30:43 361 1
原创 对新浪娱乐网页的简易爬虫展示
目录一、对网页的选取和分析二、爬虫代码的整体思路三、搜索网页的前端和后端设计采用的工具包mysql数据库,express脚手架一、对网页的选取和分析从网站上可以看出每则新闻都包含标题,时间,内容,关键词等共同点,因此我选取了source,title,publish_date,keywords,summary,content作为爬取的内容。从网页源代码中可发现:这些新闻里有些是文本,有些是动图,还有其他类型的。为了保证格式的一致性,我选取了https://ent.sina.com.cn/形式的
2021-04-30 13:47:04 271 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人