自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 web编程期末大作业:展示对爬虫爬取的数据

对新浪娱乐首页的简易爬虫文章目录一、目标网站的选取和分析 二、爬虫整体代码思路和逻辑 三、使用工具包辅助完成储存和搜索 四、网站前后端设计和展示前言本文实现了爬取新浪娱乐首页娱乐新闻信息的爬虫,并储存在数据库中,可以在简易网站前端搜索访问一、目标网站的选取和分析我选取了新浪娱乐首页作为爬取的目标,主要因为代码整齐易懂首先二、使用步骤1.引入库代码如下(示例):import numpy as np import pandas as pd

2021-06-30 17:30:43 361 1

原创 对新浪娱乐网页的简易爬虫展示

目录一、对网页的选取和分析二、爬虫代码的整体思路三、搜索网页的前端和后端设计采用的工具包mysql数据库,express脚手架一、对网页的选取和分析从网站上可以看出每则新闻都包含标题,时间,内容,关键词等共同点,因此我选取了source,title,publish_date,keywords,summary,content作为爬取的内容。从网页源代码中可发现:这些新闻里有些是文本,有些是动图,还有其他类型的。为了保证格式的一致性,我选取了https://ent.sina.com.cn/形式的

2021-04-30 13:47:04 271 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除