网络爬虫（以豆瓣为例）

最新推荐文章于 2024-05-08 22:58:13 发布

暮夜浅唱

最新推荐文章于 2024-05-08 22:58:13 发布

阅读量2.7k

点赞数 3

本文链接：https://blog.csdn.net/weixin_45644861/article/details/105480549

版权

网络爬虫（以豆瓣为例）

1，应用pip install 命令语句安装环境。该步骤主要是在python原环境之后为自己提供一个比较和谐以及习惯的环境。如果习惯python原环境或是其他操作环境的朋友和忽略此操作，或是安装自己喜欢的环境进行操作。完成环境安装操作之后进入控制台根目录下输入jupyter notebookb并按下回车键后便可进行网络爬虫的具体操作了。注：新手朋友需注意一个小细节，控制台不能关闭，否则无法新建代码文件，笔者最初可是被这个小问题给绊倒过哦。

2,分析目标网站的网址结构，为数据的全面爬取提供便利。具体步骤如下:
在这里插入图片描述
然后利用简单的循环语句爬取目标网站的全部网址。

for page in range(0,226,25):
    url = 'https://movie.douban.com/top250?start=%s&filter='%page
    print (url)

运行后我们可得到豆瓣top250的电影网址。

[link](https://movie.douban.com/top250?start=0&filter=）
（https://movie.douban.com/top250?start=25&filter=）
（https://movie.douban.com/top250?start=50&filter=）
（https://movie.douban.com/top250?sta

最低0.47元/天解锁文章

暮夜浅唱

关注

3
点赞
踩
28

收藏

觉得还不错? 一键收藏
1
评论
网络爬虫（以豆瓣为例）

网络爬虫（以豆瓣为例）1，应用pip install 命令语句安装环境。该步骤主要是在python原环境之后为自己提供一个比较和谐以及习惯的环境。如果习惯python原环境或是其他操作环境的朋友和忽略此操作，或是安装自己喜欢的环境进行操作。完成环境安装操作之后进入控制台根目录下输入jupyter notebookb并按下回车键后便可进行网络爬虫的具体操作了。注：新手朋友需注意一个小细节，控制台不...
复制链接

扫一扫