Python 爬取网页数据的两种方法

最新推荐文章于 2024-07-30 17:23:09 发布

程序员柚柚

最新推荐文章于 2024-07-30 17:23:09 发布

阅读量5.8k

点赞数 4

分类专栏： python入门文章标签： python 爬虫职场和发展 pycharm 人工智能

本文链接：https://blog.csdn.net/yy17111342926/article/details/130357188

版权

python入门专栏收录该内容

172 篇文章 6 订阅

订阅专栏

Python 爬取网页数据的两种方法

网络抓取是从任何网站或任何其他信息源中提取数据的过程，以你想要查看的格式保存在你的系统中；
包含格式很多，例如CSV、Excel等；文件、XML、JSON等等。Python是最常见的网页抓取语言之一；对于任何网络抓取活动，Python被认为是确保此过程无任何错误进行的最佳方法；

2. 使用pandas 爬取网页数据

2.1 打开网页

打开一个网页，将网址复制下来；

2.2 打开 PyCharm 编译器

先下载pandas库，【文件】=>【设置】=>【项目：xxx】=>【项目解释器】（【File】=>【Settings…】=>【project：xxx】=>【Python Interpreter】），点击＋号，在搜索框中输入“pandas”，在下方列表中选中“pandas”，点击安装，等待提示安装完成即可；

2.回到Pycharm输入以下代码

`import pandas as pd #导入pandas库

html = "mobile.anjuke.com/xf/fj-nn/20…" #将要爬取数据的网站网址复制到此 date = pd.read_html(html) #运用pd.read_html读取网站数据 print(date) #输出爬取到的数据 `

3.运行结果如下所示：

3.使用urllib爬取网页数据并写入Excel表

3.1 下载 urllib 库

与上述方法一致，这里就不赘述了

3.2 代码如下

`import urllib.request #导入urllib库

url = urllib.request.urlopen("fangjia.gotohui.com/show-39181"…
data = url.read()
dt1 = open("D:/Code/data/2.xls","wb") #xls表的位置，会自动生成xls表
dt1.write(data) #将数据写入D:/Code/data/2.xls表中
dt1.close()
print(data)`

3.3 运行结果如下

打开目录下的2.xls表，即可看到爬取的数据；

知道你对python感兴趣，所以给你准备了下面的资料~

这份完整版的Python全套学习资料已经上传，朋友们如果需要可以点击链接免费领取或者滑到最后扫描二v码保证100%免费】

python学习资源免费分享，保证100%免费！！！

需要的话可以点击这里👉Python学习路线（2023修正版）附涉及资料（安全链接，放心点击）

文末有福利领取哦~

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。在这里插入图片描述

二、Python必备开发工具

在这里插入图片描述

三、精品Python学习书籍

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

五、实战案例

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

六、Python练习题

检查学习结果。
在这里插入图片描述

七、面试资料

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。
在这里插入图片描述

👉这份完整版的Python全套学习资料已经上传，朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取【保证100%免费】
Python学习路线（2023修正版）附涉及资料《Python学习资料》，已经打包好了，自取【ps：需要领取的资料（请备注清楚，查找与发送给你）】。因链接常https://mp.weixin.qq.com/s/UVxw0daFCgAMFhz9cfrjAQ

程序员柚柚

关注

4
点赞
踩
34

收藏

觉得还不错? 一键收藏
0
评论
Python 爬取网页数据的两种方法

网络抓取是从任何网站或任何其他信息源中提取数据的过程，以你想要查看的格式保存在你的系统中；包含格式很多，例如CSV、Excel等；文件、XML、JSON等等。Python是最常见的网页抓取语言之一；对于任何网络抓取活动，Python被认为是确保此过程无任何错误进行的最佳方法；
复制链接

扫一扫

专栏目录