打卡学习Python爬虫第一天|抓取百度首页html代码

使用集成开发环境PyCharm,并下载爬虫需要的库:

  • 网络请求库,用于发送 HTTP 请求和获取响应,如 requests、urllib、pycurl 等。
  • 解析库,用于分析和提取网页中的数据,如 BeautifulSoup、lxml、PyQuery 等。
  • 数据存储库,用于将爬取的数据存储到本地或远程数据库中,如 pymysql、pymongo、redisdump 等。
  • 爬虫框架,用于提供爬虫的基本结构和功能,如 Scrapy、Scrapy-Redis、Selenium 等。

下载方法:文件-->设置-->Python解析器 点击+号搜索下载:

# 需求:获取百度首页的html代码
# 步骤:
# 1. 导入urllib.request模块
# 2. 调用urlopen函数,传入URL地址,获取网页内容
# 3. 打印网页内容
# 4. 运行程序,查看结果
from urllib.request import urlopen
# 定义了一个变量url,并将其赋值为字符
url = 'http://www.baidu.com'
# 使用urlopen函数打开指定的URL(即百度网站),然后调用.read()方法读取网页的内容。读取的内容被赋值给变量html。
html = urlopen(url).read()
# 打印内容
print(html)

效果:

 成功获取到HTML代码,但出现中文乱码,添加字符编码:

from urllib.request import urlopen
# 定义了一个变量url,并将其赋值为字符
url = 'http://www.baidu.com'
# 使用urlopen函数打开指定的URL(即百度网站),然后调用.read()方法读取网页的内容。读取的内容被赋值给变量html。
html = urlopen(url).read().decode('utf-8')
# 打印内容
print(html)

 成功j解决中文乱码问题:

 将html内容写入文件baidu.html中:

from urllib.request import urlopen
# 定义了一个变量url,并将其赋值为字符
url = 'http://www.baidu.com'
# 使用urlopen函数打开指定的URL(即百度网站),然后调用.read()方法读取网页的内容。读取的内容被赋值给变量html。
html = urlopen(url).read().decode('utf-8')

# 将html内容写入文件baidu.html中
with open('baidu.html', 'w', encoding='utf-8') as f:
    f.write(html)
print("获取html成功")

baidu.html文件内容:

 baidu.html运行结果:获取成功!

 

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

你好皮~

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值