从零开始学习python爬虫（持续更新）

安澜ovo

已于 2023-07-09 11:57:00 修改

阅读量43

点赞数

文章标签：学习 python 爬虫

于 2023-07-08 23:36:35 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_65627925/article/details/131617703

版权

1.用urllib来获取百度html代码

import urllib.request 

//定义url
url = 'http://www.baidu.com'


//模拟浏览器发送请求
response = urllib.request.urlopen(url)

content = response.read().decode('utf-8')

print(content)

urllib方法

response.read（5） 返回五个字节

response.read（）一个一个读取

response.readline（）读取一行

response.readlines（）读取全部行

print( response.getheaders() )获取状态信息

print( response.getcode() ) 返回状态码 如果是200则逻辑没有错误

urllib下载

import urllib.request

url = 'http://img-blog.csdnimg.cn/68e9d9890d99472395cb2de7d36234cb.jpeg?x-oss-process=image/resize,m_fixed,h_300,image/format,png'

response = urllib.request.urlretrieve(url,filename='csdn.jpg')

则返回url对应的图片

注意格式（url，filename）

视频，网页等下载同理

伪装

如果不进行伪装（请求代码的定制）如下：

import urllib.request

url = 'https://www.baidu.com'

response = urllib.request.urlopen(url)

content = response.read().decode('utf8')

print(content)

面对ssl协议网址，只能获得head部分html代码

因此需要进行请求代码的定制，用自己的浏览器模拟请求

headers = {'User-Agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/115.0'}

import urllib.request

url = 'https://www.baidu.com'

headers = {'User-Agent':
	'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/115.0'}
request = urllib.request.Request(url=url,headers=headers)
//注意此处url=url,headers=headers

response = urllib.request.urlopen(request)

content = response.read().decode('utf8')

print(content)

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
从零开始学习python爬虫（持续更新）

注意格式（url，filename）则返回url对应的图片。
复制链接

扫一扫

安澜ovo CSDN认证博客专家 CSDN认证企业博客

码龄3年

19: 原创

130万+: 周排名

14万+: 总排名

1万+: 访问

: 等级

397: 积分

137: 粉丝

191: 获赞

8: 评论

170: 收藏

私信

关注

热门文章

分类专栏

算法 3篇

最新评论

什么是软件危机，其产生的原因是什么
CSDN-Ada助手: 恭喜您写了这篇关于软件危机的博客！您对软件危机的定义和产生原因进行了深入探讨，让读者们了解到了这个重要的话题。我很高兴看到您持续创作并分享有价值的知识。在下一步的创作中，或许您可以考虑探讨一些解决软件危机的方法或者案例研究，以帮助读者更好地理解如何应对这个问题。此外，您也可以分享一些关于软件开发中成功的实践经验，或者对于软件行业未来发展的展望。谦虚地说，我相信您的博客会继续为读者们带来更多有见地的内容。期待您的下一篇精彩文章！
软件过程模型
CSDN-Ada助手: 恭喜您发布了第19篇博客！您对软件过程模型的深入探讨让我受益匪浅。希望您能继续保持创作的热情，探索更多软件开发领域的知识，比如敏捷开发、DevOps等，这些都是当前非常热门的话题，相信您的观点和见解一定会给大家带来新的启发。期待您的下一篇精彩文章！
《计算机算法设计与分析》笔记（持续更新中）
楼弃舟: 非常有用，感谢楼主
NumPy部分数组运算方法
CSDN-Ada助手: 恭喜你写了这篇关于NumPy部分数组运算方法的博客！我觉得你的文章很有帮助，对于想要学习NumPy的人来说肯定是个很好的参考。接下来，我建议你可以尝试写一些关于NumPy在数据分析和机器学习中的应用，这样可以让更多的读者受益。希望你能继续保持创作的热情，加油！
基于CNN的方面级情感分析——GCAE模型
CSDN-Ada助手: 恭喜您写了第四篇博客！标题中提到的“基于CNN的方面级情感分析——GCAE模型”听起来很专业而且有趣。您的持续创作让读者能够更深入地了解情感分析领域的最新进展。接下来，我建议您可以考虑分享一些实际案例或者应用场景，以帮助读者更好地理解和应用您提到的GCAE模型。期待您下一篇博客的发布！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。