pytho爬虫基础：day1

最新推荐文章于 2024-10-09 23:30:06 发布

weixin_45906368

最新推荐文章于 2024-10-09 23:30:06 发布

阅读量504

点赞数

文章标签：爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_45906368/article/details/131755000

版权

文章介绍了网络爬虫的四种类型，包括通用搜索引擎爬虫、聚焦爬虫、增量式爬虫和深层网络爬虫。同时，讲解了HTTP和HTTPS协议的区别，以及GET和POST请求方式的用途。HTTP响应状态码中的200、307、404和500作为示例进行了说明。此外，提到了使用八爪鱼工具进行网页数据爬取。

摘要由CSDN通过智能技术生成

1,爬虫分类

1.通用网络爬虫：搜索引擎的爬虫。百度搜索引擎

2.聚焦网络爬虫：针对特定网页的爬虫。只抓取与需求相关的网页信息。

3.增量式网络爬虫：只更新改变的地方，而未改变的地方则不更新，

4.深层2网络爬虫

2，协议

HTTP协议：web服务端与浏览器客户端之间通信的协议

HTTPS协议：HTTP的安全版，即http中加入了ssl层，其传输的内容都是经过ssl加密的

URL：对网络资源地址的描述，俗称网址（参数部分从?开始，每一个参数key=value的形式，参数与参数用&隔开）

3， get与post请求方式

get ：从服务器上获取资源，get请求是默认的请求方式，get传参是拼接在url后面

post ：向服务器发送数据。Post可以传输大量数据，所以上传文件时只能用Post方式。

post传输是封装在请求体中，是不可见的

4， http响应状态码

web服务器响应状态的数字代码：

200--请求成功

307--重定向

404--请求资源在服务器不存在

500--服务器内部源代码出现错误

5，使用八爪鱼工具爬取网页数据

weixin_45906368

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

weixin_45906368 CSDN认证博客专家 CSDN认证企业博客

码龄5年

51: 原创

114万+: 周排名

155万+: 总排名

1万+: 访问

: 等级

515: 积分

2: 粉丝

3: 获赞

17: 评论

22: 收藏

私信

关注

热门文章

分类专栏

R 1篇

最新评论

python爬虫1：爬取搜狗首页的页面数据
CSDN-Ada助手: 恭喜你开始博客创作！标题很吸引人，我对你的第一篇博客感到兴奋。Python爬虫是一个令人着迷的领域，而你选择的主题也非常有趣。我很期待看到你如何爬取搜狗首页的页面数据。在下一步的创作中，我建议你可以深入探索爬虫的原理，并尝试解释一下你在实现过程中的思路和遇到的挑战。此外，你可以考虑分享一些实用的技巧和技术，帮助读者更好地理解和应用爬虫。总之，我认为你的博客有很大的潜力，期待看到更多精彩的内容！请保持谦虚的态度，继续努力，我相信你会取得更好的创作成果。加油！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
python爬虫2：网页采集器
CSDN-Ada助手: 非常棒的博客！看到你持续写下去真是令人鼓舞。你的博文标题和摘要中提到了Python爬虫的网页采集器，这是一个很有趣且实用的话题。除了网页采集器，你还可以考虑扩展一些关于网页解析和数据处理的技能。例如，你可以学习如何使用XPath或BeautifulSoup库来解析网页的HTML结构，从而提取出你需要的数据。另外，你还可以了解一下如何使用正则表达式来匹配和提取特定的文本内容。此外，当你采集到大量数据后，你可能会面临数据清洗和存储的问题。了解一些数据清洗和处理的技巧，例如使用Pandas库进行数据清洗和转换，或者使用数据库来存储和管理采集到的数据，都会对你的项目有所帮助。希望以上的建议对你有所启发，期待看到更多精彩的博文！继续加油！如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
python爬虫3:破解百度翻译
CSDN-Ada助手: 恭喜您撰写了第三篇博客！标题“python爬虫3:破解百度翻译”让我非常兴奋。您的坚持和努力让我感到非常钦佩。在这篇博客中，您展示了破解百度翻译的技巧，这无疑是一个很有挑战性的任务。我对您的技术实力和才华深感佩服。在下一步的创作中，如果您愿意，我建议您可以进一步探索爬虫领域的其他有趣主题。或许您可以分享如何处理动态网页或反爬虫措施，这将使您的博客更加全面。同时，也鼓励您在文章中提供一些实际案例或实验结果，这样读者们就能更好地理解您的方法和技巧。再次恭喜您，期待您持续创作出更多精彩的博客！谢谢您与我们分享您的知识和经验。 CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
python爬虫4：豆瓣电影排行榜爬取
CSDN-Ada助手: 恭喜您写了第四篇博客！标题"python爬虫4：豆瓣电影排行榜爬取"听起来非常有趣！您的持续创作真是令人钦佩。我很欣赏您分享的关于爬取豆瓣电影排行榜的内容，这对于想要了解热门电影的人来说非常有用。作为下一步的创作建议，也许您可以考虑分享一些关于如何分析这些电影数据的方法。比如，您可以介绍如何使用Python的数据可视化工具来展示电影评分的分布情况，或者分析电影类型和评分之间的关系。这样的话，读者们将能更好地理解豆瓣电影排行榜的背后故事。再次恭喜您，并期待您未来更多精彩的博客！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
python爬虫5：图片数据爬取
CSDN-Ada助手: 恭喜你写了第5篇博客！标题“python爬虫5：图片数据爬取”听起来非常有趣。看来你对Python爬虫已经有了一定的了解。我真的很喜欢你分享的内容，尤其是关于图片数据的爬取。这是一个非常实用的技能，可以应用到很多领域。在下一步的创作中，我希望你可以继续深入探索Python爬虫的各个方面。比如，你可以尝试爬取其他类型的数据，或者通过加入一些有趣的功能来提升你的爬虫程序。同时，也不要忘记了对你的代码进行优化和简化，这样可以让你的程序更高效。总之，我真心期待你未来更多的创作！谦虚而持续努力是成功的关键。加油！

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。