爬虫基础原理 Zero to Hero (一)

最新推荐文章于 2024-05-25 14:58:14 发布

伊洛的小屋

最新推荐文章于 2024-05-25 14:58:14 发布

阅读量395

点赞数 1

分类专栏：爬虫文章标签：网络数据库 python java linux

本文链接：https://blog.csdn.net/weixin_44386231/article/details/103824383

版权

1 篇文章 0 订阅

订阅专栏

网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人

本文首发于伊洛的个人博客：https://yiluotalk.com，欢迎关注并查看更多内容！！！

其实通俗的来讲，本质上爬虫就是自动化的程序，自动化模拟人的操作。比如在网站上下载小说，下载图片，下载视频等等。如果让你本人下载1-2张图片可能很容易，但是如果让你下载100张甚至10000张图片的话，就一定会发狂了。所以就交给自动化的爬虫来帮你下载10000张图片！解放你的双手～

# 伊洛Yiluo
# https://yiluotalk.com
>>> import requests
>>> r = requests.get("https://yiluotalk.com")
>>> print(r.status_code)
200

# 伊洛Yiluo
# https://yiluotalk.com
print(r.text)

5.保存数据

保存数据一般分为以下几种，后续展开来讲
纯文本， Json Xml，关系形数据库（Mysql），非关系型数据库（Mongodb），二进制文件等

由于一些网站的页面是动态获取的，所以最后你看到的页面可能是通过js渲染出来的，那么怎么来处理呢，简单的可以分为
1.分析ajax请求，json格式字符串
2.selenium webdriver 浏览器驱动
3.splash
4.pyv8，ghost8

这里先简单的介绍下模拟人工浏览器的方式，也就是 WEB自动化测试经常用到的，selenium ，可以翻下伊洛之前介绍selenium webdriver自动化测试的的相关文章
依旧是访问 https://yiluotalk.com
输入网址
这样通过浏览器驱动的方式访问的就会正确的获得响应的所有信息

在这里插入图片描述

欢迎下方【戳一下】【点赞】
Author：伊洛Yiluo
愿你享受每一天，Just Enjoy !

关注公众号获取更多内容

关注