在校练习的日常，

最新推荐文章于 2024-09-23 17:00:37 发布

辛辛来喽

最新推荐文章于 2024-09-23 17:00:37 发布

阅读量59

点赞数

文章标签：大数据 mysql 爬虫

本文链接：https://blog.csdn.net/xin9815/article/details/110399738

版权

操作实例：搞笑段子

哈喽哈喽

首先我们要导入我们所需要的包，专业话就是导包，导包一共有两种方式，可以先导入，也可以边写程序边导入，建议先导入，这样可以有效避免，在你思考如何写程序的时候，打断你的思路。前提是你一定要知道要使用那些数据。新手党的话还是选择第二种比较好。*
*
*

*
*
*
下边就是我们所需要为后期把爬取到的数据写入数据库做铺垫，也可以直接理解为数据库的准备工作，也可以先不写，直接进入主程序。
因为这个不是我的电脑，是临时写的一份，所以没有添加备注，我后边会再写一份详细一点的。

数据库前缀
*
*
*
现在就是我们爬取网页的一些常规操作，
伪装头跟身体，我这里因为是爬取的多页网页，所以就用了函数来写伪装头，不用一遍一遍的去更改再运行，
特别注意：编码不能忘记了，网页的组成是多种多样的，不可能每个网页都一样。
网页不一样，爬取的方式也不一样。*
*
*

*
*
*

这里就是，我爬取网页的数据了，我只是爬取了，搞笑段子的名字，跟内容，所以代码比较简洁，也为了你们好理解，大体的都一样，只要就是看你对指令的熟练程度了，
大体分为几个步骤：
1.在网页找到你所需要的数据的地方，然后F12打开后台，然后用指针选择你需要的数据方位，
2.先选择整体数据
3.然后再选择到单页面数据，
4.再到个体数据
5.最终才到你需要的数据，
6.标签的类型有很多（div，a，i，h 这些的话是常规标签，还有很多其他的）

如果数据在这一个页面就这一个属性的话，你就可以直接获取你的最终数据位置，反之就要一步一步写了
一定要记住，一定要一步一步来，要不然后边会特别麻烦，
最后别忘了输出你导出的数据欧，
*

在这里插入图片描述
*
*
*

下边就是要用函数来引用你的网址了，
先去看网页地址，每页的变化方式，所有的变化都是有方式的，在设计你要用神魔方法得到他的网址，并使用它的伪装头，一遍又一遍的读取你需要的数据。
把伪装头跟身体拼在一起，还有他的网址。去访问他的数据，并收集到本地，
*
*
*
在这里插入图片描述
*
*
*
这也就是最后一步，跟开头的数据库代码是对应的，就是把你获取到的数据传到你所连接的数据库里面。
*
*
*