在校练习的日常,

操作实例:搞笑段子

哈喽哈喽

首先我们要导入我们所需要的包,专业话就是导包,导包一共有两种方式,可以先导入,也可以边写程序边导入,建议先导入,这样可以有效避免,在你思考如何写程序的时候,打断你的思路。前提是你一定要知道要使用那些数据。新手党的话还是选择第二种比较好。*
*
*
导包
*
*
*
下边就是我们所需要为后期把爬取到的数据写入数据库做铺垫,也可以直接理解为数据库的准备工作,也可以先不写,直接进入主程序。
因为这个不是我的电脑,是临时写的一份,所以没有添加备注,我后边会再写一份详细一点的

数据库前缀
*
*
*
现在就是我们爬取网页的一些常规操作,
伪装头跟身体,我这里因为是爬取的多页网页,所以就用了函数来写伪装头,不用一遍一遍的去更改再运行,
特别注意:编码不能忘记了,网页的组成是多种多样的,不可能每个网页都一样。
网页不一样,爬取的方式也不一样。
*
*
*
编码
*
*
*

这里就是,我爬取网页的数据了,我只是爬取了,搞笑段子的名字,跟内容,所以代码比较简洁,也为了你们好理解,大体的都一样,只要就是看你对指令的熟练程度了,
大体分为几个步骤:
1.在网页找到你所需要的数据的地方,然后F12打开后台,然后用指针选择你需要的数据方位,
2.先选择整体数据
3.然后再选择到单页面数据,
4.再到个体数据
5.最终才到你需要的数据,
6.标签的类型有很多(div,a,i,h 这些的话是常规标签,还有很多其他的)

如果数据在这一个页面就这一个属性的话,你就可以直接获取你的最终数据位置,反之就要一步一步写了
一定要记住,一定要一步一步来,要不然后边会特别麻烦,
最后别忘了输出你导出的数据欧

*

在这里插入图片描述
*
*
*

下边就是要用函数来引用你的网址了,
先去看网页地址,每页的变化方式,所有的变化都是有方式的,在设计你要用神魔方法得到他的网址,并使用它的伪装头,一遍又一遍的读取你需要的数据。
把伪装头跟身体拼在一起,还有他的网址。去访问他的数据,并收集到本地,

*
*
*
在这里插入图片描述
*
*
*
这也就是最后一步,跟开头的数据库代码是对应的,就是把你获取到的数据传到你所连接的数据库里面。
*
*
*
在这里插入图片描述

来看一下成果吧。

在这里插入图片描述

中间的那一个字段是另外的一个数据,我现在也在学习破解他的方法

就是因为我一直在尝试爬取他的数据,导致我运行的次太多,被他们的网址发现,
导致我的id被封禁了,现在还不知道神魔时候能解禁,
所以各位小伙伴,练习的时候一定要用代理id欧,别怕花钱,网页上也有很多免费版的id欧

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值