![](https://img-blog.csdnimg.cn/2020102115334371.jpg?x-oss-process=image/resize,m_fixed,h_224,w_224)
网络爬虫篇
文章平均质量分 78
本篇全部内容全部只用于学习,仅供参考,如用于商业发生商业纠纷,后果自负,一切与本人无关
有猫腻妖
网络爬虫中级工程师,主要研究方向网络爬虫,数据分析,数据挖掘,数据可视化,物联网应用,后端开发,人工智能
擅长python语言,精通java,Android,C#,C,JavaScript
欢迎各位大佬友好交流,大家相互进步
展开
-
知乎回答爬取
怎么爬取知乎的内容我们一步步来分析,首先打开知乎,来到我们要爬取的页面然后我们再来看看它的参数经过测试我们要填写对应的x-zse-96我们才能获取到对应的内容才行,并且每一个API对应的zse-96都不同,因此我们就需要去破解这个参数我们才能去获取对应的内容在这里就涉及到了js逆向思维了我们一步步来看首先先去查找对应的js的位置再进行分析判断点击search,然后把x-zse-96复制进去开始查找知道了思路,我们再来说说解法首先先说说MD5的解法得到了(l()(s)原创 2021-10-14 10:33:16 · 1609 阅读 · 0 评论 -
今目标爬取策略
今目标爬取策略破解过程破解今目标有几个方面要注意的:要用模拟登陆的方式才可以进去今目标的网站从而获取想要的数据在破解的时候,遇到反扒策略,登陆密码用到了sha加密算法破解登陆之后我们要怎么获取相应的内容首先我们打开今目标的官网我们只能登录过后才能获取到我们想要的数据,这就涉及到模拟登陆的问题了我们还是按照老规矩一步步来分析先,先点击登录按钮,然后打开f12,去抓包看看,模拟登陆的样子打开之后首先是这样的,然后打开我们的f12,记得把这个也勾选上,不然有时候可能有一些包获取不了然原创 2021-08-23 15:28:59 · 9456 阅读 · 1 评论 -
爬取天天基金网,做到科学合理定投
怎么科学合理的定投基金,使得自己的收益最高在基金里面有一个定投的功能,可以选定日期让系统自动帮你在这个时间点自动购买基金,这样可以帮助我们节省大量的时间,非常适合我这种懒人或者没什么时间但是又想去理财的人,但是这样有一点坏处就是你无法得知这个是否是最低点,因为都是选定一天,所以有时候会出现很尴尬的局面就是它下跌的时候不买入,它上升的时候却偏偏买入,这样一来二去我们的基金就往往没什么钱赚,甚至还抱着不亏本就好心态,所以为了既让我们可以存钱下来又可以帮助我们进行理财,我就根据天天基金网的估算净值来写了一个脚本原创 2021-07-30 22:17:10 · 17724 阅读 · 2 评论 -
用python搭建邮箱,自动收发邮箱
搭建邮件日报实战1、我们需要一个开源的Linux系统然后通过shell脚本,自动生成要发送的内容2、我们通过python 编写邮件发送程序发送邮件的协议是SMTP,首先我们先到邮箱的设置页面开启我们的服务# 下面编写 发送邮件正文的Python 脚本 send.py# 两个函数, 第一个基础功能发送邮件, 只包含正文, 第二个发送带有附件的邮件, 并抄送对应邮件地址# -*- coding: UTF-8 -*-import smtplibfrom email.header im原创 2020-10-22 17:19:49 · 19663 阅读 · 0 评论 -
怎么科学的学习爬虫知识
1、爬虫入门篇2、爬虫基础篇3、爬虫起步篇4、爬虫进阶篇5、怎么学好python推荐看这本书就好了《python面向对象》,一般能把这本书啃下来,基本python的很多东西都看得懂6、书栈网一个很好的网站,里面很多书都在里面,可以直接在这里找到你想要看的书,就没别必要乱花钱买一些不知道水有多深的书籍了。7、如果想成为一个出色的程序员必须要掌握的技能:算法、网络(TCP)、Linux内核(用户态内核态),算法的话多刷题就好了,网络就是计算机网络了,一般掌握这些基本功,有这些功底在,很多语言很快就学原创 2020-10-03 14:19:45 · 17540 阅读 · 0 评论 -
数据分析之数据清洗(四)
旅游招聘数据分析之数据清洗(四)在获取完我们的数据之后,就需要我们对数据进行清洗了,这个是一件很头疼的事情,麻烦,工作量大,首先我们先对我们的数据进行查重,毕竟那么多网站,有很多重复的,这些数据不仅没用而且还会增加我们的工作量,浪费时间,所以首先第一步就是查重了。建议最好先把全部数据放到一个Excel文件里面import pandas as pddata= pd.DataFrame(pd.read_excel('数据大集成.xlsx','Sheet1'))no_re_row = data.drop_原创 2020-08-18 18:35:34 · 18118 阅读 · 0 评论 -
数据分析之拉勾网(三)
数据分析之拉勾网(三)拉勾网,这里用谷歌是打不开的,只能换其他浏览器,同样和第一篇步骤一样,也是找动态接口[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传这里需要注意的是cookie,因为这里每个cookie都是不一样的,所以我们需要先获取它们的cookie,然后才能构建我们的headers,这样才能获取我们需要的信息,通过返回值把每个网页的cookie传到我们的自己搭建的headers里面,这样就可以获取到数据了def get_cookie(): url = 'http原创 2020-08-18 18:32:15 · 18060 阅读 · 0 评论 -
数据分析之大街网(二)
数据分析之大街网(二)[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传大街网的思路和上一篇思路是一样的,都是动态页面,需要我们耐心去找到他们的接口,然后根据接口给出来的URL:https://so.dajie.com/job/ajax/search/filter?keyword=%E5%AF%BC%E6%B8%B8&order=0&city=&recruitType=&salary=&experience=&page=1&pos原创 2020-08-18 18:30:35 · 18037 阅读 · 0 评论 -
数据分析之前程无忧(一)
数据分析之前程无忧(一)这个是我们要爬取的网站:前程无忧前程无忧的网站是一个动态网站来的,单纯去抓取是无法抓取的,所以我们得找到他的接口,打开网站按f12选择network选项卡显然这个就是我们需要的找到的接口了根据他给出来的URL接口https://search.51job.com/list/000000,000000,0000,00,9,99,%25E5%25AF%25BC%25E6%25B8%25B8,2,1.html?lang=c&postchannel=0000&wo原创 2020-08-18 18:27:12 · 18607 阅读 · 0 评论