如何利用MATLAB爬取需要登录的网站

AuthorBryce230
e-mail2540892461@qq.com
Softwarewin10,Matlab2018a

可以参考的文章有这两篇:
如何用 Python 爬取需要登录的网站?
需要登陆网站后才能获取数据的页面爬取
不过他们都是用python实现的,网上关于MATLAB爬取需要登录的网站资源较少,刚好今天研究了下,在此记录分享。

我用的是获取’User-Agent’和 'Cookie’直接请求登录,爬取内容为自己学院的历届就业信息。
1)首先获取需要爬取的网站,并存入url变量;

url = ['你需要爬取网站的网址'];

2)然后利用用户名和密码登录网站,之后获取’User-Agent’和 ‘Cookie’;获取方法可以参考这篇文章:如何获得浏览器在网站的cookie?

笔记本电脑查看需要用 “Fn+F12”

在这里插入图片描述3)获取 ‘Referer’,这个一般是网站的前面一部分内容,比如:
网站为:‘http://www.job.cqu.edu.cn/affair/lnjydw/search/do1…’(后三点表示网站未写完整,仅做演示使用)
“Referer” 为:‘http://www.job.cqu.edu.cn/affair’
4) 我们利用的是webread函数爬取,需要设置’option’,格式一般为:

option = weboptions('RequestMethod','auto','HeaderFields',...
    {'User-Agent',User_Agent;'cookie',cookie;'Referer',Referer},'ContentType','text');

5)最后把内容写入’content’即可
一般来说都需要爬取多页,所以使用for循环即可,同时更新程序中网站的page;后续处理可以使用正则表达式,关于正则表达式的使用法则,可以参考这篇文章:Matlab-------regexp正则表达式
6)提取完毕之后,利用xlswrite函数写入Excel,便于后续的查看处理。(只截取了部分内容)
在这里插入图片描述总结
可以看到,整个爬取过程并不难,现在网上资源很丰富,基本遇到的问题都可以找到相关的解决办法,只要你真的用心找了;网上python的资源比较多,但是MATLAB遇到问题,完全可以参考python的解决办法,有时候不要局限于一种语言。

  • 3
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值