如何利用MATLAB爬取需要登录的网站

最新推荐文章于 2023-01-27 17:24:27 发布

且听数据说

最新推荐文章于 2023-01-27 17:24:27 发布

阅读量2.3k

点赞数 3

分类专栏： MATLAB 文章标签： matlab cookie

本文链接：https://blog.csdn.net/weixin_44033063/article/details/106670285

版权

MATLAB 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

Author	Bryce230
e-mail	2540892461@qq.com
Software	win10，Matlab2018a

可以参考的文章有这两篇：
如何用 Python 爬取需要登录的网站？
需要登陆网站后才能获取数据的页面爬取
不过他们都是用python实现的，网上关于MATLAB爬取需要登录的网站资源较少，刚好今天研究了下，在此记录分享。

我用的是获取’User-Agent’和 'Cookie’直接请求登录，爬取内容为自己学院的历届就业信息。
1）首先获取需要爬取的网站，并存入url变量；

url = ['你需要爬取网站的网址'];

2）然后利用用户名和密码登录网站，之后获取’User-Agent’和 ‘Cookie’；获取方法可以参考这篇文章：如何获得浏览器在网站的cookie？

笔记本电脑查看需要用 “Fn+F12”

在这里插入图片描述 3）获取 ‘Referer’，这个一般是网站的前面一部分内容，比如：
网站为：‘http://www.job.cqu.edu.cn/affair/lnjydw/search/do1…’（后三点表示网站未写完整，仅做演示使用）
则 “Referer” 为：‘http://www.job.cqu.edu.cn/affair’
4) 我们利用的是webread函数爬取，需要设置’option’，格式一般为：

option = weboptions('RequestMethod','auto','HeaderFields',...
    {'User-Agent',User_Agent;'cookie',cookie;'Referer',Referer},'ContentType','text');

5）最后把内容写入’content’即可
一般来说都需要爬取多页，所以使用for循环即可，同时更新程序中网站的page；后续处理可以使用正则表达式，关于正则表达式的使用法则，可以参考这篇文章：Matlab-------regexp正则表达式
6）提取完毕之后，利用xlswrite函数写入Excel，便于后续的查看处理。（只截取了部分内容）
在这里插入图片描述总结
可以看到，整个爬取过程并不难，现在网上资源很丰富，基本遇到的问题都可以找到相关的解决办法，只要你真的用心找了；网上python的资源比较多，但是MATLAB遇到问题，完全可以参考python的解决办法，有时候不要局限于一种语言。