0代码！2分钟上手！！如何利用Web Scraper插件爬取在线课堂讨论区

whynotallowCN

已于 2023-12-02 19:18:32 修改

阅读量1.4k

点赞数 26

文章标签：开发语言爬虫 matlab chatgpt

于 2023-12-01 10:16:23 首次发布

本文链接：https://blog.csdn.net/whynotallowCN/article/details/134728051

版权

1、使用Web Scraper爬取讨论区

1.1 安装Web Scraper插件

1.2 使用Web Scraper创建Sitemap

1.3 爬取需要的内容

2、使用MATLAB处理爬取的内容并生成关键词

        大学里，课程往往安排了线上学习内容，有些课程还需要参与在线讨论。为了节省我们宝贵的时间来~~打游戏~~写论文，可以直接爬取讨论区的内容并提取关键词，利用关键词直接写作。
        本文将介绍如何使用Web Scraper插件爬取在线课堂的讨论区，并使用MATLAB进行内容筛选和关键词提取。
        软件要求：Chrome或Edge+Web Scraper+MATLAB

以Edge浏览器爬取头歌课堂讨论区为例

1、使用Web Scraper爬取讨论区

1.1 安装Web Scraper插件

如图，按箭头顺序依次打开扩展按钮、“打开Microsoft Edge加载项”，在打开的界面中搜索Web Scraper，并点击获取按钮。

安装好后，就可以点击扩展按钮看到Web Scraper啦！

1.2 使用Web Scraper创建Sitemap

点击这个这个插件，会提示“Press F12 or Ctrl+Shift+I to open Developer Tools”。那么我们通过按F12或者Ctrl+Shift+I打开开发者工具界面。

不出意外，我们可以在开发者工具界面中看到Web Scraper的选项，点击Web Scraper。

在选项栏中点击Create new sitemap，在展开的选项中点击Create Sitemap。

之后会出现如上图所示界面，需要我们填写要爬取的网站信息。Sitemap name可以随便填，只是为了方便记忆，这里我设置的名称为“123”。Start URL 1填写要爬取的网站url。如何找到要爬取的网站的url呢？
以头歌教学平台为例，首先打开要爬取的课程的讨论区，点击第一个（最新的）你想爬取的发言，如图所示

复制顶端的链接，填到Start URL 1中。注意到复制的网址末尾是一串6位的数字x，这一般表示讨论的序号。再打开最后一个（最晚的）你想爬取的发言，只需要复制链接最后的数字y即可。

将这个数字按照下图的形式填入Start URL 1中，即[x-y:1]。

如果直接填入的网址无法运行，在讨论区按F12打开开发者工具，点击选项中的“网络”，之后打开你想爬取的发言，“网络”界面下会出现请求名称，点击该请求，即可看到该网站的URL。

点击Save Sitemap保存设置。会出现下图所示的界面，点击Add new selector。ID填入container1，Type选择text，Selector选择select。

点击select后就可以直接用鼠标点击想要爬取的网站元素，这里直接点击发言内容。

如果网页中有多个相同元素需要勾选，只需要点击前两个相同元素，工具就会自动选中剩余的元素。
选择完后点击Done selecting，并点击Save selector，这样就创建好了一个Selector。一个Selector只能爬取网页中的一种元素，因此如果要爬取多种元素，需要创建多个Selector。这里我需要爬取发言的标题、内容和作者姓名，因此创建了三个Selector。在创建时记得取消Multiple选项，否则同一页面的三个元素会被放在不同行。

设置好Selector后，可以点击Selector后面的Element preview预览要爬取的元素。

1.3 爬取需要的内容

点击Sitemap 123（这里的123是之前设置的Sitemap name），在展开菜单中点击Scrape，在弹出的页面中点击Start Scraping即可开始爬取。

结束爬取之后，点击Refresh按钮即可看到爬取的内容，点击Export data，选择xlsx格式文件即可导出爬取的内容。

可以看到已经爬取了标题、内容和作者的信息。不过由于部分课程共同使用一个讨论区URL，因此爬取的内容还包含了其他课程的讨论区。在下一部分我将介绍如何使用MATLAB处理这些数据并提取关键词。

2、使用MATLAB处理爬取的内容并生成关键词

使用第一部分中同样的方法爬取课程的学生名单，导出数据命名为“tougestudent.xlsx”。利用代码筛选出本课程的学生发言内容。代码如下

[~,txt]=xlsread('C:\Users\HP\Downloads\tougestudent.xlsx');
[~,content]=xlsread('C:\Users\HP\Downloads\123.xlsx');
[m,n]=size(content);
s1=['"'];
s2=['"'];
a={};
for i =1:m
    s3 = strcat(s1,content{i,5});
    s4 = strcat(s3,s2);
    if ismember(s4,txt)
        a{end+1,1}=content{i,3};
        a{end,2}=content{i,4};
        a{end,3}=content{i,5};
    end
end
filetitle=['C:\Users\HP\desktop\','内容.xlsx'];
xlswrite(filetitle,a);

运行之后会在桌面生成一个“内容.xlsx”文件，复制其中的讨论内容，粘贴到词云生成网站中即可生成关键词。之后利用关键词和学习内容自己写作或者交给ChatGPT帮忙写都可以啦。