网络协议从入门到底层原理（11）网络爬虫、无线网络、HTTP缓存、即时通信、流媒体

最新推荐文章于 2024-05-09 22:09:58 发布

萌宅鹿同学

最新推荐文章于 2024-05-09 22:09:58 发布

阅读量1.5k

点赞数 5

分类专栏： # 《网络协议从入门到底层原理》文章标签：网络 http 网络协议

本文链接：https://blog.csdn.net/weixin_43734095/article/details/113332815

版权

《网络协议从入门到底层原理》专栏收录该内容

12 篇文章 148 订阅

订阅专栏

补充知识

网络爬虫
- 网络爬虫的简易实例
- robots.txt
无线网络
HTTP 缓存（Cache）
即时通信（IM）
- XMPP
- MQTT
流媒体 - 常见协议（RTP、RTCP、RTSP、RTMP、HLS）

【网络协议从入门到底层原理】学习笔记汇总

网络爬虫

网络爬虫 (Web Crawler)，也叫做网络蜘蛛 (Web Spider)

模拟人类使用浏览器操作页面的行为，对页面进行相关的操作
常用爬虫工具：Python 的 Scrapy框架

网络爬虫 - 搜索引擎

网络爬虫的简易实例

可以使用Java的一个小框架Jsoup爬一些简单的数据

jar包：jsoup、commons-io
https://jsoup.org/packages/jsoup-1.13.1.jar
https://mirror.bit.edu.cn/apache//commons/io/binaries/commons-io-2.8.0-bin.zip
爬取目标：https://ext.se.360.cn/webstore/categor

import org.apache.commons.io.FileUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.File;
import java.net.URL;

public class Main {
    public static void main(String[] args) throws Exception {
        // 请求网站：https://ext.se.360.cn/webstore/category
        // Jsoup使用CSS选择器来查找元素
        String dir = "C:/Users/yusael/Desktop/imgs/"; // 爬取后的存放路径
        String url = "https://ext.se.360.cn/webstore/category";
        Document doc = Jsoup.connect(url).get();
        Elements eles = doc.select(".applist .appwrap");
        for (Element ele : eles) {
            String img = ele.selectFirst("img").attr("src");
            String title = ele.selectFirst("h3").text();
            String intro = ele.selectFirst(".intro").text();

            // 下载图片
            String filepath = dir + (title + ".png");
            FileUtils.copyURLToFile(new URL(img), new File(filepath));
        }
    }
}

robots.txt

robots.txt 是存放于网站根目录下的文本文件，比如 https://www.baidu.com/robots.txt

用来告诉爬虫：哪些内容是不应被爬取的，哪些是可以被爬取的
因为一些系统中的URL是大小写敏感的，所以 robots.txt 的文件名应统一为小写

robots.txt 并不是一个规范，而只是约定俗成的，所以并不能保证网站的隐私

只能防君子，不能防小人
无法阻止不讲 “武德” 的年轻爬虫爬取隐私信息

一般格式：

例如：京东的 robots.txt：https://www.jd.com/robots.txt
User-agent: * 
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /
京东不允许 EtaoSpider、HuihuiSpider、GwdangSpider、WochachaSpider 爬取网站所有网页；
京东不允许一般用户爬取根目录下pop目录里所有html网页 (Disallow: /pop/*.html)，pinpai目录里所有html带?问号的页面 (Disallow: /pinpai/*.html?*)；
不允许一般用户爬取根目录下带?问号的所有页面 (Disallow: /?*)。
除了这些外，其他的都可以爬取。