html解析器工作原理

本文将探讨HTML解析器的工作原理,通过一个简单的HTML文档实例,揭示解析过程中的关键步骤,包括文档结构分析、元素识别与处理等核心环节。
摘要由CSDN通过智能技术生成

先看一个简单的html文档

<html>
    <head>
        <title>test</title>
    </head>
    <body>
        <div style="height: 100px; border: 1px solid #ff0000; font-size: 24px; font-weight: bold;">Hello World!</div>
    </body>
</html>

1. 首先用一个类来描述一个节点

public class Node{
    private String nodeName;
    private int nodeType;
    private Map<String, String> attributes;
    private List<Node> childNodes;
    private Node parent;

    // getter & setter
    ...
}

然后我们开始对输入内容进行解析,解析的过程其实就是解析字符串的过程,为了便于解析先把源字符串封装成一个HtmlStream对象.

String source = IO.read(new File("test.html"), "UTF-8");
HtmlStream stream = new HtmlStream(source);

char c;
int i = 0;

// 忽略掉文档开头的空格
while((
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值