Java学习笔记：HTML基础

原创于 2022-10-02 00:01:56 发布 · 330 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#java #学习 #开发语言

java 专栏收录该内容

86 篇文章

订阅专栏

本教程介绍如何使用Java编写程序来抓取网页内容，适用于获取无API的数据源。涵盖HTML基础知识、网页抓取技巧及HTML解析方法。

本阶段说明

1、目标：编写Java程序对于网页中的内容进行提取。

2、用途：获取没有提供接口的网站中的数据。比如分析购物网站的价格；获取竞争对手网站的关键信息；抓取网站上的信息做数据分析。

3、主要内容：HTML基础；Java中抓取网站内容；Java中进行HTML分析；

4、网站内容一直在变，可能你看的时候的网站内容和讲课时候不一样了，学思想，而不是死记硬背。

5、建议用Chrome浏览器，有的浏览器可能不行。

Warning：遵纪守法！

浏览网站过程

1、我们在浏览器上输入网址并且回车，之后发生了什么？

什么是HTML

1、服务器并不是把网页的图像传递给浏览器，而是给到一个HTML的文本文档，因为这样不仅节省流量，而且浏览器可以根据分辨率，设备等进行不同的图形渲染。以youzack.com在不同分辨率下为例。

2、通过查看源码的形式查看一下HTML的内容。

3、对于写爬虫来讲，不需要会写HTML，只要能读懂HTML即可。

<Family>

</Family>

标签（节点）可以有属性：

<Family Addr="北京市。。。" Tel="010-333">

</Family>

标签可以嵌套，标签可以有子标签

<Family> 父节点

<Father>光头强</Father> 子节点

<Mother Name="翠花" Age="18">

<head></head>

<body></body>

</Mother>

<Children>

<Child Age="5">Tom</Child>

<Child Age="8">Lily</Child>

</Children>

</Family>

HTML整体结构

HTML常用元素

1、div代表划分的一个“区域”，可以嵌套（父子关系）。div是进行页面布局的经典元素。

2、超链接是a，内部文本是超链接显示内容，href属性为超链接的网址，可以是相对路径，也可以是绝对路径，也可以是全网址。

3、图片是img，src是图片的路径，可以是相对路径，也可以是绝对路径，也可以是全网址。

4、id是唯一的编号；name是名字，可能重复；class是样式名，一个元素可以有多个样式名；

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。