Java学习笔记:HTML基础

本教程介绍如何使用Java编写程序来抓取网页内容,适用于获取无API的数据源。涵盖HTML基础知识、网页抓取技巧及HTML解析方法。

本阶段说明

1、目标:编写Java程序对于网页中的内容进行提取。

2、用途:获取没有提供接口的网站中的数据。比如分析购物网站的价格;获取竞争对手网站的关键信息;抓取网站上的信息做数据分析。

3、主要内容:HTML基础;Java中抓取网站内容;Java中进行HTML分析;

4、网站内容一直在变,可能你看的时候的网站内容和讲课时候不一样了,学思想,而不是死记硬背。

5、建议用Chrome浏览器,有的浏览器可能不行。

Warning:遵纪守法!

浏览网站过程

1、我们在浏览器上输入网址并且回车,之后发生了什么?

什么是HTML

1、服务器并不是把网页的图像传递给浏览器,而是给到一个HTML的文本文档,因为这样不仅节省流量,而且浏览器可以根据分辨率,设备等进行不同的图形渲染。以youzack.com在不同分辨率下为例。

2、通过查看源码的形式查看一下HTML的内容。

3、对于写爬虫来讲,不需要会写HTML,只要能读懂HTML即可。

 

<Family>

</Family>

标签(节点)可以有属性:

<Family Addr="北京市。。。" Tel="010-333">

</Family>

标签可以嵌套,标签可以有子标签

<Family>  父节点

  <Father>光头强</Father>   子节点

  <Mother Name="翠花" Age="18">

  <head></head>

  <body></body>

  </Mother>

  <Children>

     <Child Age="5">Tom</Child>

     <Child Age="8">Lily</Child>

  </Children>

</Family>

HTML整体结构

HTML常用元素 

1、div代表划分的一个“区域”,可以嵌套(父子关系)。div是进行页面布局的经典元素。

2、超链接是a,内部文本是超链接显示内容,href属性为超链接的网址,可以是相对路径,也可以是绝对路径,也可以是全网址。

3、图片是img,src是图片的路径,可以是相对路径,也可以是绝对路径,也可以是全网址。

4、id是唯一的编号;name是名字,可能重复;class是样式名,一个元素可以有多个样式名;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值