本阶段说明
1、目标:编写Java程序对于网页中的内容进行提取。
2、用途:获取没有提供接口的网站中的数据。比如分析购物网站的价格;获取竞争对手网站的关键信息;抓取网站上的信息做数据分析。
3、主要内容:HTML基础;Java中抓取网站内容;Java中进行HTML分析;
4、网站内容一直在变,可能你看的时候的网站内容和讲课时候不一样了,学思想,而不是死记硬背。
5、建议用Chrome浏览器,有的浏览器可能不行。
Warning:遵纪守法!
浏览网站过程
1、我们在浏览器上输入网址并且回车,之后发生了什么?

什么是HTML
1、服务器并不是把网页的图像传递给浏览器,而是给到一个HTML的文本文档,因为这样不仅节省流量,而且浏览器可以根据分辨率,设备等进行不同的图形渲染。以youzack.com在不同分辨率下为例。
2、通过查看源码的形式查看一下HTML的内容。
3、对于写爬虫来讲,不需要会写HTML,只要能读懂HTML即可。
<Family>
</Family>
标签(节点)可以有属性:
<Family Addr="北京市。。。" Tel="010-333">
</Family>
标签可以嵌套,标签可以有子标签
<Family> 父节点
<Father>光头强</Father> 子节点
<Mother Name="翠花" Age="18">
<head></head>
<body></body>
</Mother>
<Children>
<Child Age="5">Tom</Child>
<Child Age="8">Lily</Child>
</Children>
</Family>
HTML整体结构

HTML常用元素
1、div代表划分的一个“区域”,可以嵌套(父子关系)。div是进行页面布局的经典元素。
2、超链接是a,内部文本是超链接显示内容,href属性为超链接的网址,可以是相对路径,也可以是绝对路径,也可以是全网址。
3、图片是img,src是图片的路径,可以是相对路径,也可以是绝对路径,也可以是全网址。
4、id是唯一的编号;name是名字,可能重复;class是样式名,一个元素可以有多个样式名;
本教程介绍如何使用Java编写程序来抓取网页内容,适用于获取无API的数据源。涵盖HTML基础知识、网页抓取技巧及HTML解析方法。
1585

被折叠的 条评论
为什么被折叠?



