1.HTML
HTML是整个网页的结构,相当于框架。任何<>中的内容都是HTML中的内容
<html>..</html> 表示标记中间的元素是网页
<body>..</body> 表示用户可见的内容
<div>..</div> 表示框架
<p>..</p> 表示段落
<li>..</li>表示列表
<img>..</img>表示图片
<h1>..</h1>表示标题
<a href="">..</a>表示超链接
2.CSS
CSS表示样式
如:<style type="text/css">表示下面引用一个 CSS,在 CSS 中定义了外观。
3.JScript
JScript表示功能,交互的内容和各种特效都在其中。
4.
部分网站设有robots.txt文档,部分未设有。对于已设有的网站,爬虫无法获得所有的信息,只能获得部分信息;而对于未设有的网站,爬虫可获取所有的信息。
只是一点点,其他的,等我熟了在传。