文章目录
前言
本系列对爬虫学习进行记录,内容大多为视频学习记录
一、域名
1.一级域名
https://douban.com
2.二级域名
https://movie.douban.com
3.其他
“文件夹”
https://movie.douban.com/subject/4920389/…
“参数”
https://movie.douban.com/subject/4920389/?from=showing
二、爬虫策略
1.从某个界面开始不断爬取界面上的链接
(1)深度优先搜索
(2)广度优先搜索
2.观察网址规律
通过观察网址规律直接改变网址中的部分内容
三、前端基础
前端三个重要的方面:HTML、CSS、Javascript
(一)HTML
(1)HyperText Markup Language
(2)网页最基本的要素
(3)通过标记语言的方式来组织内容(文字、图片、视频)
(4)可更改本地文字
1.HTML元素解析
(1)head\body
(2)<开始标签> 内容 </结束标签>
<p>这是一个段落</p>
(3)属性
<p class="demo-note">这是一个段落</p>
(4)嵌套
<p>这是一个<strong>段落</strong></p>
(5)图像标签可以不需要结束标签
<img scr="pic.png">
2.常用HTML标签
(1)标题
<h1>一级标题</h1>
...
<h6>六级标题</h6>
(2)段落
<p>这是一个段落</p>
(3)无序列表
<ul>
<li>python</li>
<li>java</li>
<li>c++</li>
</ul>
(4)有序列表
<ol>
<li>python</li>
<li>java</li>
<li>c++</li>
</ol>
(5)链接
<a href="http://csdn.net">博客</a>
(二)CSS
(1)Cascading Style Sheets(层叠样式表)
(2)定义网页该如何显示里面的元素,段落的位置,文字的字体、颜色、大小等
1.CSS解析
(1)p属性/color属性/blue属性值
p,h1{
color:blue;
font-family:KaiTI;
}
(2)id与class
id在每个HTML中只能有一个
class可以有多个
<p id="welcome-line">欢迎浏览博客</p>
<a class="link" href="http://csdn.net">博客中心</a>
/*id用#开头*/
#welcome-line{
color:blue;
font-family:KaiTi;
}
/*class用.开头*/
.link{
color:pink;
}
(3)盒子模型
内边距-padding
外边距-margin
(三)JavaScript解析
(1)动态效果
/*定义变量*/
var alertText = "Hello reader"
/*弹出提示框*/
alert(alertText)
(2)定义函数function
function alertUser(){
alert("Hello reader!");
}
alertUser();
在HTML中调用JavaScript语句
<h1 onclick="alertUser()">博客</h1>
总结
本篇对网址进行了简单的理解拆分,并对前端三个主要工具进行了简单介绍了解