python强化20日(强行非蓝桥日)
第四天 网络爬虫: HTML的简单了解 ,BeautifulSoul4库,request库
还有一些内容没有整理完全,明早补发
网络爬虫
数据处理
1.open对txt文件的使用
-
1. 文件的声明 open语句
open(‘路径’,‘模式’,enconding = ‘编码’)
注意:python中路径的’/‘需要打成’//’,避免出现转义字符用法错误 或者也可以使用r’ ‘来实现去转义,只用写一个’/'
这里可以使用绝对路径,也可以使用相对路径,但在使用相对路径的时候,数据文件需要在编译程序文件旁边
-
2. 文本文件操作模式
r:读取文件,默认
w:写入
rw:读取+写入
a:追加 -
3. 简单的读取
使用 .read() 能够完整读取txt文件内容
注意:
1.其中的换行都是以转义字符的形式输出
2.每一次的read操作都会使得光标移到末尾,此时如果再使用read操作,那么读取的将会是一个空字符串内容。此时需要借助 .seek(0) 方法使得光标移动到开头
2.open函数的使用以及对txt的读取
path = 'F:\\python数据处理案例存放处\\读写txt案例\\'
fname = 'first read.txt'
f = open(path+fname,'r')
print(f.read()) #使用.reed()方法读取完毕后,文件内光标会自动到结尾,如果继续使用.read()读取会读到空字符串
f.seek(0) #使用.seek(0)方法把光标放置到开头'''
f.close() #记得完成操作后关闭链接,关闭文件。写文件时关闭文件后才能保存成功
3.系统模块os下的路径操作
os模块:系统模块常用命令:
import os
print(os.name) #获取当前系统类型
print(os.getcwd()) #获取当前工作目录位置
print(os.listdir()) #获取当前目录下文件名
#os.chdir(Path) 切换到指定工作目录
"""切换到指定路径后就可以直接使用文件名的名称作为相对路径,从而进行操作"""
#os.remove(Path) 删除路径上的文件
"""os.system('matlab')""" #相当于在win+r的内容框中填写内容 此处为打开matlab
print(os.path.split('F:\\python数据处理案例存放处\\读写txt案例\\first read.txt')) #该方法使得路径与文件名分开,返回元组形式
print(os.path.exists('F:\\python数据处理案例存放处\\读写txt案例')) #判断路径是否存在
HTML的简单了解
存在意义:
1. HTML不是一种编程语言,而是一种标记语言
2. HTML使用标记标签来描述网页
-
HTML的标签
- HTML标签是由尖括号包围的关键词,比如《html》 (此处使用书名号代替,由于markdown会自动识别HTML标记)
- HTML标签经常成对出现,比如《b》和《/b》,其中第一个标签是开始标签(开放标签),第二个标签是结束标签(闭合标签)
-
HTML的基本结构
- 文档类型 <!DOCTYPE>声明
- html文档 《html》…《/html》
- 头部信息 《head》…《/head》如果不需要可以忽略**(此部分内容无法在网页观察)**
- 正文,网页上可见 《body》…《/body》
9个基础标签:
标签 | 功能描述 |
---|---|
《!DOCTYPE》 | 定义文档类型 |
《html》 | 定义HTML文档 |
《title》 | 定义文档的标题 |
《body》 | 定义文档的主题 |
《h1》to《h6》 | 定义HTML标题 |
《p》 | 定义段落 |
《br》 | 定义简单的折行 |
《hr》 | 定义水平线 |
《!…_ 》 | 定义注释 |
-
HTML的分组标识分块功能(架构)
- 《div》元素:定义文档中的分区或节 块元素(使得信息一块一块)
- 《span》元素:组合文档中的行内元素。 内联元素(主要对应文本)
-
HTML注释
- 注释标签《!–与--》用于在HTML插入注释
-
头部元素主要信息
- **《title》**标签定义文档的标题,且在所有HTML/XHTML文档中都是必须的
作用:- 定义浏览器工具栏中的标题
- 提供页面被添加到收藏夹中显示的标题
- 显示在搜索引擎结果中的页面标题
- 《base》标签为页面上的所有连链接规定默认地址或默认目标(target) #使用的比较少
- 《link》标签定义文档与外部资源之间的关系,常常用于链接样式表CSS
- 《style》标签用于为HTML文档定义样式信息。
样式分为CSS(用《link》链接),还有《style》,简单的样式用后者,前者一般用来封装一些更加个性化的样式
- **《title》**标签定义文档的标题,且在所有HTML/XHTML文档中都是必须的
-
HTML《meta》元素
- 《meta》标签提供关于HTML文档的元数据。元数据不会显示在页面上,但是对于机器是可读的。
- 一般元数据的内容是关于例如网站作者名字等相关信息内容
-
HTML《script》元素
- 是用来实现一些功能的,有关调用Javascript
-
区别元素与属性
- 元素:HTML元素指的是从开始标签(start tag)到结束标签(end tag)的所有代码
- 属性:HTML标签可以拥有属性,属性提供了有关HTML元素的更多的信息。属性总是以名称/值对的形式出现,比如:name=“value” 属性总是在HTML元素的开始标签中规定(一定在<>内)
开始标签 | 元素内容 | 结束标签 |
---|---|---|
《p》 | This is a paragraph | 《/p》 |
《a herf=“default.htm”》 | This is a link | 《/a》 |