python强化20日 第四天

python强化20日(强行非蓝桥日)

第四天 网络爬虫: HTML的简单了解 ,BeautifulSoul4库,request库

还有一些内容没有整理完全,明早补发

网络爬虫


数据处理

1.open对txt文件的使用

  • 1. 文件的声明 open语句

    open(‘路径’,‘模式’,enconding = ‘编码’)

    注意:python中路径的’/‘需要打成’//’,避免出现转义字符用法错误 或者也可以使用r’ ‘来实现去转义,只用写一个’/'

    这里可以使用绝对路径,也可以使用相对路径,但在使用相对路径的时候,数据文件需要在编译程序文件旁边

  • 2. 文本文件操作模式

    r:读取文件,默认
    w:写入
    rw:读取+写入
    a:追加

  • 3. 简单的读取

    使用 .read() 能够完整读取txt文件内容
    注意
    1.其中的换行都是以转义字符的形式输出
    2.每一次的read操作都会使得光标移到末尾,此时如果再使用read操作,那么读取的将会是一个空字符串内容。此时需要借助 .seek(0) 方法使得光标移动到开头

2.open函数的使用以及对txt的读取

path = 'F:\\python数据处理案例存放处\\读写txt案例\\'
fname =  'first read.txt'
f = open(path+fname,'r')
print(f.read())         #使用.reed()方法读取完毕后,文件内光标会自动到结尾,如果继续使用.read()读取会读到空字符串
f.seek(0)               #使用.seek(0)方法把光标放置到开头'''
f.close()               #记得完成操作后关闭链接,关闭文件。写文件时关闭文件后才能保存成功

3.系统模块os下的路径操作

os模块:系统模块常用命令:

import os
print(os.name)      #获取当前系统类型
print(os.getcwd())  #获取当前工作目录位置
print(os.listdir())   #获取当前目录下文件名
#os.chdir(Path)      切换到指定工作目录
"""切换到指定路径后就可以直接使用文件名的名称作为相对路径,从而进行操作"""
#os.remove(Path)  删除路径上的文件
"""os.system('matlab')"""   #相当于在win+r的内容框中填写内容 此处为打开matlab
print(os.path.split('F:\\python数据处理案例存放处\\读写txt案例\\first read.txt')) #该方法使得路径与文件名分开,返回元组形式
print(os.path.exists('F:\\python数据处理案例存放处\\读写txt案例'))                #判断路径是否存在

HTML的简单了解

存在意义:
1. HTML不是一种编程语言,而是一种标记语言
2. HTML使用标记标签来描述网页
  • HTML的标签

    1. HTML标签是由尖括号包围的关键词,比如《html》 (此处使用书名号代替,由于markdown会自动识别HTML标记)
    2. HTML标签经常成对出现,比如《b》和《/b》,其中第一个标签是开始标签(开放标签),第二个标签是结束标签(闭合标签)
  • HTML的基本结构

    1. 文档类型 <!DOCTYPE>声明
    2. html文档 《html》…《/html》
    3. 头部信息 《head》…《/head》如果不需要可以忽略**(此部分内容无法在网页观察)**
    4. 正文,网页上可见 《body》…《/body》
      9个基础标签:
标签功能描述
《!DOCTYPE》定义文档类型
《html》定义HTML文档
《title》定义文档的标题
《body》定义文档的主题
《h1》to《h6》定义HTML标题
《p》定义段落
《br》定义简单的折行
《hr》定义水平线
《!_ 》定义注释
  • HTML的分组标识分块功能(架构)

    1. 《div》元素:定义文档中的分区或节 块元素(使得信息一块一块)
    2. 《span》元素:组合文档中的行内元素。 内联元素(主要对应文本)
  • HTML注释

    1. 注释标签《!–与--》用于在HTML插入注释
  • 头部元素主要信息

    1. **《title》**标签定义文档的标题,且在所有HTML/XHTML文档中都是必须的
      作用:
      • 定义浏览器工具栏中的标题
      • 提供页面被添加到收藏夹中显示的标题
      • 显示在搜索引擎结果中的页面标题
    2. 《base》标签为页面上的所有连链接规定默认地址或默认目标(target) #使用的比较少
    3. 《link》标签定义文档与外部资源之间的关系,常常用于链接样式表CSS
    4. 《style》标签用于为HTML文档定义样式信息。
      样式分为CSS(用《link》链接),还有《style》,简单的样式用后者,前者一般用来封装一些更加个性化的样式
  • HTML《meta》元素

    1. 《meta》标签提供关于HTML文档的元数据。元数据不会显示在页面上,但是对于机器是可读的。
    2. 一般元数据的内容是关于例如网站作者名字等相关信息内容
  • HTML《script》元素

    1. 是用来实现一些功能的,有关调用Javascript
  • 区别元素与属性

    1. 元素:HTML元素指的是从开始标签(start tag)到结束标签(end tag)的所有代码
    2. 属性:HTML标签可以拥有属性,属性提供了有关HTML元素的更多的信息。属性总是以名称/值对的形式出现,比如:name=“value” 属性总是在HTML元素的开始标签中规定(一定在<>内)
开始标签元素内容结束标签
《p》This is a paragraph《/p》
《a herf=“default.htm”》This is a link《/a》
  • HTML CSS 外部样式

    • 使用《link》标签调用
  • HTML CSS 内部样式

    • 标签中属性含有/css
  • HTML CSS 内联样式

    • 相关标签中使用样式属性。样式属性可以包含任何CSS属性
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值