- 博客(9)
- 收藏
- 关注
原创 正则表达式01
字符描述\d匹配一个数字字符。等价于 [0-9]。\w匹配字母、数字、下划线。等价于’[A-Za-z0-9_]'。\s匹配空白字符\D匹配一个非数字字符。等价于 [^0-9】。\W匹配非字母、数字、下划线。等价于 ‘[^A-Za-z0-9_]’。\S匹配任何非空白字符。等价于 [^ \f\n\r\t\v】\w 能不能匹配汉字要视你的操作系统和你的应用环境而定。弱不想匹配到中文,则加入修饰符re.Aimport re。
2023-05-20 20:40:01 92
原创 bs4解析
使用bs4格式化输出代码推荐使用lxml作为解析器,因为效率更高. 在Python2.7.3之前的版本和Python3中3.2.2之前的版本,必须安装lxml或html5lib, 因为那些Python版本的标准库中内置的HTML解析方法不够稳定.
2023-04-23 08:55:15 81
原创 xpath解析
XPath 使用路径表达式来选取HTML/ XML 文档中的节点或节点集。节点是通过沿着路径 (path) 或者步 (steps) 来选取的。lxml 下载pip install lxml。
2023-04-21 19:14:29 43
原创 requests进阶
session方法是requests库发起请求的一种方法,这种方法会自动保存访问页面得到的cookie值,从而再次访问的时候会自动携带cookie,使得操作cookie方便,不需要我们自己添加cookie了。基本的使用方法与requests.get 相似,使用的session的时候需要先创建session对象。功能:自动更新请求头信息,常用在账号登录的时候,先访问登录页url,再访问数据提交的url。将json字符串转化为python类型。将python类型转化为json字符串。
2023-04-18 19:13:20 71
原创 变量与数据类型
举例体验:我们去图书馆读书,怎么样快速找到⾃⼰想要的书籍呢?是不是管理员提前将书放到固定位置,并把这个位置进⾏了编号,我们只需要在图书馆中按照这个编号查找指定的位置就能找到想要的书籍。这个编号其实就是把存放书籍的书架位置起了⼀个名字,⽅便后期查找和使⽤。程序中,数据都是临时存储在内存当中,为了更快速的查找或使⽤这个数据,通常在定义完成之后,定义⼀个名称,这个名称就是变量名。变量就是⼀个存储数据的的时候,当前数据所在的内存地址的名字⽽已。
2023-04-15 19:53:52 24
原创 002.认识html
HTML 标题是通过HTML段落HTML 段落是通过标签 来定义的。HTML 链接HTML 链接是通过标签 来定义的。HTML图像HTML 图像是通过标签 来定义的.HTML属性HTML 元素可以设置属性属性可以在元素中添加附加信息属性一般描述于开始标签属性总是以名称/值对的形式出现,比如:name=“value”。属性描述idid是唯一的classclass可以同时存在多个HTML文本格式化< b >定义粗体文本
2023-04-12 19:46:28 39
原创 001.认识爬虫
网络爬虫也叫网络蜘蛛,特指一类自动批量下载网络资源的程序,这是一个比较口语化的定义。 数据采集,搜索引擎,模拟操作:搜索引擎的重要组成成分:建立在通用爬虫的基础上,抓取页面当中指定的数据。
2023-04-12 19:24:59 346 1
原创 数据类型转化
相对基本格式化输出采用‘%’的方法,format()功能更强大,该函数把字符串当成一个模板,通过传入的参数进行格式化,并且使用大括号‘{}’作为特殊字符代替‘%’问:input()接收⽤户输⼊的数据都是字符串类型,如果⽤户输⼊1,想得到整型该如何操作?在字符串前面加上f以达到格式化的目的,在{}里加入对象,此为format的另一种形式。%06d,%.6d表示输出的整数显示位数,不⾜以0补全,超出当前位数则原样输出。所谓的格式化输出即按照⼀定的格式输出内容。%.2f,表示⼩数点后显示的⼩数位数。
2023-04-08 19:44:44 109 1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人