
Python爬虫入门(DAY4)选择器selector创建(re/XPATH/Beautiful Soup/css/parser)(难点)
正则表达式,又称规则表达式,(Regular Expression,在代码中常简写为regex、regexp或RE),是一种文本模式,包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为\"元字符\"),是计算机科学的一个概念。即通过我们规定好的提取规则,将HTML文档中的一些特殊资源片段(类似有css,xpath,下载资源地址等)提取出来,这些资源再经过后续处理美化(比如下载,保存,求和,统计等),就可以得到我们最终需要的资源。2.id属性值类似于身份证号码,在一个页面中是唯一的,不可重复的。

















