爬虫学习笔记（更新）_.join(list(filter(str.isdigit, b)))-CSDN博客

本文链接：https://blog.csdn.net/weixin_43709875/article/details/123644990

2022/3/21

总参考网站
1.父页面跳转子页面
构造多页存储列表字典存储 + BeautifulSoup 房租例子

# 1.构造多页URL，对其遍历存为list类型
urls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0//'.format(number) for number in range(1, 14)]

2.不写小count 存储会乱在这里插入图片描述

3.strip（）的作用是去除特殊字符串，比如空格，\n，\t 等等。
4.prettify 以标准缩进格式输出html

print(soup.prettify())

soup.p.attrs
soup.p.attrs[‘name’] —>soup.p[‘name’]
一个节点里有多个class所以返回列表，而name是唯一的，返回字符串。
7.select 收集到的数据是组访问的话

zhuanji= soup.select('p.albumName.fl > a')
zj = zhuanji[0].get_text()

8.格式输出

for rank,title,time in zip(ranks,titles,times):
    print("排名："+rank.text.strip()+"-----歌名："+title.text.strip() +"----时间："+time.text.strip())

9.函数return 返回值参考链接

11.post隐示提交
12.echarts看图表样式
Bottcdn 复制js等
13.flask+可视化一个小demo

14.xpath
解析xml语言 1.层级 2.属性

15.空格分隔回车跟文本

line = line.strip("\n")
line = line.split()

不能用split(’ ‘)，而是默认什么不填，
若用split(’ ')，只会分割出第一个空格，后面的空格不会分割，而用默认的话是全部分割

16
def getnum(a):
return( “”.join(list(filter(str.isdigit, a))))