学习爬虫一些碎碎言
2022/3/21
总参考网站
1.父页面跳转子页面
构造多页 存储列表 字典存储 + BeautifulSoup 房租例子
# 1.构造多页URL,对其遍历存为list类型
urls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0//'.format(number) for number in range(1, 14)]
2.不写小count 存储会乱
3.strip()的作用是去除特殊字符串,比如空格,\n,\t 等等。
4.prettify 以标准缩进格式输出html
print(soup.prettify())
- soup.p.attrs
- soup.p.attrs[‘name’] —>soup.p[‘name’]
一个节点里有多个class所以返回列表,而name是唯一的,返回字符串。
7.select 收集到的数据是组 访问的话
zhuanji= soup.select('p.albumName.fl > a')
zj = zhuanji[0].get_text()
8.格式输出
for rank,title,time in zip(ranks,titles,times):
print("排名:"+rank.text.strip()+"-----歌名:"+title.text.strip() +"----时间:"+time.text.strip())
9.函数return 返回值参考 链接
- 2022/3/22 python学习demo1 酷狗音乐top500 父页面跳转子页面的demo 链接
11.post隐示提交
12.echarts看图表样式
Bottcdn 复制js等
13.flask+可视化 一个小demo
14.xpath
解析xml语言 1.层级 2.属性
15.空格分隔回车跟文本
line = line.strip("\n")
line = line.split()
不能用split(’ ‘),而是默认什么不填,
若用split(’ '),只会分割出第一个空格,后面的空格不会分割,而用默认的话是全部分割
16
def getnum(a):
return( “”.join(list(filter(str.isdigit, a))))