爬虫学习笔记(更新)

学习爬虫一些碎碎言

2022/3/21

总参考网站
1.父页面跳转子页面
构造多页 存储列表 字典存储 + BeautifulSoup 房租例子

# 1.构造多页URL,对其遍历存为list类型
urls = ['http://bj.xiaozhu.com/search-duanzufang-p{}-0//'.format(number) for number in range(1, 14)]   

2.不写小count 存储会乱在这里插入图片描述

3.strip()的作用是去除特殊字符串,比如空格,\n,\t 等等。
4.prettify 以标准缩进格式输出html

print(soup.prettify())
  1. soup.p.attrs
  2. soup.p.attrs[‘name’] —>soup.p[‘name’]
    一个节点里有多个class所以返回列表,而name是唯一的,返回字符串。
    7.select 收集到的数据是组 访问的话
zhuanji= soup.select('p.albumName.fl > a')
zj = zhuanji[0].get_text()

8.格式输出

for rank,title,time in zip(ranks,titles,times):
    print("排名:"+rank.text.strip()+"-----歌名:"+title.text.strip() +"----时间:"+time.text.strip())

9.函数return 返回值参考 链接

  1. 2022/3/22 python学习demo1 酷狗音乐top500 父页面跳转子页面的demo 链接

11.post隐示提交
12.echarts看图表样式
Bottcdn 复制js等
13.flask+可视化 一个小demo

14.xpath
解析xml语言 1.层级 2.属性

15.空格分隔回车跟文本

line = line.strip("\n")
line = line.split()

不能用split(’ ‘),而是默认什么不填,
若用split(’ '),只会分割出第一个空格,后面的空格不会分割,而用默认的话是全部分割

16
def getnum(a):
return( “”.join(list(filter(str.isdigit, a))))

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值