python
创造只有你的世界
这个作者很懒,什么都没留下…
展开
-
爬取拉勾网招聘信息笔记
问题 1.爬取时进行循环翻页时找不到结束条件 解决方案:当点击下一页有效时 按钮的类为’pager_next ’ 而当点击下一页按钮无效时,该按钮的类变成了’pager_next pager_next_disabled’ 所以在获取按钮后获取该按钮的属性,如果该按钮的类为’pager_next’则执行click,若类不为’pager_next’ 则break循环。 ...原创 2021-03-30 17:17:57 · 325 阅读 · 1 评论 -
python爬取豆瓣top250电影知识点记录
爬虫需要使用的python库分别: 1. urllib.request 2. bs4中的BeautifulSoup 3. re 4. xlwt Part1: urllib.request主要用于模拟浏览器获取网页中的html head={ # 模拟浏览器头部信息,向豆瓣服务器发送消息,防止网页识别出爬虫 报错418 "User-Agent": "Mozilla / 5.0(Windows NT 10.0;Win64;x64) AppleWebKit / 537.36(KHTML, like原创 2021-03-08 22:18:52 · 489 阅读 · 1 评论 -
py爬虫笔记
py爬虫实训第一天笔记 注释 #单行注释 ''' 这 是 多 行 注 释 ''' 输出 a=10 print("这是变量:",a) 格式化输出 #当类型为str时占位符用%s 当类型为数字时用%d age=18 print("我的年龄是:%d岁"%age) print("我的姓名是%s,我的国籍是%s"%("Asuna","china"))#有多个占位内容时可以用 %() print("aaa","bbb","ccc")#输出这3个字符串,中间以空格隔开 print("www","baidu","原创 2021-01-31 19:21:29 · 161 阅读 · 2 评论