python实训笔记(动态爬虫)

动态爬虫

1、动态页面抓取

1、抓包

①找到数据传输的真实的请求地址
②找到地址之后,动态请求的数据类型一般为json(javascript中的一种数据类型)

JSON数据转换

json.loads()
将json数据类型转换为python数据类型

data=json.loads(json_data)

json.dumps()
将python数据类型转换为json

text=json.dumps(data,ensure_ascii=False,indent=2)

将利用真实请求地址获取到的json数据转化为python数据进行内容提取

data=json.loads(html) #将json数据类型转换为python数据类型
for d in data: #遍历数据拿到每个电影信息的字典
    title=d["title"] #获取电影的名称
    release_date=d["release_date"] #获取上映时间
    actors=d["actors"] #获取演员信息  list
    actors=",".join(actors)
    score=d["score"] #获取电影的评分
    regions=d["regions"] #获取国家信息 list
    regions=",".join(regions)
    content=[title,actors,release_date,score,regions] #整合写入数据库的序列
    self.save_data(content) #调用保存数据的函数

2、selenium获取

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Chrome()
browser.get("https://www.baidu.com/")
input_label = browser.find_element_by_id("kw")
input_label.send_keys("英雄联盟")
# 敲回车
input_label.send_keys(Keys.ENTER)
time.sleep(5)
browser.close()
#三种查询方式
data=browser.find_element_by_css_selector()
data=browser.find_element_by_class_name("head-nav-title")
data = browser.find_element_by_xpath('//span[@class="head-nav-title"]')
#滚动
browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")
#获取class和text
print(data.get_attribute("class"))
print(data.text)

# 隐式等待,等待时间内找出来就返回,找不出来就报错
browser.implicitly_wait(20)
# 显式等待
wait = WebDriverWait(browser, 10)
data = wait.until(EC.presence_of_element_located((By.XPATH, '//span[@class="head-nav-title"]')))

#点击下一页
button=browser.find_element_by_css_selector("#page > div > a:nth-child(12)")
button.click()
#获取当前操作页面的url地址
browser.current_url
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值