python实训笔记（动态爬虫）

最新推荐文章于 2021-06-28 14:11:36 发布

Steady Ben

最新推荐文章于 2021-06-28 14:11:36 发布

阅读量224

点赞数

分类专栏： # Python实训项目文章标签： python 爬虫

本文链接：https://blog.csdn.net/weixin_44593275/article/details/107718523

版权

Python实训项目专栏收录该内容

9 篇文章 0 订阅

订阅专栏

动态爬虫

动态爬虫
- 1、动态页面抓取

动态爬虫

1、动态页面抓取

1、抓包

①找到数据传输的真实的请求地址
②找到地址之后，动态请求的数据类型一般为json(javascript中的一种数据类型)

JSON数据转换

json.loads()
将json数据类型转换为python数据类型

data=json.loads(json_data)

json.dumps()
将python数据类型转换为json

text=json.dumps(data,ensure_ascii=False,indent=2)

将利用真实请求地址获取到的json数据转化为python数据进行内容提取

data=json.loads(html) #将json数据类型转换为python数据类型
for d in data: #遍历数据拿到每个电影信息的字典
    title=d["title"] #获取电影的名称
    release_date=d["release_date"] #获取上映时间
    actors=d["actors"] #获取演员信息  list
    actors=",".join(actors)
    score=d["score"] #获取电影的评分
    regions=d["regions"] #获取国家信息 list
    regions=",".join(regions)
    content=[title,actors,release_date,score,regions] #整合写入数据库的序列
    self.save_data(content) #调用保存数据的函数

2、selenium获取

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time

browser = webdriver.Chrome()
browser.get("https://www.baidu.com/")
input_label = browser.find_element_by_id("kw")
input_label.send_keys("英雄联盟")
# 敲回车
input_label.send_keys(Keys.ENTER)
time.sleep(5)
browser.close()
#三种查询方式
data=browser.find_element_by_css_selector()
data=browser.find_element_by_class_name("head-nav-title")
data = browser.find_element_by_xpath('//span[@class="head-nav-title"]')
#滚动
browser.execute_script("window.scrollTo(0,document.body.scrollHeight)")
#获取class和text
print(data.get_attribute("class"))
print(data.text)

# 隐式等待，等待时间内找出来就返回，找不出来就报错
browser.implicitly_wait(20)
# 显式等待
wait = WebDriverWait(browser, 10)
data = wait.until(EC.presence_of_element_located((By.XPATH, '//span[@class="head-nav-title"]')))

#点击下一页
button=browser.find_element_by_css_selector("#page > div > a:nth-child(12)")
button.click()
#获取当前操作页面的url地址
browser.current_url

Steady Ben

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python实训笔记（动态爬虫）

词云的制作动态爬虫1、动态页面抓取1、抓包JSON数据转换2、selenium获取动态爬虫1、动态页面抓取1、抓包①找到数据传输的真实的请求地址②找到地址之后，动态请求的数据类型一般为json(javascript中的一种数据类型)JSON数据转换json.loads()将json数据类型转换为python数据类型data=json.loads(json_data)json.dumps()将python数据类型转换为jsontext=json.dumps(data,ensure_a
复制链接

扫一扫