大致步骤
一、淘宝主页搜索“文胸”
二、“文胸”商品信息翻页
三、获取每个“文胸”商品url
四、根据商品url提取相应评论
五、写入数据库
具体实施
一、淘宝主页搜索
打开淘宝"https://www.taobao.com",在搜索框中输入关键字“文胸”然后点击搜索按钮。由于需要交互,这里引用selenium库模拟浏览器可以实现
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
# 创建浏览器对象
browser = webdriver.Chrome()
# 等待加载的方法,为方便使用绑定一个变量
wait = WebDriverWait(browser, 10)
def search():
try:
browser.get('https://www.taobao.com/')
# 获取输入框
input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#q')))
# 获取搜索按钮
submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button')))
# 向输入框中输入关键字
input.send_keys('文胸')
# 点击搜索
submit.click()
except:
search()
二、实现翻页
分析页面发现,有两种方法可以实现翻页,直接点击下一页或在输入框中输入页码数再点击确定.
页面最后一页时,下一页元素发生了变化,保险起见,选用第二种方法实现翻页功能
def next_page(number):
try:
# 等待输入框加载完成获取输入框
input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager > div > div > div