Selenium爬取淘宝
看了崔庆才写的用Selenium爬取淘宝商品,但是他最后保存的是MongoDB,很多同学的电脑里面并没有安装这个,或者大家都对这个不太熟悉,所以,我们这边给重新保存到text文件格式。
崔老师的保存到MongoDB的程序:
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from urllib.parse import quote
from pyquery import PyQuery as pq
from multiprocessing import Pool
import pymongo
browser=webdriver.Chrome()
wait=WebDriverWait(browser,10)
KEYWORD='ipad'
MONGO_URL='localhost'
MONGO_DB='TAOBAO'
MONGO_COLLECTION='products'
client=pymongo.MongoClient(MONGO_URL)
db=client[MONGO_DB]
def index_page(page): #定义一个获取索引页信息的函数
print('正在爬取第',page,'页')
try:
url='https://s.taobao.c