淘宝网数据爬虫（适合新手）（1）

最新推荐文章于 2024-04-08 16:48:07 发布

Maml_tong

最新推荐文章于 2024-04-08 16:48:07 发布

阅读量1.1k

点赞数

分类专栏： python 文章标签：爬虫 python

本文链接：https://blog.csdn.net/xhygghgja/article/details/103207570

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

   我的代码基本上可以爬取淘宝网上的任何信息，大家需要的话，换个网址就可以了。

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from pandas import DataFrame
browse=webdriver.Chrome()#这个单独一行
def web(www):             #定义一个获取网页的函数
    browse.get(www)       #打开一个网址
    Tao_name=[]           #获取商品的名字
    for i in browse.find_elements_by_class_name('J_ClickStat'):
        hh.append(i.text)
        Tao_name1=sorted(set(Tao_name),key=Tao_name.index)    #注意这里一条数据占用了两行，我采用取奇数行的方式
    del Tao_name1[0]            #第一行为空删掉
    Tao_count=[]                    #获取购买的数量
    for i in browse.find_elements_by_class_name('deal-cnt'):
        Tao_buy.append(i.text)
    Tao_price=[]
    for i in browse.find_elements_by_xpath('//div[@class="ctx-box J_MouseEneterLeave J_IconMoreNew"]/div[1]/div[1]'):
        Tao_price.append(i.text)      #上一行我用的是'by_xpath',因为价格是动态网页
    Taoba=DataFrame()                    #用DataFrame()保存数据
    Taobao['名字']=Tao_name1
    Taobao['购买量']=Tao_count
    Taobao['价格']=Tao_price
    return Taobao
def page(n):               # 定义一个获取页数的函数      
    Taobao=DataFrame()     
    for j in range(n): 
        Tao_web='https://s.taobao.com/search?initiative_id=tbindexz_20170306&ie=utf8&spm=a21bo.2017.201856-taobao-item.2&sourceId=tb.index&search_type=item&ssid=s5-e&commend=all&imgfile=&q=%E7%BE%8E%E9%A3%9F&suggest=history_1&_input_charset=utf-8&wq=meishi&suggest_query=meishi&source=suggest&bcoffset=6&ntoffset=6&p4ppushleft=1%2C48&s={}'.format(j*44) 
        df_page=wed(Tao_web) #上一页：利用format() 获取多页    本页：打开这个网址
        Taobao=Taobao.append(df_page,ignore_index=True)    #多页数据拼接
    return Taobao 





``

Maml_tong

关注

0
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
淘宝网数据爬虫（适合新手）（1）

我的代码基本上可以爬取淘宝网上的任何信息，大家需要的话，换个网址就可以了。from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom selenium.webdriver.common.keys import Keysfrom pandas import DataFramebrowse...
复制链接

扫一扫