淘宝网数据爬虫(适合新手)(1)

   我的代码基本上可以爬取淘宝网上的任何信息,大家需要的话,换个网址就可以了。
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from pandas import DataFrame
browse=webdriver.Chrome()#这个单独一行
def web(www):             #定义一个获取网页的函数
    browse.get(www)       #打开一个网址
    Tao_name=[]           #获取商品的名字
    for i in browse.find_elements_by_class_name('J_ClickStat'):
        hh.append(i.text)
        Tao_name1=sorted(set(Tao_name),key=Tao_name.index)    #注意这里一条数据占用了两行,我采用取奇数行的方式
    del Tao_name1[0]            #第一行为空删掉
    Tao_count=[]                    #获取购买的数量
    for i in browse.find_elements_by_class_name('deal-cnt'):
        Tao_buy.append(i.text)
    Tao_price=[]
    for i in browse.find_elements_by_xpath('//div[@class="ctx-box J_MouseEneterLeave J_IconMoreNew"]/div[1]/div[1]'):
        Tao_price.append(i.text)      #上一行我用的是'by_xpath',因为价格是动态网页
    Taoba=DataFrame()                    #用DataFrame()保存数据
    Taobao['名字']=Tao_name1
    Taobao['购买量']=Tao_count
    Taobao['价格']=Tao_price
    return Taobao
def page(n):               # 定义一个获取页数的函数      
    Taobao=DataFrame()     
    for j in range(n): 
        Tao_web='https://s.taobao.com/search?initiative_id=tbindexz_20170306&ie=utf8&spm=a21bo.2017.201856-taobao-item.2&sourceId=tb.index&search_type=item&ssid=s5-e&commend=all&imgfile=&q=%E7%BE%8E%E9%A3%9F&suggest=history_1&_input_charset=utf-8&wq=meishi&suggest_query=meishi&source=suggest&bcoffset=6&ntoffset=6&p4ppushleft=1%2C48&s={}'.format(j*44) 
        df_page=wed(Tao_web) #上一页:利用format() 获取多页    本页:打开这个网址
        Taobao=Taobao.append(df_page,ignore_index=True)    #多页数据拼接
    return Taobao 





``



  • 0
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
购买数据爬虫可以使用Python的Selenium库来模拟用户在浏览器中的操作,以下是一个简单的示例代码: ```python from selenium import webdriver import time # 设置Chrome浏览器的路径 chrome_path = "C:/Program Files (x86)/Google/Chrome/Application/chrome.exe" # 设置Chrome浏览器驱动程序的路径 driver_path = "C:/chromedriver/chromedriver.exe" # 创建Chrome浏览器实例 chrome_options = webdriver.ChromeOptions() chrome_options.binary_location = chrome_path driver = webdriver.Chrome(executable_path=driver_path, chrome_options=chrome_options) # 打开登录页面 driver.get("https://login.taobao.com/member/login.jhtml") # 等待用户输入用户名和密码 input("请在浏览器中登录账户后,按Enter键继续...") # 打开购买页面 driver.get("https://item.taobao.com/item.htm?id=123456") # 等待页面加载完成 time.sleep(5) # 点击购买按钮 buy_btn = driver.find_element_by_id("J_LinkBuy") buy_btn.click() # 等待页面跳转到购物车页面 time.sleep(5) # 点击结算按钮 checkout_btn = driver.find_element_by_id("J_Go") checkout_btn.click() # 等待页面跳转到订单确认页面 time.sleep(5) # 获取订单总价 total_price = driver.find_element_by_class_name("realPayPrice").text print("订单总价:", total_price) # 关闭浏览器 driver.quit() ``` 请注意,这仅是一个简单的示例代码,实际爬虫需要根据具体的站和需求进行适当的修改和扩展。同时,使用爬虫获取站上的数据需要遵守相关法律法规和站的使用协议,切勿违反法律法规和道德准则。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值