import json
import re
import time
import datetime
import requests
import csv
import random
from lxml import etree
from selenium import webdriver
from openpyxl import load_workbook
# 全局错误字典
error_dict = {"ItemName_Error": "标的物名称不存在或获取失败",
"ItemPrice_Error": "标的物价格不存在或获取失败",
"ItemTime_Error": "标的物拍卖时间不存在或获取失败",
"J_desc_Error": "标的物详情不存在或获取失败",
"J_NoticeDetail_Error": "变卖公告不存在或获取失败",
"J_ItemNotice_Error": "变卖须知不存在或获取失败",
"J_RecordContent_Error": "应买记录不存在或获取失败"}
# 解析网页
def get_text(url, head):
resp = requests.get(url, headers=head)
resp.encoding = "gbk"
return resp
# 变html格式
def get_HTML(resp):
HTML = etree.HTML(resp.text)
return HTML
# 获取标的物的名称
def get_ItemName(resp):
try:
obj_name = re.compile(rf'<span class="item-status" >.*?</span>(?P<name>.*?)</h1>', re.S)
result_name = obj_name.search(resp.text)
nameStr = result_name.group('name')
nameStr = nameStr.strip()
except:
nameStr = error_dict["ItemName_Error"]
return nameStr
# 获取标的物价格
def get_ItemPrice(resp):
try:
obj_price = re.compile(r'<span class="pm-current-price J_Price">.*?<em>(?P<price>.*?)</em>', re.S)
result_price = obj_price.search(resp.text)
price_Str = result_price.group('price')
price_Str = price_Str.strip()
price_Str = price_Str + "元"
except:
price_Str = error_dict["ItemPrice_Error"]
return price_Str
# 获取标的物剩余时间戳
def get_ItemTime(HTML):
try:
now_time = HTML.xpath("//li[@id='sf-countdown']/@data-now")[0]
end_time = HTML.xpath("//li[@id='sf-countdown']/@data-end")[0]
end_timeStamp = float(end_time) / 1000
ret_datetime_end = datetime.datetime.utcfromtimestamp(end_timeStamp).strftime("%Y-%m-%d %H:%M:%S")
except:
ret_datetime_end = error_dict["ItemTime_Error"]
return ret_datetime_end
# 为链接添加头部
def apd_http(url):
if "http
阿里法拍详情页爬取
最新推荐文章于 2023-10-16 23:22:34 发布
本文介绍如何利用Python进行网络爬虫,详细讲解了爬取阿里法拍网站上的详情页面信息的步骤,包括HTML解析技巧和常用库的使用,旨在提升开发者在网络数据抓取方面的能力。
摘要由CSDN通过智能技术生成