python网站进价爬取
分析网站
目标网站的url=“https://www.gushiwen.org/shiju/xiejing.aspx”
对网站的目录进行简单的分析,这个是各古诗的分类标题。
def get_div_text(html_text):
soup=BeautifulSoup(html_text,'html.parser')
divs=soup.find_all('div',{
"class":"cont"}) #对网站的目录div标签抓取
urls=[]
for div in divs:
div=div.find_all(href=re.compile('shiju'))
#re.compile('shiju')对多字段进行shiju关键字获取
for url in div:
urls.append(durl+url['href']) #爬虫专用进行网址的存储
return urls
分析数据
for url in urls:
time.sleep(10) #进行延迟爬取
url=requests.get(url).text
soup