news_spider|

iFakeCoder

于 2020-01-09 20:49:19 发布

阅读量171

点赞数

文章标签： xpath

本文链接：https://blog.csdn.net/wglink/article/details/103915493

版权

2020 专栏收录该内容

40 篇文章 1 订阅

订阅专栏

import requests as req
from lxml import etree
import pandas as pd
import datetime
info={}
nowTime = datetime.datetime.now().strftime('%Y-%m-%d-%H-%M-%S')
print(nowTime)
url='https://www.00.com/'
headers={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/61.0.3163.31 Safari/537.36'}
res=req.get(url,headers).text
res1=etree.HTML(res)
title=res1.xpath('//div[@id="newsList"]/ul/li/a/text()')
link=res1.xpath('//div[@id="newsList"]/ul/li/a/@href')
df=pd.DataFrame(title,link)
print(df)
df.to_csv(r'./news.csv{}'.format(nowTime),encoding='gbk')

优惠劵

iFakeCoder

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
news_spider|

import requests as reqfrom lxml import etreeimport pandas as pdimport datetimeinfo={}nowTime = datetime.datetime.now().strftime('%Y-%m-%d-%H-%M-%S')print(nowTime)url='https://www.00.com/'heade...
复制链接

扫一扫