最近在练习代码爬取论文的简要信息的时候,发现数据存储是一块短板。
现在已经可以爬取好name
,author
,keyword
,paper_doi
,abstract
等需要的相关信息,只要把print
全部打开就可以完全显示出来,但是也只是显示在屏幕上,并不能保存至本地的表格中。
def To_get_abstract(url, i):
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/84.0.4147.105 Safari/537.36'} # 选择你自己的headers
res = requests.get(url, headers=headers).text
# print(res)
html_xpath = etree.HTML(res)
abstract = html_xpath.xpath('//p/text()')[0].strip()#找到摘要
name = html_xpath.xpath('//h2/text()')[0].strip()
keywords = html_xpath.xpath('//li[@class="even typeLabels group1"]/span[@class="itemExtraFieldsValue"]/a/text()')
keyword = ','.join(keywords)
paper_doi = html_xpath.xpath('//li[@class="odd typeTextarea group1"]/span[@class="itemExtraFieldsValue&