想看一看这么多年来都有什么人获得了诺贝尔文学奖,网上很难找到一份比较全面的信息,无意中发现诺贝尔奖的官方网站上竟然有历届奖项的获奖信息,还包括作者的一些简介、评语等。简单看了下网页,发现并不难爬取,于是写了python程序,爬完后发现那些佶屈聱牙的评语读者很费时间,于是又调用了百度的翻译api译成中文。
做此文,以记之,便于他日温故而知新。
诺奖官方网址:https://www.nobelprize.org/prizes/lists/all-nobel-prizes-in-literature/
解析网页,得到历届获奖者的详细信息链接,如下图:
可以使用etree模块的html解析网页,利用xpath得到链接,xpath为"//div[@class='by_year']/p/a",使用.attrib.get("href")可以获得链接地址,使用.text得到标签中的文字。
得到上面的信息之后就可以逐个访问网址,并获取对应得作者简介、创作语言、获奖年份、作者的生活和工作情况。
以上都是得到英文信息,注册