思路:
1.确认要的东西:
也就是网站上的这个表格。对应到源代码里的位置(如下图):
2.利用requests库向星座网站发送请求
3.利用lxml库提取想要的数据
代码:
import requests
from lxml import etree
def sspider(htext):
html = etree.HTML(htext)
html_data = html.xpath('//div[@class ="content clearfix"]/table[@class = "tb"]/tr/td/text()')
for num in range(0,len(html_data),2):
print(html_data[num]+" : "+html_data[num+1])
if __name__ == '__main__':
result = requests.get('http://astro.sina.com.cn/fate_tomorrow_Scorpio/')
result.encoding = 'utf-8';#解决中文乱码
sspider(result.text)
效果图:
总结:
这次爬虫爬取的是网站表格,加深了对lxml库的熟悉程度。
慢慢进步呀少年!
其实本想用itchat将爬到的星座运势,每天早上定时发给小姐姐的
程序也写好了。
But
太怂了。