major_xml=etree.HTML(major_html)
major_list = major_xml.xpath("//font[contains(text(),‘各专业最高分’)]/…/following-sibling::table[1]//tr[position()>1]")
一直以为是中文编码出了问题,其实是谷歌浏览器中的补全代码编写的xpath和时间通过etree.HTML编译出来的xpath是不一样的,需要使用major_html=urllib.request.urlopen(request).read().decode(‘gbk’)
中的html字符串进行xpath进行提取