问题1:
解决:
bs 直接BeautifulSoup(response.text)这个没问题
读取文件时要:BeautifulSoup(open(“pachong.html”,encoding="utf-8))
问题2:
解决:.string 对于复杂结构的标签会返回空
问题3:
解决:params要完整
问题4:
a = []
a = a.append([1,2,3])
错误,不能赋值,返回nonetype
解决 :a.append([1,2,3])
正确
问题5:
jupyter 运行代码一直是星号:
解决:
1,重启kenel and run all
2.response 没反应的话,可能网站本身连不上
问题6:
xpath 按类取标签为空
解决:当标签是多个类属性时,多个类都要@class=" 多个类 "
问题7:
解决:full_url_list =[( ‘https:’ + i ) for i in url_list] 不要忘记加[]
问题8:
response.text中文乱码问题
解决:
response = requests.get(。。。)
response.encoding = ‘utf-8’