1、背景
在网页源码中,在img标签中首先会使用一个“伪属性”(通常使用src2,original......)去存放真正的图片链接而并非是直接存放在src属性中。当图片出现到页面的可视化区域中,会动态将伪属性替换成src属性,完成图片的加载,该图片加载后就可以查阅到相关的伪属性,访问的时候利用伪属性去访问
2、需要的python包
pip install lxml or pip install beautifulsoup4
3、实现代码
from lxml import html
from bs4 import BeautifulSoup
import requests
def readHtmlsoup(url):
headers = {
"user-agent": "Mozilla/5.0(X11; Linux x86_64) AppleWebKit/537.36(KHTML, like "
"Gecko) Chrome/73.0.3683.86 Safari/537.36",
"accept": "text/html,application/xhtml+xml,application/xml;q = 0.9,image/webp,image/apng,*/*;q = 0.8",
"accept-language": "en-US,en;q = 0.9",
"accept-encoding": "gzip,deflate,br"
} # chorme
'''
headers={
"user-agent":"Mozill