使用lxml提取网页元素中的文本(可解决网页内容无法复制的问题)

 

使用前需安装lxml库,打开CMD管理员命令,输入

pip install lxml
from lxml import etree

html = '''
按F12或右键点审查元素,在需要获取的文本内容上一个标签右键复制-复制元素,粘贴到此处


'''

# 将HTML字符串转换为Element对象
root = etree.HTML(html)

# 使用XPATH获取文本内容
text = root.xpath('//div[@id="timucontent"]/h2/text()')[0]   #[0]表示只获取第一个标签内的元素
print(text) # 输出:这是一段文本内容

# 使用XPATH获取选项文本
sl_text = root.xpath('//label')
for p in sl_text:   #循环输出多个标签内容
    print(p.text)

 # 输出:这是一个选项

 下面看一个实际的案例,在网上查找资料复制内容出现下面的情况,找了半天也没找到好的办法,最终试着写个程序,问题顺利解决。

当遇到以上情况时,你是不是束手无策,其实只要用6行python代码就可以搞定,而且可以重复使用,是不是很方便 .注意:html里面的是文本内容,自己按照实际需要复制元素放进来就可以了,这里只是举个栗子,可以运行下面程序加深理解。

from lxml import etree

html = '''
<div class="content">
        <div class="ad_top_left">
          <script>ad_top_left();</script>
        </div>        
<h3 style="color: red; text-align: center;"> 文章标题</h3>
<p> 1、内容1</p>
<p> 2、内容2</p>
<p> 3、内容3</p>       
        <div class="ad_bot_left">
        <script>ad_bot_left();</script>
        </div>

      </div>

'''

# 将HTML字符串转换为Element对象
root = etree.HTML(html)

# 使用XPATH获取文本内容
s_text = root.xpath('//div[@class="content"]/p/text()')
print(s_text) # 输出:这是一段文本内容


for p in s_text:
    print(p)

 # 输出:这是一个选项

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值