python 爬虫 爬取< record ><![ CDATA [ 内容获取不到解决办法

import scrapy
from gv_config.items import Item
import  re
from bs4 import BeautifulSoup
import json
class SpiderSpider(scrapy.Spider):
    name="gv_config"
#  爬取网站域
    allowed_domains=["xxxxx"]

    def start_requests(self):
        #获取爬取网站
        url="xxxxxx"
        yield scrapy.Request(url="xxxxxx",callback=self.parse)

    def parse(self, response, **kwargs):
       #直接替换
        text=response.text.replace('<record>','').replace('</record>','').replace('<!    [CDATA[','').replace(']]>',"")
        print(text)
      #BeautifulSoup 解析html
        soup=BeautifulSoup(text,'xml')
        data=soup.find_all("li",class_='wip_col_listli')
        for x in data:
           #定义字段 相当于Java 实体类
            item=Item()
         #解析爬取字段
            item['title']=x.find_all('a')[0].string
            item['date']=x.find_all('span')[0].string
            #link=x.find_all('a',)
            #print(name,data,link)
            yield item

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
在TP5中,可以使用PHP的内置函数`simplexml_load_string()`来解析XML字符串。具体步骤如下: 1. 将XML字符串转换为SimpleXMLElement对象; 2. 使用对象的属性或方法获取节点的值。 示例代码如下: ```php // XML字符串 $xml_string = '<xml><ToUserName><![CDATA[toUser]]></ToUserName><FromUserName><![CDATA[FromUser]]></FromUserName><CreateTime>123456789</CreateTime><MsgType><![CDATA[event]]></MsgType><Event><![CDATA[subscribe]]></Event><EventKey><![CDATA[qrscene_123123]]></EventKey><Ticket><![CDATA[TICKET]]></Ticket></xml>'; // 将XML字符串转换为SimpleXMLElement对象 $xml = simplexml_load_string($xml_string, 'SimpleXMLElement', LIBXML_NOCDATA); // 使用对象的属性或方法获取节点的值 $toUserName = $xml->ToUserName; $fromUserName = $xml->FromUserName; $createTime = $xml->CreateTime; $msgType = $xml->MsgType; $event = $xml->Event; $eventKey = $xml->EventKey; $ticket = $xml->Ticket; ``` 需要注意的是,如果XML字符串中有命名空间,需要使用`children()`方法的第一个参数来指定命名空间。例如: ```php // XML字符串 $xml_string = '<ns:xml xmlns:ns="http://example.com"><ns:ToUserName><![CDATA[toUser]]></ns:ToUserName><ns:FromUserName><![CDATA[FromUser]]></ns:FromUserName><ns:CreateTime>123456789</ns:CreateTime><ns:MsgType><![CDATA[event]]></ns:MsgType><ns:Event><![CDATA[subscribe]]></ns:Event><ns:EventKey><![CDATA[qrscene_123123]]></ns:EventKey><ns:Ticket><![CDATA[TICKET]]></ns:Ticket></ns:xml>'; // 将XML字符串转换为SimpleXMLElement对象 $xml = simplexml_load_string($xml_string, 'SimpleXMLElement', LIBXML_NOCDATA); // 指定命名空间 $ns = $xml->getNamespaces(true); $children = $xml->children($ns['ns']); // 使用对象的属性或方法获取节点的值 $toUserName = $children->ToUserName; $fromUserName = $children->FromUserName; $createTime = $children->CreateTime; $msgType = $children->MsgType; $event = $children->Event; $eventKey = $children->EventKey; $ticket = $children->Ticket; ``` 需要注意的是,如果XML字符串中包含CDATA,需要将第二个参数设置为`'SimpleXMLElement', LIBXML_NOCDATA`。这样才能正确解析CDATA

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值