现在我们面对一些爬虫数据,特别是对于web网页的爬取的时候,网页总有一些不规整的数据来导致拿数据的麻烦,比如如下这种
<html>
<div>
<p>111</p>
<p>222</p>
<p>333</p>
<p>444
<script>
eeeeeeeeeeee
</script
现在我们面对一些爬虫数据,特别是对于web网页的爬取的时候,网页总有一些不规整的数据来导致拿数据的麻烦,比如如下这种
<html>
<div>
<p>111</p>
<p>222</p>
<p>333</p>
<p>444
<script>
eeeeeeeeeeee
</script