比如我们需要爬豆瓣二十条短评,使用正则表达式:
<span class=“short”>(.*?)</span>
我们只能爬到17个,为什么呢?因为有的短评是带有换行的,正则表达式无法识别。
如何让它识别呢?
将(.*?)换为((?:.|\n)*?)就可以了!
<span class=“short”>((?:.|\n)*?)</span>
比如我们需要爬豆瓣二十条短评,使用正则表达式:
<span class=“short”>(.*?)</span>
我们只能爬到17个,为什么呢?因为有的短评是带有换行的,正则表达式无法识别。
如何让它识别呢?
将(.*?)换为((?:.|\n)*?)就可以了!
<span class=“short”>((?:.|\n)*?)</span>