分享python在爬虫里面的运用,喜欢的记得收藏哦!
如下:
使用类库
将soup 获取到
使用正则表达式进行解析
titles_html = soup.select("#list-container > ul > li > div > a") 使用soup的选择去惊醒选择 这个可以通过浏览器的 copy selector 或者牛逼的话自己也可以写。就是div下面一层一层拨开,这里如果有id的话直接以id开头就可以:
content_html = soup.select("#list-container > ul > li > div > p")
re_title = re.compile(r'target="_blank">(.*?)</a>')
re_content = re.compile(r'<p class="abstract">[\s\D]* (.*?)\n')
正则表达式的使用:
另外人工分析的时候需要非常小心这个字符里面的东西。 分析清楚才能写出简单并且正确的正则表达式. 尤其是换行符要非常注意。
最后,小编想说一句话:我是一名python开发工程师,这里有我自己整理了一套最新的python系统学习教程,包括从基础的python脚本到web开发、爬虫、数据分析、数据可视化、机器学习等。想要这些资料的可以加群:877562786