![](https://img-blog.csdnimg.cn/20201014180756926.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
zangao0718
这个作者很懒,什么都没留下…
展开
-
运用Beautifulsoup对新闻网站进行简单的爬取
利用BeautifulSoup可以很简单的爬取网页上的内容。这个套件可以把一个网页变成DOM tree要使用BeautifulSoup需要使用命令行进行安装,不过也可以直接用python的ide。基础操作 :①使用之前需要先从bs4中导入包:from bs4 import BeautifulSoup②使用的代码:soup = BeautifulSoup(res.text, ...原创 2018-11-18 11:33:31 · 907 阅读 · 0 评论 -
正则表达式
title: 爬虫系列之正则表达式date: 2019-04-15 15:42:15tags: 爬虫categories: 爬虫toc: true什么是正则表达式正则表达式是对字符串操作的一种逻辑公式,就是 事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符”,这个“规则字符” 来表达对字符的一种过滤逻辑。正则并不是python独有的,其他语言也都有正则pyth...原创 2019-04-15 17:21:52 · 360 阅读 · 0 评论 -
正则表达式实战
title: 爬虫系列之正则表达式实战date: 2019-04-15 23:14:30tags: 正则表达式categories: 爬虫toc: true前言我们前面已经详细的了解过了正则表达式的具体功能和用法,今天我们就在实战过程中使用正则表达式。我们的目标网站是:http://maoyan.com/board/41、准备工作首先,我们要确保我们已经安装了request库,...原创 2019-04-15 23:50:37 · 670 阅读 · 0 评论 -
beautiful-soup
title:爬虫系列之 beautiful soupdate: 2019-04-16 09:59:18tags: 正则表达式categories: 爬虫toc: true前面介绍了正则表达式的相关用法,但是一旦正则表达式写的有问题,得到的可能就不是我们想要的结果了。而且对于一个网页来说,都有一定的特殊结构和层级关系,而且很多节点都有id或class来作区分,所以借助它们的结构和属性来...原创 2019-04-16 18:24:18 · 274 阅读 · 0 评论 -
selenium
title: 爬虫系列之seleniumdate: 2019-04-19 16:33:24tags: 爬虫categories: 爬虫toc: true一、什么是seleniumSelenium 是什么?一句话,自动化测试工具。它支持各种浏览器,包括 Chrome,Safari,Firefox 等主流界面式浏览器,如果你在这些浏览器里面安装一个 Selenium 的插件,那么便可以方...原创 2019-04-19 17:02:36 · 525 阅读 · 0 评论