![](https://img-blog.csdnimg.cn/20201014180756916.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
网络爬虫
文章平均质量分 94
Day-3
与君共勉
展开
-
学习网络爬虫(2)
1 解析网页 1.1 使用正则表达式解析网页 常见的正则字符和含义 1.1.1 re.match方法 re.match 的意思是从字符串起始位置匹配一个模式,如果从起始位置匹配不了,match()就返回 none。 re.match 的语法为 re.match(pattern, string, flags=0),其中pattern是正则表达式,包含一些特殊字符,string 为要匹配的字符串, flags用来控制正则表达式的匹配方式,如果区分大小写、多行匹配等。 例如,我们想使用两个字符串匹配并找到匹配的位原创 2022-05-15 22:42:17 · 304 阅读 · 0 评论 -
学习网络爬虫(1)
1 学习网络爬虫 什么样的数据可以爬取? 平时上网所有能见到的数据都可以通过爬虫程序保存下来。 爬虫合法吗? 如果抓取的数据属于个人使用或者科研范畴,基本不属于违法;但如果属于商业盈利,就事论事,可能违法可能不违法。 Robots协议 Robots协议(爬虫协议)的全称设计“网络爬虫排除标准”,网站通过Robots协议告诉搜索引擎哪些页面可以爬取,哪些页面不可以爬取。 2 网络爬虫的基本议题 Python爬虫的流程是怎样的? 1.获取网页 2.解析网页(提取数据)3.存储数据 三个流程的技术实现是什原创 2022-05-04 15:28:12 · 318 阅读 · 0 评论