爬虫搜索基础篇（二）

最新推荐文章于 2023-12-30 13:57:59 发布

wuqi52wuqi

最新推荐文章于 2023-12-30 13:57:59 发布

阅读量338

点赞数

分类专栏：码农在线编程教育文章标签：搜索爬虫 javascript 标签结构

在线编程同时被 3 个专栏收录

15 篇文章 0 订阅

订阅专栏

15 篇文章 0 订阅

订阅专栏

14 篇文章 0 订阅

订阅专栏

结构化数据

JSON字符串的数据是最好处理的，因为只需要解析之后就可以使用了，结构化数据基本都是这个类型。

二．内容

APP手机端的蓬勃兴起，在一定程度上改变了人们获取信息的习惯，以往都是打开电脑，在浏览器上面搜索自己需要的知识。现在只要有手机，有WIFI，搜索变得简单，方便的多了。爬虫除了检索网页上的内容之外，也会涉及到移动端的抓取请求，这里要分为两部分说明。

网页

很多新人都习惯性地认为，我们在网页上看到的就是全部内容，其实并不仅仅局限于网页代码里面的包含的信息，新人在这一块可能有碰到很多问题，比如：

如果是直接调用本地浏览器、要么就是抓取一些包含了JS代码的引擎，这两种做法在处理大量数据抓取是非常低效的，到底呈现在网页上的内容是如何实现的呢？主要分为以下几点：

.网页包含的内容

网页上的内容有一些是固定不变的，有一些内容是动态的，必须通过模板渲染生成，蜘蛛在获取这类信息的时候，只需要搜索特定的HTML标签即可得到，非常简单。

.JS代码的内容

在处理含有js代码的网页时，很容易检索到空内容。这是因为所有的内容不仅是html、同时还有js字符串，如果只处理html代码，那是无法得到信息的。这种情况下必须用正则表达式找到包含内容的js代码串，才能得到实质的信息，不能单一的解析html。

.Ajax异步的内容

下图是chrome浏览器，在页面以分页形式展现的时候，亦或是无刷新的情况下，出现以下情况就很正常。那我们该如何分析呢？这里简要说明：

chrome浏览器

首先我们要学会观察数据，在页面刷新的时候，数据在哪一步被加载进来的，如果是没有意义的网页，就不需要理会了。如果一旦找到核心异步请求的时候，直接抓取就行了。

原文来自：码农谷——专业的在线编程和软件教育平台http://www.manonggu.com

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。