爬虫
首先我们在网站中打开我们要爬的网站
“http://maoyan.com/board/4”
这就是豆瓣高分电影前100的榜单.
然后我们点击f12,再刷新一次,就可以看到网页的基本信息了。
这时候我们来看一下第一部‘我不是药神中的代码信息。’
一个dd节点为一个电影的全部信息。
我们用正则表达式的方法去分析上面的代码,首先是class为board-index的排名信息。
我们用正则表达式应该是这么去写
<dd>.*?board-index.*?>(.*?)</i>
那我们接着分析第二部分的图片,我们看图片的节点一共有两点:两个img节点。
我们发现第二个img节点属性为data-src为图片链接,所以我们就分析这部分。
我们用正则表达式应该是这么去写
.*?data.src="(.*?)"
以此类推我们接着分析剩下所有的信息。
第三部分为电影名,电影名在p节点的class=name下面。
我们用正则表达式应该这么写
.*?name".*?a.*?>(.*?)</a>
那么接下来我们就写一个完整的信息:分别记录了排名,照片,名字,演员,时间,评分。
<dd>.*?board-index.*?>(.*?)</i>.*?data-src="(.*?)".*?name.*?a.*?>(.*?)</a>.*?star".*?>(.*?)</p>.*?releasetime.*?>(.*?)</p>.*?integer.*?>(.