网络/Netwrok - 应用层/网络编程 - 网络爬虫 - PHP/Python - 学习/实践

宁小法

已于 2022-05-26 11:48:13 修改

阅读量4k

点赞数

分类专栏：爬虫-SPIDER 文章标签：网络爬虫 web crawler PHP Python

于 2019-12-06 17:52:54 首次发布

本文链接：https://blog.csdn.net/william_n/article/details/103427394

版权

爬虫-SPIDER 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.应用场景

主要用于合法合理快速获取有用信息资源，获取价值。

2.学习/操作

环境

Windows10 64位专业版

phpstudy v8.0

php 7.3

mysql 8.0

Python 3.x

方式一：使用PHP处理

说到做爬虫，大家都可能第一时间想到的是python，其实php也是可以用来写爬虫程序的。

php一贯简洁、易用，使用PHPspider框架10分钟就能写出一个简单的爬虫程序。

开发文档[中文]：https://doc.phpspider.org // 推荐阅读 --- 认真阅读，花不了很久

Demo code: // 20120609 周三家里

gitee: https://gitee.com/william_ning/the-learning-of-php-spider

gtihub: ningxiaofa/the-learning-of-php-spider · GitHub

Demo 1：爬取简书的数据

code：https://gitee.com/william_ning/the-learning-of-php-spider/blob/main/jian_shu.php

一、PHP环境安装

和python一样，PHP也需要环境，可以使用官网下载的PHP，也可以使用XAMPP、PHPstudy 等集成环境下的PHP或者 Docker环境

比较推荐集成环境，省去单独安装Mysql数据库。---- 个人建议，怎么方便怎么来即可

二、Composer安装

Composer是PHP下的依赖包管理工具，类似于Python中的PIP

下载安装即可，win+R运行cmd，输入composer命令，出现如下图所示说明安装成功。

备注:

三、phpspider安装

在任意位置建立一个文件夹，例如我们要抓取简书的数据，我们可以在D盘建立jianshu文件夹，然后cmd命令进入该文件夹，运行命令

composer require owner888/phpspider

如下截图，便是成功安装了.

四、开始写第一个爬虫

现在打开jianshu文件夹，会发现里面多了一些东西[都是PHPspider的依赖的包]，不用管它，建立一个demo.php文件，开始编写代码.

代码如下, 具体含义, 这里暂不加详说[可以查看文档, 很方便], 通过很简单的配置就可以快速运行起来.

demo.php

<?php

require './vendor/autoload.php';

use phpspider\core\phpspider;

/* Do NOT delete this comment */
/* 不要删除这段注释 */

$configs = array(
'name' => '简书',
'log_show' => false,
'tasknum' => 1,
//数据库配置
'db_config' => array(
'host' => '127.0.0.1',
'port' => 3306,
'user' => 'root',
'pass' => '',
'name' => 'demo',
),
'export' => array(
'type' => 'db',
'table' => 'jianshu', // 如果数据表没有数据新增请检查表结构和字段名是否匹配
),
//爬取的域名列表
'domains' => array(
'jianshu',
'www.jianshu.com'
),
//抓取的起点
'scan_urls' => array(
'https://www.jianshu.com/c/V2CqjW?utm_medium=index-collections&utm_source=desktop'
),
//列表页实例
'list_url_regexes' => array(
"https://www.jianshu.com/c/\d+"
),
//内容页实例
// \d+ 指的是变量
'content_url_regexes' => array(
"https://www.jianshu.com/p/\d+",
),
'max_try' => 5,

'fields' => array(
array(
'name' => "title",
'selector' => "//h1[@class='title']", // 匹配规则要改，因为已经变了
'required' => true,
),
array(
'name' => "content",
'selector' => "//div[@class='show-content-free']", // 匹配规则要改，因为已经变了
'required' => true,
),
),
);

$spider = new phpspider($configs);
$spider->start();

截图：

五、代码编写完毕 , 新建数据库以及数据表, 表结构如下:

SQL:

-- ----------------------------
-- Table structure for jianshu
-- ----------------------------
DROP TABLE IF EXISTS `jianshu`;
CREATE TABLE `jianshu` (
`id` int(11) UNSIGNED NOT NULL AUTO_INCREMENT,
`title` varchar(255) CHARACTER SET utf8 COLLATE utf8_general_ci NULL DEFAULT NULL,
`content` text CHARACTER SET utf8 COLLATE utf8_general_ci NULL,
PRIMARY KEY (`id`) USING BTREE
) ENGINE = MyISAM AUTO_INCREMENT = 1 CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;

六、命令行写执行

进入jianshu目录下, 执行 php -f demo.php 回车即可