PHP 安全：过滤、验证和转义

最新推荐文章于 2022-06-20 20:07:16 发布

一夜长风

最新推荐文章于 2022-06-20 20:07:16 发布

阅读量7.7k

点赞数 1

分类专栏： PHP程序

PHP程序专栏收录该内容

27 篇文章 0 订阅

订阅专栏

PS：来自http://laravelacademy.org/post/4610.html

我们在开发应用时，一般有个约定：不要信任任何来自不受自己控制的数据源中的数据。例如以下这些外部源：

$_GET
$_POST
$_REQUEST
$_COOKIE
$argv
php://stdin
php://input
file_get_contents()
远程数据库
远程API
来自客户端的数据

所有这些外部源都可能是攻击媒介，可能会（有意或无意）把恶意数据注入PHP脚本。编写接收用户输入然后渲染输出的PHP脚本很容易，可是要安全实现的话，需要下一番功夫。我这里以陈咬金的三板斧为引子，给大家介绍三招：过滤输入、验证数据，以及转义输出。

1、过滤输入

过滤输入是指转义或删除不安全的字符。在数据到达应用的存储层之前，一定要过滤输入数据，这是第一道防线。假如网站的评论框接受HTML，用户可以随意在评论中加入恶意的<script>标签，如下所示：

<p>
这篇文章很有用！
</p>
<script>windows.location.href="http://laravelacademy.org";</script>

如果不过滤这个评论，恶意代码会存入数据库，然后在网页中渲染，当用户访问这个页面时，会重定向到可能不安全的钓鱼网站（这种攻击有一个更专业的称呼：XSS攻击）。这个简单示例很好的说明了为什么我们要过滤不受自己控制的输入数据。通常我们要过滤的输入数据包括HTML、SQL查询以及用户资料等。

HTML

我们可以使用PHP提供的htmlentities函数过滤HTML，该函数会将所有HTML标签字符（&、<、>等）转化为对应的HTML实体，以便在应用存储层取出后安全渲染。但是有时候我们是允许用户输入某些HTML元素的，尤其是输入富文本的时候，比如图片、链接这些，但是htmlentities不能验证HTML，检测不出输入字符串的字符集，故而无法实现这样的功能。

<?php
$input = "<p><script>alert('Laravel学院');</script></p>"；
echo htmlentities($input, ENT_QUOTES, 'UTF-8');

htmlentities的第一个参数表示要处理的HTML字符串，第二个参数表示要转义单引号，第三个参数表示输入字符串的字符集编码。

与htmlentities相对的是html_entity_decode方法，该方法会将所有HTML实体转化为对应的HTML标签。

此外，PHP还提供了一个类似的内置函数htmlspecialchars，该函数也是用于将HTML标签字符转化为HTML实体，只是能够转化的字符有限（参考官方文档：http://php.net/manual/zh/function.htmlspecialchars.php），如果要转化所有字符还是使用htmlentities方法，值得一提的是和htmlentities一样，htmlspecialchars也有一个与之相对的方法htmlspecialchars_decode。

如果想要直接将输入字符串中的所有HTML标签去掉，可以使用strip_tags方法。

如果需要更加强大的过滤HTML功能，可以使用HTML Purifier库，这是一个很强健且安全的PHP库，专门用于使用指定规则过滤HTML输入。在Laravel中我们可以使用相应的扩展包来实现过滤功能：http://laravelacademy.org/post/3914.html

SQL查询

有时候应用必须根据输入数据构建SQL查询，这些数据可能来自HTTP请求的查询字符串，也可能来自HTTP请求的URI片段，一不小心，就有可能被不怀好意的人利用进行SQL注入攻击（拼接SQL语句对数据库进行破坏或者获取敏感信息）。很多初级的程序员可能会这么写代码：

$sql = sprintf(
    'UPDATE users SET password = "%s" WHERE id = %s',
    $_POST['password'],
    $_GET['id']
);

这么做风险很大，比如某个人通过如下方式对HTTP发送请求：

POST /user?id=1 HTTP/1.1
Content-Length: 17
Content-Type: application/x-www-form-urlencoded

password=abc”;--

这个HTTP请求会把每个用户的密码都设置为abc，因为很多SQL数据库把—视作注释的开头，所以会忽略后续文本。

在SQL查询中一定不能使用未过滤的输入数据，如果要在SQL查询中使用输入数据，一定要使用PDO预处理语句（PDO是PHP内置的数据库抽象层，为不同的数据库驱动提供统一接口），PDO预处理语句是PDO提供的一个功能，可以用于过滤外部数据，然后把过滤后的数据嵌入SQL语句，避免出现上述SQL注入问题，此外预处理语句一次编译多次运行，可以有效减少对系统资源的占用，获取更高的执行效率。关于PDO后我们后续还会在数据库部分重点讨论。

值得注意的是，很多现代PHP框架都使用了MVC架构模式，将数据库的操作封装到了Model层，框架底层已经做好了对SQL注入的规避，只要我们使用模型类提供的方法执行对数据库的操作，基本上可以避免SQL注入风险。

我们以Laravel为例看看底层是如何规避SQL注入的，改写上面的update语句，代码会是这样：

$id = $_GET['id'];
$password = $_POST['password'];
User::find($id)->update(['password'=>bcrypt($password)]);

由于模型类底层调用的是是查询构建器的方法，所以最终会调用Builder（Illuminate\Database\Query\Builder）的update方法：

public function update(array $values)
{
    $bindings = array_values(array_merge($values, $this->getBindings()));

    $sql = $this->grammar->compileUpdate($this, $values);

    return $this->connection->update($sql, $this->cleanBindings($bindings));
}

这段代码传入参数是要更新的值，然后通过$bindings获得绑定关系，这里我们我们获取到的应该是包含password和updated_at（默认更新时间戳）的数组，然后再通过Grammar（Illuminate\Database\Query\Grammars\Grammar）类的compileUpdate方法生成预处理SQL语句，这里对应的sql语句是：

update `users` set `password` = ?, `updated_at` = ? where `id` = ?

然后最终将预处理sql语句和对应绑定关系传递给数据库去执行。关于SQL注入我们还会在后续数据库部分继续讨论。

用户资料信息

如果应用中有用户账户，可能就要处理电子邮件地址、电话号码、邮政编码等资料信息。PHP预料到会出现这种情况，因此提供了filter_var和filter_input函数。这两个函数的参数能使用不同的标志，过滤不同类型的输入：电子邮件地址、URL编码字符串、整数、浮点数、HTML字符、URL和特定范围的ASCII字符。

以下示例展示了如何过滤电子邮件地址，删除除字母、数字和!#$%&'*+-/=?^_{|}~@.[]`之外的所有其他字符：

<?php
$email = 'yaojinbu@163.com';
$emailSafe = filter_var($email, FILTER_SANITIZE_EMAIL);

更多filter_var的使用请参考PHP官方文档：http://php.net/manual/zh/function.filter-var.php，相应的移除过滤器请参考：http://php.net/manual/zh/filter.filters.sanitize.php。

当然，filter_var函数还可以用于其它表单提交数据的过滤。

2、验证数据

PHP原生实现

验证输入数据也很重要，与过滤不同，验证不会从输入数据中删除信息，而只是确认用户输入是否符合预期。如果输入的是电子邮件地址，则确保用户输入的是电子邮件地址；如果需要的是电话号码，则确保用户输入的是电话号码，这就是验证要做的事儿。

验证是为了保证在应用的存储层保存符合特定格式的正确数据，如果遇到无效数据，要中止数据存储操作，并显示相应的错误信息来提醒用户输入正确的数据。验证还能避免数据库出现潜在错误，例如，如果MySQL期望使用DATETIME类型的值，而提供的却是DATE字符串，那么MySQL会报错或使用默认值，不管哪种处理方式，应用的完整性都受到无效数据的破坏。

要实现输入数据验证，我们可以把某个FILTER_VALIDATE_*标识传递给filter_var函数，PHP提供了验证布尔值、电子邮件地址、浮点数、整数、IP、正则表达式和URL的标识（详见http://php.net/manual/en/filter.filters.validate.php）。下面的示例演示了如何验证电子邮件地址：

<?php
$input = 'yaojinbu@163.com';
$isEmail = filter_var($input, FILTER_VALIDATE_EMAIL);
if ($isEmail !== FALSE) {
    echo 'success';
} else {
    echo 'failed';
}

我们要特别关注filter_var的返回值，如果验证成功，返回的是要验证的值，如果验证失败，返回false。

借助PHP组件

虽然filter_var函数提供了很多用于验证的标识，但一招鲜，不能吃遍天，我们不能依赖它验证所有数据，除了filter_var函数，还有以下组件可以帮助我们完成更加复杂的验证功能：

注：输入数据既要验证也要过滤，以确保其符合预期且安全。

3、PHP 转义实现

把输出渲染成网页或API响应时，一定要转义输出，这也是一种防护措施，能避免渲染恶意代码，造成XSS攻击，还能防止应用的用户无意中执行恶意代码。

我们可以使用前面提到的htmlentities函数转移输出，该函数的第二个参数一定要使用ENT_QUOTES，让这个函数转义单引号和双引号，而且，还要在第三个参数中指定合适的字符编码（通常是UTF-8），下面的例子演示了如何在渲染前转义HTML输出：

<?php
$output = '<p><script>alert(“欢迎来到Laravel学院！")</script></p>';
echo htmlentities($output, ENT_QUOTES, ‘UTF-8');

如果不转义直接输出，会弹出提示框：

alert

转义之后输出变成：

<p><script>alert("欢迎访问Laravel学院!");</script></p>

现代PHP支持许多模板引擎，这些模板引擎在底层已经为了做好了转义处理，比如现在流行的twig/twig和smarty/smarty都会自动转义输出。这种默认处理方式很赞，为PHP Web应用提供了有力的安全保障。

一夜长风

关注

1
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
PHP 安全：过滤、验证和转义

PS：来自http://laravelacademy.org/post/4610.html我们在开发应用时，一般有个约定：不要信任任何来自不受自己控制的数据源中的数据。例如以下这些外部源：$_GET$_POST$_REQUEST$_COOKIE$argvphp://stdinphp://inputfile_get_contents()远程数据
复制链接

扫一扫