PHP词法解析源码分析之PHP标签、关键字、类、数字

最新推荐文章于 2021-03-12 15:28:41 发布

Traxer

最新推荐文章于 2021-03-12 15:28:41 发布

阅读量2.7k

点赞数 1

分类专栏： Webshell研究文章标签： PHP 词法分析

本文链接：https://blog.csdn.net/wuyangbotianshi/article/details/41728091

版权

本文深入分析PHP内核词法解析，涵盖PHP标签（如<script language=php>）、简单关键字匹配、类与结构体处理，以及数字（包括二进制、纯数字、十六进制、小数和科学记数法）的处理方式。通过源码解读，揭示PHP语法的实现细节。

摘要由CSDN通过智能技术生成

之前没搞过web端的程序，最近要研究webshell，发现php的语法太怪异了，干脆直接看看PHP内核词法分析的代码。

php的词法分析从zend_language_scanner.l文件中的lex_scan开始，开头代码如下：

int lex_scan(zval *zendlval TSRMLS_DC)
{
//设置当前token的首位置为当前位置
restart:
    SCNG(yy_text) = YYCURSOR;

yymore_restart:
//这段注释定义了各个类型的正则表达式匹配，在词法解析程序（如bison、re2c等）程序将本文件转化为c代码时会用到
/*!re2c
re2c:yyfill:check = 0;
LNUM    [0-9]+
DNUM    ([0-9]*"."[0-9]+)|([0-9]+"."[0-9]*)
EXPONENT_DNUM    (({LNUM}|{DNUM})[eE][+-]?{LNUM})
HNUM    "0x"[0-9a-fA-F]+
BNUM    "0b"[01]+
LABEL    [a-zA-Z_\x7f-\xff][a-zA-Z0-9_\x7f-\xff]*
WHITESPACE [ \n\r\t]+
TABS_AND_SPACES [ \t]*
TOKENS [;:,.\[\]()|^&+-/*=%!~$<>?@]
ANY_CHAR [^]
NEWLINE ("\r"|"\n"|"\r\n")

/* compute yyleng before each rule */
<!*> := yyleng = YYCURSOR - SCNG(yy_text);

接下去就按照解析PHP标签、关键字、类和结构体、数字这几个方面来看lex_scan是如何解析PHP代码的。

1.匹配php标签

在zend_language_scanner.l文件里会匹配php的标签，并且匹配规则不止一种，打开了asp_tag开关还能兼容asp脚本，比较奇特。

1.1 <script language=php>

首先是匹配<script language=php>标签，源码如下,无论这里面有多少个空白字符全部无视，最后php也可以加上单引号或双引号：

<INITIAL>"<script"{WHITESPACE}+"language"{WHITESPACE}*"="{WHITESPACE}*("php"|"\"php\""|"'php'"){WHITESPACE}*">" {
    YYCTYPE *bracket = (YYCTYPE*)zend_memrchr(yytext, '<', yyleng - (sizeof("script language=php>") - 1));

    if (bracket != SCNG(yy_text)) {
        /* Handle previously scanned HTML, as possible <script> tags found are assumed to not be PHP's */
        YYCURSOR = bracket;
        goto inline_html;
    }

    HANDLE_NEWLINES(yytext, yyleng);
    ZVAL_STRINGL(zendlval, yytext, yyleng, 0); /* no copying - intentional */
    BEGIN(ST_IN_SCRIPTING);
    return T_OPEN_TAG;
}