GCC-3.4.6源代码学习笔记（82）

最新推荐文章于 2023-03-05 16:22:36 发布

wuhui_gdnt

最新推荐文章于 2023-03-05 16:22:36 发布

阅读量1.1k

点赞数

分类专栏： GCC-3.4.6源代码学习笔记文章标签： token access debugging stream tree parsing

本文链接：https://blog.csdn.net/wuhui_gdnt/article/details/5817743

版权

GCC-3.4.6源代码学习笔记专栏收录该内容

207 篇文章 14 订阅

订阅专栏

5.9. 试探性的解析器

5.9.1. 概观

当前GCC实现的是一个试探性的C++解析器，由于C++并不是严格的上下文无关文法，解析器可能需要多次尝试才能成功解析。因此解析器需要的是窥视功能——看看自己的理解对不对，不对从头重新解读。这个窥视功能可由cp_lexer_peek_token提供。

643 static cp_token *

644 cp_lexer_peek_token (cp_lexer * lexer) in parser.c

645 {

646 cp_token *token;

647

648 /* If there are no tokens, read one now. */

649 if (!lexer->next_token)

650 cp_lexer_read_token (lexer);

651

652 /* Provide debugging output. */

653 if (cp_lexer_debugging_p (lexer))

654 {

655 fprintf (cp_lexer_debug_stream, "cp_lexer: peeking at token: ");

656 cp_lexer_print_token (cp_lexer_debug_stream, lexer->next_token);

657 fprintf (cp_lexer_debug_stream, "/n");

658 }

659

660 token = lexer->next_token;

661 cp_lexer_set_source_position_from_token (lexer, token);

662 return token;

663 }

这里的C++解析器是LL（n）形式的，而不是传统的LL（1）形式。向前窥视第n个符号的功能由更为强大的函数cp_lexer_peek_nth_token提供。

702 static cp_token *

703 cp_lexer_peek_nth_token (cp_lexer* lexer, size_t n) in parser.c

704 {

705 cp_token *token;

706

707 /* N is 1-based, not zero-based. */

708 my_friendly_assert (n > 0, 20000224);

709

710 /* Skip ahead from NEXT_TOKEN, reading more tokens as necessary. */

711 token = lexer->next_token;

712 /* If there are no tokens in the buffer, get one now. */

713 if (!token)

714 {

715 cp_lexer_read_token (lexer);

716 token = lexer->next_token;

717 }

718

719 /* Now, read tokens until we have enough. */

720 while (--n > 0)

721 {

722 /* Advance to the next token. */

723 token = cp_lexer_next_token (lexer, token);

724 /* If that's all the tokens we have, read a new one. */

725 if (token == lexer->last_token)

726 token = cp_lexer_read_token (lexer);

727 }

728

729 return token;

730 }

函数cp_lexer_peek_token，cp_lexer_peek_nth_token及cp_lexer_read_token都不移动first_token。当我们确认无疑地知道某个符号的含义时（比如，关键字），这个符号就不应该再出现在下一次的尝试中。这意味着该符号已经被“消化了”，“消化”符号的函数就是cp_lexer_consume_token。

737 static cp_token *

738 cp_lexer_consume_token (cp_lexer* lexer) n parser.c

739 {

740 cp_token *token;

741

742 /* If there are no tokens, read one now. */

743 if (!lexer->next_token)

744 cp_lexer_read_token (lexer);

745

746 /* Remember the token we'll be returning. */

747 token = lexer->next_token;

748

749 /* Increment NEXT_TOKEN. */

750 lexer->next_token = cp_lexer_next_token (lexer,

751 lexer->next_token);

752 /* Check to see if we're all out of tokens. */

753 if (lexer->next_token == lexer->last_token)

754 lexer->next_token = NULL;

755

756 /* If we're not saving tokens, then move FIRST_TOKEN too. */

757 if (!cp_lexer_saving_tokens (lexer))

758 {

759 /* If there are no tokens available, set FIRST_TOKEN to NULL. */

760 if (!lexer->next_token)

761 lexer->first_token = NULL;

762 else

763 lexer->first_token = lexer->next_token;

764 }

765

766 /* Provide debugging output. */

767 if (cp_lexer_debugging_p (lexer))

768 {

769 fprintf (cp_lexer_debug_stream, "cp_lexer: consuming token: ");

770 cp_lexer_print_token (cp_lexer_debug_stream, token);

771 fprintf (cp_lexer_debug_stream, "/n");

772 }

773

774 return token;

775 }

cp_lexer 中的域next_token总是指向下一个被“消化”的符号，因此在750行，把该域指向的符号向前推进一个。而域last_token是所缓存符号的结尾标记，当next_token推进到这个位置时，next_token被设为NULL以表示没有符号剩下了。

而在757行，cp_lexer_saving_tokens检查cp_lexer中的可变长数组saved_tokens是否不为空。如果不空，表示符号按照解析器的要求要被保留（由cp_lexer_save_tokens触发），否则，推进域first_token来释放符号所占用的空间。

尝试性的解析由函数cp_parser_parse_tentatively拉开序幕。首先是为这次的尝试准备一个解析器上下文。在后面的操作中，编译器看到这个上下文，就知道正在进行尝试性解析。通过这样的上下文栈，尝试性解析可以多层嵌套。

15388 static void

15389 cp_parser_parse_tentatively (cp_parser* parser) in parser.c

15390 {

15391 /* Enter a new parsing context. */

15392 parser->context = cp_parser_context_new (parser->context);

15393 /* Begin saving tokens. */

15394 cp_lexer_save_tokens (parser->lexer);

15395 /* In order to avoid repetitive access control error messages,

15396 access checks are queued up until we are no longer parsing

15397 tentatively. */

15398 push_deferring_access_checks (dk_deferred);

15399 }

接下来在15398行，一个新的访问控制项被加入deferred_access_stack。这个一个延迟检查项，因为解析器将要到来的符号代表什么，只能尽各种可能来识别它们。其间可能会有多次尝试，在尝试期间不需要进行访问检查。访问检查将在完成尝试性解析时执行，在那个时候，解析器应该已经知道这些符号代表什么。

我们已经看到，在cp_lexer中，域first_token指向第一个被窥视的符号，而last_token指向最后一个缓存符号的位置，next_token则指向下一个将被窥视的符号。因此，在 first_token和next_token之间的符号是已经被窥视的，而在next_token和last_token之间的，是将要窥视的符号（如果first_token不等于next_token，这意味着我们在一个嵌套的尝试性解析中）。注意到在这次解析的过程中，first_token也不会被改变，因而如果我们需要重新解析，只要恢复next_token就足够了。这就是为什么cp_lexer_save_tokens只记录first_token到 next_token的距离（由函数cp_lexer_token_difference获得）。

844 static void

845 cp_lexer_save_tokens (cp_lexer* lexer) in parser.c

846 {

847 /* Provide debugging output. */

848 if (cp_lexer_debugging_p (lexer))

849 fprintf (cp_lexer_debug_stream, "cp_lexer: saving tokens/n");

850

851 /* Make sure that LEXER->NEXT_TOKEN is non-NULL so that we can

852 restore the tokens if required. */

853 if (!lexer->next_token)

854 cp_lexer_read_token (lexer);

855

856 VARRAY_PUSH_INT (lexer->saved_tokens,

857 cp_lexer_token_difference (lexer,

858 lexer->first_token,

859 lexer->next_token));

860 }

在调用了cp_lexer_save_tokens后，域saved_tokens不再是空的。回过去看函数cp_lexer_consume_token，save_tokens域不空，将使得没有符号被“消化”（first_token不像通常那样被推进）。

通过串接尝试性解析，我们可以把一个大的尝试性解析分成多个小的尝试性解析。例如，我们要解析一个由3个语法成分组成的语句，假定这3部分可能的组合如下图。

那么我们就可以把这个大的尝试分解为3个小的独立的尝试A，B和C。假如，现在输入的语句是a1b1c2，尝试A首先成功，接下来尝试B、C也成功，那么A，B，C构成的大尝试也就成功了。这时，通过cp_parser_commit_to_tentative_parse来提交这些尝试。假如输入的是a1b1c3，那么尝试C返回与a1b1不相容的c3，解析则失败。尝试C的上下文将被标记为CP_PARSER_STATUS_KIND_ERROR。

15403 static void

15404 cp_parser_commit_to_tentative_parse (cp_parser* parser) in parser.c

15405 {

15406 cp_parser_context *context;

15407 cp_lexer *lexer;

15408

15409 /* Mark all of the levels as committed. */

15410 lexer = parser->lexer;

15411 for (context = parser->context; context->next; context = context->next)

15412 {

15413 if (context->status == CP_PARSER_STATUS_KIND_COMMITTED)

15414 break;

15415 context->status = CP_PARSER_STATUS_KIND_COMMITTED;

15416 while (!cp_lexer_saving_tokens (lexer))

15417 lexer = lexer->next;

15418 cp_lexer_commit_tokens (lexer);

15419 }

15420 }

看到cp_lexer_commit_tokens将从save_tokens弹出一个对象，而15411行的FOR循环将横扫所有未提交的上下文，因此在cp_lexer_consume_token的下一次调用中，将把first_token更新为next_token。如果尝试性解析没有开始过，该FOR循环将不执行就退出，因为主上下文的next域总是为null。

864 static void

865 cp_lexer_commit_tokens (cp_lexer* lexer) in parser.c

866 {

867 /* Provide debugging output. */

868 if (cp_lexer_debugging_p (lexer))

869 fprintf (cp_lexer_debug_stream, "cp_lexer: committing tokens/n");

870

871 VARRAY_POP (lexer->saved_tokens);

872 }

注意到虽然提交了尝试性解析，但它们的上下文并没有释放。只有退出了它们的上下文，解析才被认为完成。另外，如果在解析过程中发生错误，我们需要停止解析，并回滚到解析开始的地方，准备下一次的尝试。要停止解析并从其上下文退出，我们需要调用函数cp_parser_parse_definitely。同样看到如果解析已经被提交，它几乎就是不活动的。

15438 static bool

15439 cp_parser_parse_definitely (cp_parser* parser) in parser.c

15440 {

15441 bool error_occurred;

15442 cp_parser_context *context;

15443

15444 /* Remember whether or not an error occurred, since we are about to

15445 destroy that information. */

15446 error_occurred = cp_parser_error_occurred (parser);

15447 /* Remove the topmost context from the stack. */

15448 context = parser->context;

15449 parser->context = context->next;

15450 /* If no parse errors occurred, commit to the tentative parse. */

15451 if (!error_occurred)

15452 {

15453 /* Commit to the tokens read tentatively, unless that was

15454 already done. */

15455 if (context->status != CP_PARSER_STATUS_KIND_COMMITTED)

15456 cp_lexer_commit_tokens (parser->lexer);

15457

15458 pop_to_parent_deferring_access_checks ();

15459 }

15460 /* Otherwise, if errors occurred, roll back our state so that things

15461 are just as they were before we began the tentative parse. */

15462 else

15463 {

15464 cp_lexer_rollback_tokens (parser->lexer);

15465 pop_deferring_access_checks ();

15466 }

15467 /* Add the context to the front of the free list. */

15468 context->next = cp_parser_context_free_list;

15469 cp_parser_context_free_list = context;

15470

15471 return !error_occurred;

15472 }

在cp_parser_parse_tentatively中，在开始尝试性解析时，我们推迟了访问控制检查。现在在停止该解析时，如果解析成功，那么是时候执行这个延迟的检查；如果解析失败，仍然需要移除这个延迟检查，让下一次尝试自己来处理访问控制。

216 void

217 pop_to_parent_deferring_access_checks (void) in semantics.c

218 {

219 tree deferred_check = get_deferred_access_checks ();

220 deferred_access *d1 = deferred_access_stack;

221 deferred_access *d2 = deferred_access_stack->next;

222 deferred_access *d3 = deferred_access_stack->next->next;

223

224 /* Temporary swap the order of the top two states, just to make

225 sure the garbage collector will not reclaim the memory during

226 processing below. */

227 deferred_access_stack = d2;

228 d2->next = d1;

229 d1->next = d3;

230

231 for ( ; deferred_check; deferred_check = TREE_CHAIN (deferred_check))

232 /* Perform deferred check if required. */

233 perform_or_defer_access_check (TREE_PURPOSE (deferred_check),

234 TREE_VALUE (deferred_check));

235

236 deferred_access_stack = d1;

237 d1->next = d2;

238 d2->next = d3;

239 pop_deferring_access_checks ();

240 }

我们已经看到deferred_access_stack是类型为deferred_access的栈。栈中的每个节点分别代表应用了延迟访问检查的作用域，而节点中的域deferred_access_checks记录了该作用域中所请求的延迟检查。函数get_deferred_access_checks返回当前作用域的延迟检查。

206 tree

207 get_deferred_access_checks (void) in semantics.c

208 {

209 return deferred_access_stack->deferred_access_checks;

210 }

在下一节我们再来看函数perform_or_defer_access_check。在执行完这些延迟检查后，从该栈中弹出这些检查。

187 void

188 pop_deferring_access_checks (void) in semantics.c

189 {

190 deferred_access *d = deferred_access_stack;

191 deferred_access_stack = d->next;

192

193 /* Remove references to access checks TREE_LIST. */

194 d->deferred_access_checks = NULL_TREE;

195

196 /* Store in free list for later use. */

197 d->next = deferred_access_free_list;

198 deferred_access_free_list = d;

199 }

在出错时回滚到起点由cp_lexer_rollback_tokens完成。

877 static void

878 cp_lexer_rollback_tokens (cp_lexer* lexer) in parser.c

879 {

880 size_t delta;

881

882 /* Provide debugging output. */

883 if (cp_lexer_debugging_p (lexer))

884 fprintf (cp_lexer_debug_stream, "cp_lexer: restoring tokens/n");

885

886 /* Find the token that was the NEXT_TOKEN when we started saving

887 tokens. */

888 delta = VARRAY_TOP_INT(lexer->saved_tokens);

889 /* Make it the next token again now. */

890 lexer->next_token = cp_lexer_advance_token (lexer,

891 lexer->first_token,

892 delta);

893 /* It might be the case that there were no tokens when we started

894 saving tokens, but that there are some tokens now. */

895 if (!lexer->next_token && lexer->first_token)

896 lexer->next_token = lexer->first_token;

897

898 /* Stop saving tokens. */

899 VARRAY_POP (lexer->saved_tokens);

900 }

因为在尝试性解析的过程中没有符号被真正“消化”，first_token总是不变的，获取起点时的next_token可谓直截了当。

449 static cp_token *

450 cp_lexer_advance_token (cp_lexer *lexer, cp_token *token, ptrdiff_t n) in parser.c

451 {

452 token += n;

453 if (token >= lexer->buffer_end)

454 token = lexer->buffer + (token - lexer->buffer_end);

455 return token;

456 }

在这里，可以很清楚地看到，cp_parser_parse_tentatively及cp_parser_parse_definitely的调用必需一一对应，以维护延迟检查栈的良好状态。

wuhui_gdnt

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
GCC-3.4.6源代码学习笔记（82）

5.9.试探性的解析器5.9.1.概观<br />当前GCC实现的是一个试探性的C++解析器，由于C++并不是严格的上下文无关文法，解析器可能需要多次尝试才能成功解析。因此解析器需要的是窥视功能——看看自己的理解对不对，不对从头重新解读。这个窥视功能可由cp_lexer_peek_token提供。<br /> <br />643 staticcp_token *<br />644 cp_lexer_peek_token (cp_lexer* lexer)
复制链接

扫一扫