很有意思的问题,高级语言是用低级语言写出来的吗?是,也不是。
这个问题曾经也困扰过我,这里和大家分享一下我认识到答案的过程。
一开始学计算机的时候,我一直以为C语言这种高级语言,肯定是用汇编语言写出来的。直到大学时候遇到一位很好的Linux老师,给我们分享了一个令人震惊的事实:
C语言的编译器,是用C语言写的。
这让班里的小伙伴十分纳闷,这不就是“鸡生蛋,蛋生鸡”的问题吗?要让C语言编译通过,就需要一个C语言编译器。但是C语言编译器是用C写的。那么世界上第一个能执行的编译器,是如何编译的呢?
当时老师所说的编译器正是linux下最常用的编译器gcc。老师还说,gcc的这种特性可以称之为“自举”。(后来gcc的源码逐步换成c++了,这又是另一个故事了)
让我最奇怪的是,这么一个让小伙伴们纳闷的问题,却很少有人提到。似乎计算机大神们觉得很自然,不屑一顾。
直到后来学到一些编译相关的技术,才慢慢了解到这件事的原委。原因不复杂,我简化一下表述:
- 首先,简化C语言的设计,只选择最最基本、不得不实现的功能,形成一个C语言的子集。我们可以叫它C0。
- 用汇编语言实现C0语言的编译器,由于C0功能很少,比较容易直接写一个编译器。
- 用C0语言去实现更多必要的功能,由于C0语言功能太弱,遇到不好写的地方可以用汇编来打补丁。最终你得到了一个改进版的C0语言,我们称之为C1。
- 用C1语言去继续实现更多C语言功能,不好写的地方继续用汇编打补丁。可以得到C2语言
- 以此类推……
- 到Cn语言的时候,你已经得到了一个足够接近C语言的编译器。
- 最终,你得到了一份C语言的编译器。之前的从C0版到Cn-1 版的编译器,都可以扔掉了。
为什么要分N个步骤呢?主要还是为了解释C语言慢慢进化的历史过程。实际上不见得要分很多步,很多中间步骤只是代表了远古大神们迭代改进的过程。
如果大神足够神,可以更简化。直接用汇编语言写一个C语言编译器,然后再用C语言写一个C语言编译器的源码,用汇编版的编译器 编译这个C代码,即可得到一个编译器。之后那个汇编语言的版本就可以扔掉了。
如果你觉得这个故事有点意思,说明你可能是对编程感兴趣的人 :)。加油吧,少年。
PS:由于C的编译器,只是一个简单的应用程序而已,作用只是把文本的C代码变成汇编程序。所以理论上来讲你可以用Python、Java或者Scratch来写个C语言编译器。