> 版權聲明:本文為CSDN博主「碼農翻身」的原創文章,遵循 CC 4.0 BY-SA 版權協議,轉載請附上原文出處鏈接及本聲明。 > 原文鏈接:https://blog.csdn.net/coderising/article/details/101731213 這是來自我的星球的一個提問:“C語言本身用什麼語言寫的?” 換個角度來問,其實是:C語言在運行之前,得編譯才行,那C語言的編譯器從哪裏來? 用什麼語言來寫的?如果是用C語言本身來寫的,到底是先有蛋還是先有雞? ### 1. 我們假設世界上不存在任何編譯器, 先從機器語言說起,看看怎麼辦。 機器語言可以直接被CPU執行,不需要編譯器。 然後是彙編語言, 彙編語言雖然隻是機器語言的助記符,但是也需要編譯成機器語言才能執行,沒辦法隻能用機器語言來寫這第一個編譯器了(以後就不用了)。 彙編語言的問題解決了,就往前邁進了一大步,這時候就可以用彙編語言去寫C語言的編譯器,我們說這是C編譯器的老祖宗。 有了這個老祖宗,就可以編譯任意的C語言程序了,那是不是可以用C語言本身寫一個編譯器?隻要用老祖宗編譯一下就可以了。 OK, 這麼一層層上來,終於得到了一個用C語言寫的編譯器, 真是夠麻煩的。 到這個時候,之前那個彙編寫的C語言編譯器就可以拋棄了。 當然,如果在C語言之前,已經出現了別的高級語言,例如Pascal,那就可以用Pascal來寫一個C語言的編譯器。 第一個Pascal的編譯器據說使用Fortran寫的。而做為第一個高級語言的Fortran,它的編譯器應該是彙編語言寫的。 ### 2. 關於編譯器,這裏邊有個有趣的傳說: 傳說Unix 發明人之一的 Ken Thompson在貝爾實驗室,大搖大擺的走到任何一台Unix機器前,輸入自己的用戶名和密碼,就能以root的方式登錄! 貝爾實驗室人才濟濟,另外一些大牛發誓要把這個漏洞找出來,他們通讀了Unix的C源碼,終於找到了登錄的後門, 清理後門以後編譯Unix , 運行, 可是Thompson 還是能夠登錄進去。 有人覺得可能是編譯器中有問題,在編譯Unix的時候植入了後門, 於是他們又用C語言重新寫了一個編譯器,用新的編譯器再次編譯了Unix, 這下總算天下太平了吧。 可是仍然不管用, Thompson 依然可以用root登錄,真是讓人崩潰 ! 後來Thompson 本人解開了秘密,是第一個C 語言編譯器有問題, 這個編譯器在編譯Unix源碼的時候,當然會植入後門, 這還不夠,更牛的是,如果你用C 語言寫了一個新編譯器,肯定也需要編譯成二進製代碼啊,用什麼來編譯,隻有用Thompson寫的那第一個編譯器來編譯,好了, 你寫的這個編譯器就會被汙染了,你的編譯器再去編譯Unix , 也會植入後門 :-) 說到這裏我就想起了幾年前的XcodeGhost 事件,簡單來說就是在Xcode(非官方渠道下載的)中植入了木馬,這樣XCode編譯出的ios app都被汙染了,這些app就可以被黑客利用做非法之事。 雖然這個XCodeGhost和Thompson的後麵相比差得遠,但是提醒我們,下載軟件的時候要走正規渠道,從官方網站下載,認準網站的HTTPS標準,甚至可以驗證一下checksum。 ### 3. 可能有人問:我用彙編寫一段Hello World都很麻煩,居然有人可以用它寫複雜的編譯器?這可能嗎? 當然可能,在開發第一代Unix的時候,連C語言都沒有, Ken Thompson 和 Dennis Ritchie 可是用彙編一行行把Unix敲出來的。 WPS第一版是求伯君用彙編寫出來的, Turbo Pascal 的編譯器也是Anders 用彙編寫出來的,大神們的能力不是普通人能想象得到的。 對於編譯器來說,還可以采用“滾雪球”的方式來開發: 還是以C語言為例,第一個版本可以先選擇C語言的一個子集,例如隻支持基本的數據類型,流程控製語句,函數調用...... 我們把這個子集稱為C0。 然後用彙編語言寫個編譯器,隻搞定這個語言的子集C0,這樣寫起來就容易不少。 C0這個語言可以工作了,然後我們擴展這個子集,例如添加struct,指針...... ,把新的語言稱為C1。 那C1這個語言的編譯器由誰來寫? 自然是C0。 等到C1可以工作了,再次擴展語言特性,用C1寫編譯器,得到C2。 然後是C3, C4...... 最後得到完整的C語言。 這個過程被稱為bootstraping , 中文叫做自舉。