透過處理器看世界

ID:105323 · 發表于 2016-2-21 16:21

   進入2010年代以來，不管富有還是貧窮，生活在地球上的人類，幾乎每個人每天都在應用處理器，與處理器對話：手機，電腦，平板，無線網絡，家用電器，汽車，甚至有的開關插座，照明器具都具有處理器。可謂處理器無所不在，影響和左右著人類文明的生活習性，并不斷改變人類的生活習慣。
   令人驚訝的是，處理器生態竟然和人類生態一樣，有著完全相同的對稱關系：人類世界并不完美，既存在不好的一面，也具有互助，彩虹般的多彩多姿，陽光笑面的一面；完美得十全十美的人和丑陋無比的人，都會絕子絕孫，只有中庸的人，才能長遠源傳。同樣，在處理器生態中，缺陷嚴重，并不完美的處理器架構統治著處理器生態圈；漂亮，更具完美的處理器架構身陷囹圄，甚至死亡。下面讓我們來看看處理器生態的殊死搏斗與互助吧……
      1946年2月，世界上第一臺計算機在美國賓夕法尼亞大學誕生，這是一臺需要上千萬美刀的計算機，然而，它的爬行速度卻只有5000DMIPS。對于我們這些生活在2010年代的人來說，它比烏龜還要爬的慢啊。但它既是電子管老虎，也是電老虎：大約每15分鐘報廢一個電子管，更是幾百千瓦的耗電量。然而，它卻整整爬行了9年之多。不過那時還沒有處理器，所有的計算機都是通過電子管，后來是晶體管搭建的。
   1971年11月15日，Intel在為計算機廠家提供芯片開發的過程中，在Federico Faggin的主持下，開發了采用4位并行二進制數據的可編程IC芯片，命名為4004. 4004芯片基本具備了微處理器的特點，用它來做計算器，改變了傳統計算器的形象。采用4004芯片后，再配用一塊程序存儲器，數據存儲器，移位寄存器，再加上鍵盤和數碼管，就構成了一臺完整的微型計算機。但是4004并不能成為處理器，因為它是一個嚴重缺陷的怪胎---可以編程，但不具備指令集和處理器框架(即架構)。不過它卻賣得風生水起---幾乎所有的計算器都應用了它。
1974年，Federico Faggin離開英特爾公司，自立門戶，搞起了8位的ZiLog微處理器。
      雖然Federico Faggin離開了，不過Intel卻從一家德州的Datapoint公司購得更先進的可編程器件，它是一個具有指令集的可編程器件-8008.這就是Intel的X86架構微處理器的指令集的最初原型。從此人類進入了具有標準指令集架構的處理器時代。也同時開創了處理器互相殘殺與互相幫助的局面，延續到現在，以及未來。
   早期IC技術并不發達，處理器速度和內存速度沒有任何差別。此時，采用復雜指令集(CISC)計算機架構具有相當的優勢，一條指令可以實現在存儲器內的多種操作。于是乎，連摩托羅拉公司的處理器，也是CISC處理器。但是，隨著IC技術的發展，邏輯式IC的速度越來越快，而基于多晶體管的觸發器和基于電容的存儲器的速度改進發展緩慢。導致了處理器與存儲器之間存在越來越嚴重的gap。
   在美國stanford大學內，有人提出了新的處理器架構：精簡指令集(RISC)，同時也很多公司開始研制新的處理器。包括DEC，IBM，惠普等。其中要算stanford大學的MIPS處理器架構最為經典，其經典性到現在處理器技術飛速發展的今天依然毫不孫色，實現了在相當小的Die面積下，小的功耗，實現了與其他很多處理器相當的處理能力。其次是IBM聯盟的Power/PowerPC處理器架構，實現了最早具有自解壓指令功能，實現指令密度壓縮到60%，性能損耗只有5%的效果。
   ARM，這一自稱RISC指令集的處理器，并不算是一個好架構。ARM原本想使用摩托羅拉的M68K處理器設計其計算機產品，但是被摩托羅拉公司拒絕，最后決定抄M68K處理器。由于版權、技術能力，最后只抄了M68K簡單的指令部分，并在后來不停的增加指令，構成了后來的ARM處理器架構。
   然而，在這幾十年的處理器競爭下，過上好日子的，卻是黑寡婦Intel X86和年少輕狂的ARM這兩個相對其他處理器架構來說相當中庸的處理器架構，其它處理器都在生存與死亡之間掙扎。同時不論是最早提出最具RISC特性的MIPS，還是后來的PowerPC、ARM等處理器架構都走向相當復雜的具有互鎖特性的Multi-Issue的處理器實現上；那邊廂，復雜指令集的X86處理器實現，則走向了通過不可見Cache翻譯復雜指令集為精簡指令集后與精簡指令集具有完全相同行為的精簡指令集化實現中來。大家都輔于perspective，Out of order, Superscalar(Multi-issue)等復雜特性應用到內核中。隨著IC技術的進展緩慢和處理器性能要求越來越高的矛盾，處理器頻率的提升，導致了IC加速產生大量的熱量，溫升嚴重；另一個嚴重問題則是處理器頻率與內存頻率的巨大差距(gap)，數據從處理器寄存器到內存需要經過幾百個時鐘周期才能達到，提升處理器的速度變得越來越不現實，于是多核就成了處理器性能提升與技術發展不匹配的折中方案了。
   提到ARM，不得不提到Marvel和DEC，DEC通過購買ARM指令，實現了性能相當強悍的StrongARM內核，并被Intel收購后，廣泛應用到消費類產品和網絡處理器方面。Marvell，同樣是通過購買ARM內核指令，應用到其自研的處理器內核中。Marvel之所以給我不錯的好感，也許是因為，這家公司的以色列處理器架構工程師David的幽默以及北大才子之一、前Marvel中國區銷售總監林斌的有才吸引了我；亦或是在與Marvel處理器架構工程師們討論過程中，能深入討論到處理器的架構設計，內核實現對指令效率等相當有趣而優美的處理器設計細節，有一種一起描繪阿羅多姿、優美曲線般的處理器設計藍圖的感覺。同時，Marvel其時也購買了因為Intel拋棄ARM處理器架構，專注X86處理器開發而出售給Marvel的StrongARM處理器內核。
   ARM處理器架構并不優美，而且缺陷多多：ARM處理器指令不具有對齊性，源自于ARM原本是一個只有幾十個人的小公司，不像IBM那樣具有前瞻性的大公司，其處理器指令，是在不斷完善功能和實現客戶提出的需求過程中添加，同時因為其開始客戶主要是英國學校的繪圖計算機需求，導致其關注連續視頻流處理的能力，而具有很多Single instruction multi-data類型的指令，這種指令本身就屬于復雜指令集的特性。不過正因為這種指令，讓其在視頻類應用獲得了相對好的好評。雖然ARM一直宣稱其處理器是低功耗、高性能處理器，但真與MIPS比較，ARM就顯得一文不值了。在達到同樣的性能下，ARM還不如PowerPC的功耗低，Die面積也比MIPS的大接近50%。ARM多核處理器的多核互連架構，不具有任何優勢，4核之間采用Crossbar結構，超過4核的互連存在嚴重的一致性問題。
   X86是我最早接觸的處理器架構，卻是我最后了解的處理器架構，第二接觸到ARM處理器，同時也較深入了解ARM處理器架構。第三接觸到PowerPC處理器，同時開始了解PowerPC處理器架構，但是IBM的Power處理器架構卻是了解的較晚。MIPS處理器架構則處于PowerPC和Power之間。
   X86處理器架構與ARM一樣，名聲并不好。Intel X86，世界上最大的黑寡婦，向上對王者窮追猛打，向下則以黑寡婦的優勢，使勁擠壓美女們的活動空間。名如其曰，黑寡婦是那么的相當不完美，Die size就是其一個致命的弱點，其次是功耗。這兩個致命弱點，都源自于Intel/AMD都采用先把CISC翻譯為RISC后，緩存在不可見的大cache內，同時通過大容量cache存儲數據和指令，這些cache就已經占了超過50%的die size；采用太多的multi-issue(一般具有9 issue，甚至更多)及out of order實現導致增加了超過20%的Die size。之所以如此復雜，Intel美名其曰：指令兼容性；指令兼容確實給Intel帶來了好處，同時也成為Intel X86架構最嚴重的歷史包袱。同時，因為Windows的不兼容性而削弱其價值。就算Intel因為PC的巨大市場，獲取了巨大好處，并投資工藝進步，令所有半導體廠商無法企及，其這一包袱依然嚴重影響Intel進入低功耗產品市場。

   Power處理器，是IBM獨自占有的處理器架構和內核，從Power1到最新的Power7，以及今年出來的power7+, 2014年量產的Power8，一直領先所有處理器性能，堪稱處理器王者。Power處理器架構，以其完美的指令對齊而顯得威武挺拔，頻率一直走在前端。即使工藝不及Intel，依然毫不孫色。可惜王者太過關愛自己，不愿意多使用龍體，導致龍鐘繁殖緩慢，有慢慢被黑寡婦吞噬之險。從Power7開始，IBM開始了其新的cache技術：eDRAM，采用DRAM的技術，實現只有1clk的延遲，并且速度與處理器的速度保持在1/2或1/3的范圍之內。由于IBM長期生產和組建多處理器大型機系統，在多個行業的應用，其遷移式cache一致性特性都優于目前所有的處理器的cache性能。
   PowerPC處理器，是IBM和摩托羅拉公司合作研發的處理器架構和內核，其E300內核具有簡約、高性能、two-issue、相對低功耗，而廣泛應用到工業、通信、汽車電子等行業。E500內核則以其復雜、高性能、技術先進的out of order等技術而應用到工業、通信等行業。PowerPC處理器架構和這兩個內核實現也是處理器架構入門的好案例。
   當然了，保守的IBM，令其王子之身的光芒無法普照世界，失去了王子應有的光環。

   MIPS處理器架構描述：MIPS的意思是“無內部互鎖流水級的微處理器”（Microprocessor without interlocked piped stages），其機制是盡量利用軟件辦法避免流水線中的數據相關問題。是最早出現的商用RISC處理器架構。可以毫不夸張的說，MIPS是處理器架構的革命先驅。因為MIPS的die size小，功耗低，性能相對高，曾經風靡全球，應用廣泛：各種家用電器，打印機，繪圖儀，形形色色的游戲機，圖形工作站，服務器，大型機，網絡產品，電信產品，工控產品，數字電視、數字機頂盒、DVD/藍光播放器、數碼相機和寬帶客戶端等，無處不現其身。大有稱霸處理器世界之勢。不過，由于stanford大學的教授們并不懂得太多的經營，在授權方面也推出了用戶可修改和增加指令集而削弱了其生態系統的生命力。提到MIPS，不得不提SGI這一做圖形工作站和大型服務器的公司，可以說MIPS實現了強大的處理性能，和這家公司的需求密不可分。另外兩家，分別是網絡處理器芯片廠商Cavium和NetLogic(原RMI)，Cavium以增加極少量的網絡應用指令和多核互連，實現高性能的多核網絡應用；NetLogic(RMI)則以修改內核，實現4線程見長，輔于網絡應用指令，實現高性能的網絡應用。由于MIPS可以客戶化定制指令，使得早期MIPS應用到各行各業，同時，也嚴重破壞了處理器賴以生存的生態圈：編譯器、匯編器、庫函數等工具鏈、OS以及各行各業的千千萬萬，不計其數的應用程序的兼容性。使得MIPS的應用產品并無法持續降低運營和維護成本，迫使應用方改變方向。

   多線程技術：多線程技術，目前廣泛應用的有Intel X86、Power7等、MIPS(RMI)、ARM。ARM的多線程還沒有商用，依然在和高性能需求大廠商討，而且技術相對落后效率不高。在前面三者中，最優秀的要算IBM的Power7，設置為兩個線程時，效率高達198%，設置為四線程時，效率大約250%，這源自于IBM的多線程技術和其高達12個isse的執行單元。Intel X86只能設置為雙線程，效率大約為190%。NetLogic（RMI）的多線程介于IBM和Intel之間，也是可以配置為雙線程或四線程。在實現的基本原理上，三者之間已經沒有差別，只有具體的實現上有些細微的差別。

   多核多處理器互連技術：IBM在多處理器的互連技術方面有著成熟的應用甚至已經應用到內存擴展方面，多處理器的互連技術相對更多，Crossbar，Ring，2D-Mesh，6-cube，或他們的組合；多核處理器的互連技術，則更少：主要使用線技術或面技術，由于當前IC工藝限制，無法使用3D技術。IBM和Intel都使用Crossbar的多核互連結構；Cavium使用RING+Crossbar復合結構；RMI使用RING結構；Telira的64核、100核之類的處理器則使用了2D-Mesh結構。當然核數超過8核，不適合應用Crossbar，只能采用8核內采用Crossbar，然后采用第二級互連。

   cache技術：Intel X86 Cache技術是大家都熟悉的共享型技術，cache單元采用SRAM結構，加入了低功耗控制，IBM則采用了自有專利的eDRAM 的cache存儲單元，Cache一致性采用數據遷移式方式，在多核方面更具有優勢。Telira的64核的cache與采用多核互連架構一致，2D-Mesh方式，一致性采用復制方式，比較浪費cache資源。不過高達64核，如果不像IBM的大型機系統那樣，進行分區分割運行，處理器的性能無法發揮出來。

專業業務模型對這些處理器的性能反應，具有可對比性的是Intel X86和IBM的Power7，MIPS、PowerPC之間因為存在多種加速引擎，他們之間可以進行性能對比。以WCDMA的RNC業務模型來分析，Intel X86 8核 3.5GHz，16線程。IBM Power7 3.5GHz 8核分16、32線程；Freescale的E500mc，8核，Cavium MIPS64 12核；RMI 8核 32線程后面三個輔以加速引擎。Power7大約處理20000個數據面用戶，Intel X86大約處理17000個數據面用戶；其它三個需要根據程序優化，良好配合加速引擎，E500mc性能不好(加速引擎未配合好)，Cavium和RMI的不相上下。以上處理器都是64位。

   未來處理器技術的發展：因為程序的順序性而導致多核處理器性能無法發揮，只要處理器頻率和存儲器頻率能提升，并且不導致大量發熱而溫升嚴重，個人應用將是以單核處理器依然是首選，并行應用和云、集群則以多核分區運行為首選。以Stanford大學、Mit、IBM等大學和公司的研究中心已經取得了石墨碳工藝技術的進展，實驗室環境下，據說處理器頻率超過1000GHz，溫升依然小于當前大功率的處理器，處理器內通過光通信技術實現處理器與內存和外設的互連。存儲器廠商則努力研究相敏和磁敏存儲，從相敏和磁敏特性分析，個人認為這兩種存儲器的頻率會有較大的提升，但依然無法達到石墨碳工藝的1000GHz，倒是以量子技術為理論基礎的中子技術革新存儲器，令未來的存儲器達到如此之高的速度，并不再受伽馬射線的影響而產生軟失效，大大縮小了處理器與存儲器之間的速率gap。
   在參與與某公司處理器合作的過程中，終于有機會深入窺視某公司的Power架構和內核實現，并對服務器應用與其它專業應用的巨大差別有了清晰的認知。同時也學會了如何處理和推動兩艘航空母艦之間的合作進展的方法，從加入合作開始，前面兩個多月，盡是和某公司各個地方的商務、研發、合作部門無休止的電話會議和郵件溝通，每每得到某公司的答復是，我沒有收到郵件！或是之前不是我在開會。北京分部如是、美國分部、澳洲分部如是；上海分部作為商務，一樣無法協調某公司內部的溝通，臺灣分部則是主持，本應負有協調某公司內部溝通和任務落實的責任，同樣沒有起到作用。而每次加入到電話會議的，則多達中國區北京、香港、臺灣、上海，美國東部和西部、澳大利亞。每每開完會，會上列出每個地方的任務，并以會議紀要發出去，依然沒有效果。由于長時間未取得預期的進展，承受了領導傳遞過來的強大壓力，但依然不知如何推進。一天，在與某公司臺灣分部的項目負責人溝通后，依然未果。無奈之下，奮筆直書，寫下了短短100字左右的郵件(郵件內容就不說了)，找到某公司所有的名片，選出幾個VP頭銜的人物，將郵件直接發送過去，抄送給項目相關的所有人和本公司多個領導。哇塞！！！某公司的反應真快呀！連夜收到了多個VP的回復郵件，電話會議通知，第二天一大早，就是電話會議，效率真高，就定下來所有的具體責任人和時間表。某公司的技術工程師從美國多個地方、澳大利亞等地方在4天內都趕到了。那進展，簡直就是一天一小變，三天一大變呀！
      處理器研發時，部門不愿意立項做FPGA的處理器驗證單板，當時倒是沒有感覺到挑戰。也許我在公司呆了那么多年，依然不了解公司的流程和規范。當發現因為沒有立項，是不能獲得任何資源支撐的時候，能做的事情就是忽悠，不停的忽悠。于是就開始寫ppt，向需要的資源部門領導忽悠，一次不行，兩次，兩次不行，三次！哈哈，幸運的是，感覺還是很順利的，最難通過的部門，也就修改了兩次ppt，忽悠三次就Pass了。當然，這還得動用高鐵ATP項目時與多個部門建立起來的人脈關系。對外，依然是困難重重，最難的就是FPGA芯片的交期能否保證這一難度不亞于與某公司的合作的推動，畢竟全球就那么兩家做高端FPGA的廠家，都很牛逼啊。因為交期的問題，也是動用了兩艘大船的VP，并且一不小心，把對方的Sale給革職了，對這Sale，真是不好意思了啊！好了，描述完協調的事情之后，該回到技術上來啦，我本是不謙虛的人，硬件對我來說，實在是太簡單的事情了，即使是4個規模膨大的FPGA，也沒有什么難的。更何況還有硬件工程師，軟件工程師完成，其他部門如PCB Layout，工藝，結構，EMC，線纜等的支持配合。不過愛好技術的我，還是把DDR2和DDR3的驗證拿來親力親為了一把。結果，驗證的時候，最嚴重的就是DDR部分啊，悲催的FPGA驗證時，DDR控制器只能跑到50MHz+(因為需要驗證DDR PHY，不能使用FPGA的DDR PHY)，DDR芯片的廠家只保證到133MHz或以上的頻率下正常運行。唯一能做的，就是計算DDR的數據刷新時間、其它各種時序及其延遲周期，經過一個多月的奮戰，DDR控制器終于在50MHz左右的情況下穩定運行了。在參與這個項目的過程中，讓我明白了忽悠是那么的重要，對內，對外忽悠的重要。項目完成之后，特意花了一周的時間，整理了一個16頁的ppt，描述了如何通過對內各個部門，對外其它公司的協調，如何帶領團隊正確的完成任務，減少或避免錯誤出現，取得了何種成績，美名其曰：項目總結，優秀實踐！發出去，哈哈！
   多核處理器技術藍皮書：以一個普通工程師的角色，請教公司內外的資深工程師、教授、處理器名人，這是一個令人難忘的經歷。有人懷著一顆熱情的心，耐心的解說、指導，并和我交流討論，同時盡力提供資料；有人樂意幫助，并提供資料；有人愿意幫助，但不熱情；有人冷冷的幫助了我；有人耍太極，當面說提供資料，后續查無回音，多次拜訪依然如此；有人以工作忙，或沒有了解為由，直接拒絕提供幫助。在這一過程中，需要和自己最親近的朋友、領導請教如何打動他人，樂意提供幫助的方法，同時在遇到冷遇與拒絕時保持良好的交流心態和語氣，這是一個忍受的過程。資料和信息獲取到了之后，就是學習，整理，最終總結出幾個未來發展方向的觀點，這只要運用紙上的忽悠能力就可以解決的事情了。從IC工藝角度看，處理器未來會持續發展到現有半導體理論極限的16nm，至于Intel等提出的12nm，10nm，8nm，6nm等硅半導體工藝，暫時無法參透其半導體如何在如此之薄的晶圓上生長，難道雜質只生長一半或不到一半到硅原子內？另外，如此之薄，芯片電壓也變得難于實現的0.4V或以下。同時，IBM，Stanford，MIT等研究的石墨碳工藝，則是未來半導體工藝熱門的方向。處理器內部互連，則通過光通信實現處理器與內存、外設的高帶寬的通信，并最終實現芯片內的WDM通信。更為突出的是，IC工藝從平面向3D方向進軍，這同樣會深刻影響IC技術的變革。從處理器外部硬件上看，以后的硬件將更加歸一化，生命周期更短；虛擬化技術屏蔽了底層硬件的差異，實現了OS及其上層的統一性；多核處理器與內存則通過虛擬化進行分區劃分運行，提升多核處理器運行效率。

國內外處理器技術差距：從宏觀的大環境看，處理器技術完全掌握在美國國內，無論是處理器芯片，還是處理器賴以生存的處理器生態系統：半導體，處理器體系結構和內核實現，工具鏈，OS，各種應用程序。其它國家和中國都顯得那么蒼白無力。從與人的對話來看，與stanford大學教授，Intel， IBM，Marvel，Freescale，Cavium，NetLogic，處理器性能評估獨立人 markus.levy等的交流，都能深入的介紹處理器的體系結構差異，內核的實現細節，底層程序，應用程序如何影響處理器性能發揮，如何建立業務模型等。與國內中科院龍芯處理器教授的交流，就顯得相當空洞無力，教授們大談特談龍芯如何成功，基于什么樣的原因，諸如處理器生態系統，處理器賴以生存的工具鏈，OS，和應用程序來選擇處理器架構和內核等，取得了國家某某獎之類空乏無力的虛吹。

企業文化：在整個處理器職業生涯中，令我印象深刻的是stanford，intel，Freescale，IBM的企業文化對雇員的影響；stanford具有相當的學術自由，里面有相當多的處理器學術派系，他們彼此表達出不同的觀點，卻共融而一起研究處理器技術；Freescale和IBM的雇員們，對工作懷有相當的熱枕，對公司有著相當的忠誠和尊重；他們時刻不忘向客戶推介他們的產品和技術，并兢兢業業的完成工作職責和任務，同時，他們堅實的技術基礎和技術能力，快速解決技術問題的能力，都讓我們肅然起敬。Intel的工程師們，則是完全相反的態度，公司賺錢與我一點關系都沒有，工作沒有熱情，沒有激情。帶著不情愿的表情完成工作職責和任務。當然，Intel的工程師們的工作能力也是非常棒的。

透過處理器世界，我們同樣看到世界的不完美，也只有不完美，才會讓人類發奮努力去追求完美。

下一篇，將準備撰寫海陸空三維立體交通系統的系統和未來發展方向，或者是高鐵ATP系統，也可能是通信網絡的歷史，現狀，未來的發展，…………

ID:1 · 發表于 2017-3-7 03:19

精品好文啊，內容精辟，觀點獨到。51黑有你更精彩.

ID:168401 · 發表于 2017-3-7 21:28

精品好文啊，內容精辟，觀點獨到。51黑有你更精彩.

帳號		自動登錄	找回密碼
密碼			立即注冊

欧美极品高清xxxxhd,国产日产欧美最新,无码AV国产东京热AV无码,国产精品人与动性XXX,国产传媒亚洲综合一区二区,四库影院永久国产精品,毛片免费免费高清视频,福利所导航夜趣136

透過處理器看世界

相關帖子