譚新強:Galileo的教誨:人類非宇宙中心點
文章日期:2021年5月21日
【明報專訊】人類非常自以為是,一切以自己為中心的動物。自古以來,不止大部分人都以為大地是平或者是方的,他們更以為天上的星星、月亮和太陽,都是圍繞着我們而運轉的。當伽利略(Galileo Galilei)以望遠鏡觀察得來科學證據,支持哥白尼(Nicolaus Copernicus)的太陽中心論,他就被教廷批鬥和逼害了20多年之久。
即使現代人也有同樣自以為是的主觀願望。不少人偏見地以為近數十的所謂新發明,例如互聯網、手機、AI、機械人和加密貨幣等,都必然是人類史上最偉大和最重要發明。更有不少人甚至相信所謂加速回報定律(Law of Accelerating Returns),認為重要科技發明的速度不斷提升,很快就將達到人網合一的所謂「奇點」(Singularity)!
客觀點來看,這些科技發展雖重要,尤其互聯網和手機,令到日常生活更方便和豐富,但怎可能比火、蒸氣機、電力、電話、汽車和飛機等更重要?有人曾問過李光耀,什麼是偉大發明?他的答案是對新加坡而言,最重要的發明是空調!他認為在熱帶地區,如沒有空調,工作效率非常低,經濟發展必更困難。你可能以為李光耀此言是開玩笑,小小一台冷氣機,怎可能那麼偉大?但事實擺在眼前,新加坡是熱帶國家中,極少數(差不多唯一)能達到發達國家水平的國家之一,成功原素當然不止空調這麼簡單,但他立國不久即決定盡快在所有政府辦公室裝置空調,肯定對提升政府效率有極大幫助。
近20年科技無助提升生產效率
若以生產效率的趨勢來判斷近20年科技發展的成效和重要性,不幸客觀結論就必然是頗為失望,甚至驚訝。因為不論美國或中國,過去20年的勞動生產率(labour productivity)增長都不斷放緩(見圖1及圖2),就如數以萬億美元計的IT投資,每人手中一台超級電腦,都提升不了我們的生產效率。更不需遑論AI結合機械人,再加5G,所有工廠都應變得更自動化,需要的工人極少,理論上人均生產效率必定急速提升。
這麼多「超偉大」發明,怎去解釋生產效率增長率不加速反放緩的重大謎團?我認為可探討3個可能性。
(1)從1970年代開始,個人電腦(PC)開始崛起和普及,企業投入大量資源,期望生產力效率大幅提升。但長近20年的投資期,效果一直是失望的,在互聯網普及前,大部分電腦幾乎可算是獨立的,主要用途只包括文書處理(word processing)、電子試算表(spreadsheet)和簡單資料庫(database)等,即使有通訊功能,也只限於速度極慢、撥號連線的modem。在這個單打獨鬥的環境下,大部分PC亦是一台昂貴的高級打字機,對生產力提升當然有限。後來隨着互聯網崛起、寬頻普及,企業開始看得到大量投資IT的回報。當然互聯網的發展,提供了創立大量新企業的機會(但即使如此,上世紀七十年代至今的生產力增長也一直放緩)。
同一道理,過去30年的新科技發展,將有重新提升生產力效率的一天,可能只是時辰未到。我贊同有此可能性,但到底現代科技,缺乏什麼催化劑,防止它們完全體現潛能?我也沒有準確答案,部分可能是投放的量未足夠,例如5G,大家一直期待網絡速度馬上提升10倍以上至Gbps級別,但事實上在美國和中國的用戶體驗極差,平均速度提升50%不到,某些情况和地區,甚至比4G更慢,亦較受障礙物如牆壁阻礙接收。應用方面更缺乏「killer apps」,據說在中國的流行5G App是Speedtest,就是用來測試通訊速度!現時平均每個基站服務約7000用户,當然寄望繼續增加密度,到了某個水平,希望能較成功體現5G功能。除此,高頻率的mmWave網絡仍在起步階段,高頻率才可真正大幅提升速度,但不幸物理上,mmWave穿透力更差,要實現IoT夢想,實時遙控高速機器,進行精細手術和應用於交通系統等,仍面對極大挑戰。
(2)人均生產效率增長放緩,有可能是定義和數據準確度的問題。會否是不可以金錢來量度近代科技發展所帶來的所有好處,除經濟增長外,亦有助改善人類健康、延長壽命,以及提升快樂感?有可能,事實上在過去200多年,全球人類壽命的確上升很多,從不到30歲升至現在的70多歲;但大部分應該是公共衛生的改善,尤其自來水的普及,農業進步導致營養改良,以及接生技術和環境改善,大幅減低嬰兒夭折率等,而非來自先進癌症治療法或基因工程技術。當然,近年英美的平均壽命更出現下跌趨勢。快樂的定義更抽象,跟科技發展更沒有一個必然關係,去多幾次日本就一定開心啲?著名人類學家Steven Pinker認為,原始的hunter-gatherers,以狩獵為生,不用花太多時間工作和計劃生活,平均快樂度反而比生活較穩定和富庶的農業社會高很多。原因是農業需要長達一年的工作計劃、播種、灌溉、收割和儲糧等等,全年忙碌,亦需全年憂慮天氣和瘟疫等。現代人更惨,不止需要計劃一年,未上幼稚園,已需要開始計劃人生,每年每月每日都有無窮無盡的所謂工作、責任和煩惱。
有人企圖解釋,可能分母也有問題。人均生產力增長減速,或者是因為現代經濟高度自動化,需要工作的人愈來愈少,即是失業,underemployment和不需工作的人愈來愈多,所以人均生產效率就被拉低了。這個解釋有兩個問題,首先在這次COVID大流行前,以美國為例,失業率跌至3.5%的50年新低,何來工作人數在減少?近月隨着美國疫情減退,失業率又再急速下降,所以此論點不成立。
有人指出,雖然表面失業率低,但有不少人不再尋找長工,只做點「零工」(gig),或只領救濟,所以人均生產效率被拉低。我沒有深入研究過,但我懷疑近年underemployment的情况,是否真的比以前嚴重。我的印象是從前較以農業為重的社會,鄉下的「閒人」更多,城市化才是提升人均生產力的最重要元素。
總括來說,我承認經濟數據未必能夠完全反映科技進步對人類的影響,但仍不可以此為解釋生產效率增長放緩的藉口。
人類發展漸近兩科學極限
(3)我認為最重要的解釋是人類發展已逐漸走近兩個科學上的極限。第一個是地球資源所能提供的可延續發展極限。人類發展,從古至今,尤其從工業革命開始,都可說是建築在耗用地球資源身上,尤其倚賴化石能源,最初是最髒的煤炭,後來是更好用但更有限的石油,再加上較清潔但難儲存運輸的天然氣。近年我們當然開始發現化石能源的碳排放,帶來嚴重氣候變化問題,如不能在極有限時間內解決,足可導致一次全球大規模動植物滅絕災難!
樂觀來看,這個危機當然也提供很多發展再生能源、電動車輛(electric vehicle, EV)、儲能、碳捕獲(carbon capture),以至「地球工程」(geoengineering)技術的機會。但不能否認的是地球本身是個充滿有機化學(organic chemistry)的環境,最方便的能源必然是與炭相關的,石油的能源密度是任何電池技術的20倍以上。按《巴黎氣候協議》的計劃,人類必須在2050年前達到碳中和,談何容易?去年因疫情,全球碳排放確下降了約6.5%,接近但仍不到每年遞減7%的目標,今年美、中等經濟重開,有可能達標嗎?
另一個更根本的是物理的極限。歷史上最偉大的科學突破,毫無疑問是二十世紀初,愛恩斯坦的狹義和廣義相對論,和稍後由玻爾(Niels Bohr)、海森堡(Werner Heisenberg)和薛丁格(Erwin Schrodinger)等人所發展的量子力學(quantum mechanics)。兩套理論非常偉大,亦有極大實用性,核能和核武正是它們的結合,是禍是福,見仁見智。但不幸過去60年,理論物理已可說碰到了堅硬牆壁,相對論與量子力學有非常根本性,甚至哲學性矛盾,聰明如愛恩斯坦,窮人生最後30年努力,也無法解決此問題。後人想出很多充滿創意的理論,例如超弦理論(Superstring Theory),但全都是紙上談兵,毫無實驗證明,所以於事無補。
物理極限對應用科技和經濟發展有很大影響。整個IT革命都是由半導體技術進步所推進。最有名的摩爾定律(Moore's Law),雖並非一條真正永恒不變的物理定律,但在過去50年,一直是芯片發展的一個指標。事實是每一代的芯片發展,雖仍在進步,但速度早已放緩,最初摩爾定律預期每9至I2個月,芯片密度即可翻一倍,近年已放緩至兩年以上。強如過去的老大英特爾(Intel),已停滯於14nm兩年以上,只有台積電和三星能繼續推前,能成功生產7nm芯片。即使台積電等能如期做到2nm,無疑必將接近物理極限,再縮小必將帶出各種量子世界的奇怪現象如「穿隧效應」(tunneling effect),極難控制芯片性能。
在應用層面上,影響也必極大。單是AI無人駕駛,已是個極重要的科技夢想,亦是Tesla股價的一個重要支柱。馬斯克(Elon Musk)教主是個頂級銷售員,他一直不斷告訴「信徒」無人駕駛是個相對簡單的ANI(Artificial Narrow Intelligence)應用,只需GPU或ASIC夠快,加上視覺數據,必可在短期內成功。按馬斯克的說法,年輕一代不需要學駕駛汽車,法律甚至將禁止人類開車,所有汽車變成AI無人駕駛的EV。
無人駕駛為極複雜AI難題
事實上,無人駕駛是個極複雜的AI難題,最近連馬斯克開始承認困難比原先想像中高很多。不止Tesla,大部分其他公司都碰到同樣問題,不少甚至已放棄。Uber和Lyft都計劃出售無人駕駛部門,Alphabet的Waymo,近日CEO和CFO等多位高層相繼辭職。德國各大汽車廠近日都推出質量非常不錯的EV,但並無太多AI功能。
我一向認為無人駕駛沒那麼簡單,應屬於AGI(Artificial General Intelligence)問題,即需要所謂common sense。人腦當然遠比電腦慢,但複雜度遠比芯片高,人腦neurons(神經元)數量超過1000億,synapses(突觸)數量更超過125萬億,更加是三維物體,連形狀和組織都對人腦的思考、性格和整個意識(conciousness)非常關鍵,遠比現時最先進二維為主,7nm GPU的540億原子粒多和複雜。即使未來用到2nm技術,能做出人類common sense的機會仍很低。不少AI專家認為,AGI需要whole brain simulation,或甚至不可以矽為基礎原料,改以用所謂wet ware,不知是否想以基因工程技術,在試管中培植出一個以碳為基礎原料的有機AI系統?聽起來,比Frankenstein(科學怪人)更恐怖!
我沒有答案,只想提醒大家不要過度自以為是,人類始終是渺小的,我們對宇宙的認知非常有限!
(中環資產擁有Tesla、Uber、Alphabet、台積電及三星財務權益)
中環資產投資行政總裁
[譚新強 中環新譚]
https://www.mpfinance.com/fin/columnist3.php?col=1463481132098
硬 體 加速gpu計劃 在 台灣物聯網實驗室 IOT Labs Facebook 的精選貼文
軟體吞噬硬體的 AI 時代,晶片跟不上演算法的進化要怎麼辦?
作者 品玩 | 發布日期 2021 年 02 月 23 日 8:00 |
身為 AI 時代的幕後英雄,晶片業正經歷漸進持續的變化。
2008 年之後,深度學習演算法逐漸興起,各種神經網絡滲透到手機、App 和物聯網。同時摩爾定律卻逐漸放緩。摩爾定律雖然叫定律,但不是物理定律或自然定律,而是半導體業發展的觀察或預測,內容為:單晶片整合度(積體電路中晶體管的密度)每 2 年(也有 18 個月之說)翻倍,帶來性能每 2 年提高 1 倍。
保證摩爾定律的前提,是晶片製程進步。經常能在新聞看到的 28 奈米、14 奈米、7 奈米、5 奈米,指的就是製程,數字越小製程越先進。隨著製程的演進,特別進入10 奈米後,逐漸逼近物理極限,難度越發增加,晶片全流程設計成本大幅增加,每代較上一代至少增加 30%~50%。
這就導致 AI 對算力需求的增長速度,遠超過通用處理器算力的增長速度。據 OpenAI 測算,從 2012 年開始,全球 AI 所用的演算量呈現等比級數增長,平均每 3.4 個月便會翻 1 倍,通用處理器算力每 18 個月至 2 年才翻 1 倍。
當通用處理器算力跟不上 AI 演算法發展,針對 AI 演算的專用處理器便誕生了,也就是常說的「AI 晶片」。目前 AI 晶片的技術內涵豐富,從架構創新到先進封裝,再到模擬大腦,都影響 AI 晶片走向。這些變化的背後,都有共同主題:以更低功耗,產生更高性能。
更靈活
2017 年圖靈獎頒給電腦架構兩位先驅 David Petterson 和 John Hennessy。2018 年圖靈獎演講時,他們聚焦於架構創新主題,指出演算體系結構正迎來新的黃金 10 年。正如他們所判斷,AI 晶片不斷出現新架構,比如英國 Graphcore 的 IPU──迥異於 CPU 和 GPU 的 AI 專用智慧處理器,已逐漸被業界認可,並 Graphcore 也獲得微軟和三星的戰略投資支援。
名為 CGRA 的架構在學界和工業界正受到越來越多關注。CGRA 全稱 Coarse Grained Reconfigurable Array(粗顆粒可重構陣列),是「可重構計算」理念的落地產物。
據《可重構計算:軟體可定義的計算引擎》一文介紹,理念最早出現在 1960 年代,由加州大學洛杉磯分校的 Estrin 提出。由於太過超前時代,直到 40 年後才獲得系統性研究。加州大學柏克萊分校的 DeHon 等將可重構計算定義為具以下特徵的體系結構:製造後晶片功能仍可客製,形成加速特定任務的硬體功能;演算功能的實現,主要依靠任務到晶片的空間映射。
簡言之,可重構晶片強調靈活性,製造後仍可透過程式語言調整,適應新演算法。形成高度對比的是 ASIC(application-specific integrated circuit,專用積體電路)。ASIC 晶片雖然性能高,卻缺乏靈活性,往往是針對單一應用或演算法設計,難以相容新演算法。
2017 年,美國國防部高級研究計劃局(Defence Advanced Research Projects Agency,DARPA)提出電子產業復興計劃(Electronics Resurgence Initiative,ERI),任務之一就是「軟體定義晶片」,打造接近 ASIC 性能、同時不犧牲靈活性。
照重構時的顆粒分別,可重構晶片可分為 CGRA 和 FPGA(field-programmable gate array,現場可程式語言邏輯門陣列)。FPGA 在業界有一定規模應用,如微軟將 FPGA 晶片帶入大型資料中心,用於加速 Bing 搜索引擎,驗證 FPGA 靈活性和演算法可更新性。但 FPGA 有局限性,不僅性能和 ASIC 有較大差距,且重程式語言門檻比較高。
CGRA 由於實現原理差異,比 FPGA 能做到更底層程式的重新設計,面積效率、能量效率和重構時間都更有優勢。可說 CGRA 同時整合通用處理器的靈活性和 ASIC 的高性能。
隨著 AI 演算逐漸從雲端下放到邊緣端和 IoT 設備,不僅演算法多樣性日益增強,晶片更零碎化,且保證低功耗的同時,也要求高性能。在這種場景下,高能效高靈活性的 CGRA 大有用武之地。
由於結構不統一、程式語言和編譯工具不成熟、易用性不夠友善,CGRA 未被業界廣泛使用,但已可看到一些嘗試。早在 2016 年,英特爾便將 CGRA 納入 Xeon 處理器。三星也曾嘗試將 CGRA 整合到 8K 電視和 Exynos 晶片。
中國清微智慧 2019 年 6 月量產全球首款 CGRA 語音晶片 TX210,同年 9 月又發表全球首款 CGRA 多模態晶片 TX510。這家公司脫胎於清華大學魏少軍教授起頭的可重構計算研究團隊,從 2006 年起就進行相關研究。據芯東西 2020 年 11 月報導,語音晶片 TX210 已出貨數百萬顆,多模組晶片 TX510 在 11 月也出貨 10 萬顆以上,主要客戶為智慧門鎖、安防和臉部支付相關廠商。
先進封裝上位
如開篇提到,由於製程逼近物理極限,摩爾定律逐漸放緩。同時 AI 演算法的進步,對算力需求增長迅猛,逼迫晶片業在先進製程之外探索新方向,之一便是先進封裝。
「在大數據和認知計算時代,先進封裝技術正在發揮比以往更大的作用。AI 發展對高效能、高吞吐量互連的需求,正透過先進封裝技術加速發展來滿足。 」世界第三大晶圓代工廠格羅方德平台首席技術專家 John Pellerin 聲明表示。
先進封裝是相對於傳統封裝的技術。封裝是晶片製造的最後一步:將製作好的晶片器件放入外殼,並與外界器件相連。傳統封裝的封裝效率低,有很大改良空間,而先進封裝技術致力提高整合密度。
先進封裝有很多技術分支,其中 Chiplet(小晶片/芯粒)是最近 2 年的大熱門。所謂「小晶片」,是相對傳統晶片製造方法而言。傳統晶片製造方法,是在同一塊矽晶片上,用同一種製程打造晶片。Chiplet 是將一塊完整晶片的複雜功能分解,儲存、計算和訊號處理等功能模組化成裸晶片(Die)。這些裸晶片可用不同製程製造,甚至可是不同公司提供。透過連接介面相接後,就形成一個 Chiplet 晶片網路。
據壁仞科技研究院唐杉分析,Chiplet 歷史更久且更準確的技術詞彙應該是異構整合(Heterogeneous Integration)。總體來說,此技術趨勢較清晰明確,且第一階段 Chiplet 形態技術較成熟,除了成本較高,很多高端晶片已經在用。
如 HBM 儲存器成為 Chiplet 技術早期成功應用的典型代表。AMD 在 Zen2 架構晶片使用 Chiplet 思路,CPU 用的是 7 奈米製程,I/O 使用 14 奈米製程,與完全由 7 奈米打造的晶片相比成本約低 50%。英特爾也推出基於 Chiplet 技術的 Agilex FPGA 系列產品。
不過,Chiplet 技術仍面臨諸多挑戰,最重要之一是互連介面標準。互連介面重要嗎?如果是在大公司內部,比如英特爾或 AMD,有專用協議和封閉系統,在不同裸晶片間連接問題不大。但不同公司和系統互連,同時保證高頻寬、低延遲和每比特低功耗,互連介面就非常重要了。
2017 年,DARPA 推出 CHIPS 戰略計劃(通用異構整合和 IP 重用戰略),試圖打造開放連接協議。但 DARPA 的缺點是,側重國防相關計畫,晶片數量不大,與真正商用場景有差距。因此一些晶片業公司成立組織「ODSA(開放領域特定架構)工作組」,透過制定開放的互連介面,為 Chiplet 的發展掃清障礙。
另闢蹊徑
除了在現有框架內做架構和製造創新,還有研究人員試圖跳出電腦現行的范紐曼型架構,開發真正模擬人腦的計算模式。
范紐曼架構,數據計算和儲存分開進行。RAM 存取速度往往嚴重落後處理器的計算速度,造成「記憶體牆」問題。且傳統電腦需要透過總線,連續在處理器和儲存器之間更新,導致晶片大部分功耗都消耗於讀寫數據,不是算術邏輯單元,又衍生出「功耗牆」問題。人腦則沒有「記憶體牆」和「功耗牆」問題,處理訊息和儲存一體,計算和記憶可同時進行。
另一方面,推動 AI 發展的深度神經網路,雖然名稱有「神經網路」四字,但實際上跟人腦神經網路運作機制相差甚遠。1,000 億個神經元,透過 100 萬億個神經突觸連接,使人腦能以非常低功耗(約 20 瓦)同步記憶、演算、推理和計算。相比之下,目前的深度神經網路,不僅需大規模資料訓練,運行時還要消耗極大能量。
因此如何讓 AI 像人腦一樣工作,一直是學界和業界積極探索的課題。1980 年代後期,加州理工學院教授卡弗·米德(Carver Mead)提出神經形態工程學的概念。經過多年發展,業界和學界對神經形態晶片的摸索逐漸成形。
軟體方面,稱為第三代人工神經網路的「脈衝神經網路」(Spike Neural Network,SNN)應運而生。這種網路以脈衝信號為載體,更接近人腦的運作方式。硬體方面,大型機構和公司研發相應的脈衝神經網路處理器。
早在 2008 年,DARPA 就發起計畫──神經形態自適應塑膠可擴展電子系統(Systems of Neuromorphic Adaptive Plastic Scalable Electronics,簡稱 SyNAPSE,正好是「突觸」之意),希望開發出低功耗的電子神經形態電腦。
IBM Research 成為 SyNAPSE 計畫的合作方之一。2014 年發表論文展示最新成果──TrueNorth。這個類腦計算晶片擁有 100 萬個神經元,能以每秒 30 幀的速度輸入 400×240pixel 的影片,功耗僅 63 毫瓦,比范紐曼架構電腦有質的飛躍。
英特爾 2017 年展示名為 Loihi 的神經形態晶片,包含超過 20 億個晶體管、13 萬個人工神經元和 1.3 億個突觸,比一般訓練系統所需的通用計算效率高 1 千倍。2020 年 3 月,研究人員甚至在 Loihi 做到嗅覺辨識。這成果可應用於診斷疾病、檢測武器和爆炸物及立即發現麻醉劑、煙霧和一氧化碳氣味等場景。
中國清華大學類腦計算研究中心的施路平教授團隊,開發針對人工通用智慧的「天機」晶片,同時支持脈衝神經網路和深度神經網路。2019 年 8 月 1 日,天機成為中國第一款登上《Nature》雜誌封面的晶片。
儘管已有零星研究成果,但總體來說,脈衝神經網路和處理器仍是研究領域的方向之一,沒有在業界大規模應用,主要是因為基礎演算法還沒有關鍵性突破,達不到業界標準,且成本較高。
附圖:▲ 不同製程節點的晶片設計製造成本。(Source:ICBank)
▲ 可重構計算架構與現有主流計算架構在能量效率和靈活性對比。(Source:中國科學)
▲ 異構整合成示意動畫。(Source:IC 智庫)
▲ 通用處理器的典型操作耗能。(Source:中國科學)
資料來源:https://technews.tw/2021/02/23/what-to-do-if-the-chip-cannot-keep-up-with-the-evolution-of-the-algorithm/?fbclid=IwAR0Z-nVQb96jnhAFWuGGXNyUMt2sdgmyum8VVp8eD_aDOYrn2qCr7nxxn6I
硬 體 加速gpu計劃 在 台灣物聯網實驗室 IOT Labs Facebook 的最讚貼文
AI 時代的摩爾定律?黃氏定律靠的是自身技術力將 AI 性能年年加倍
作者 雷鋒網 | 發布日期 2020 年 12 月 16 日 8:45
1965 年,時任快捷半導體公司工程師,也是後來英特爾(Intel)的創始人之一的戈登·摩爾(Gordon Moore)提出了摩爾定律(Moore’s law),預測積體電路上可以容納的晶體管數目大約每經過 24 個月便會增加 1 倍。
後來廣為人知的每 18 個月晶片性能將提高 1 倍的說法是由 Intel CEO 大衛·豪斯(David House)提出。過去的半個多世紀,半導體行業按照摩爾定律發展,並驅動了一系列的科技創新。
有意思的是,在摩爾定律放緩的當下,以全球另一大晶片公司 NVIDIA 創始黃仁勳(Jensen Huang)名字命名的定律——「黃氏定律(Huang’s Law)」對 AI 性能的提升作出預測,預測 GPU 將推動 AI 性能實現逐年翻倍。
Intel 提出了摩爾定律,也是過去幾十年最成功的晶片公司之一。NVIDIA 作為當下最炙手可熱的 AI 晶片公司之一,提出黃氏定律是否也意味著其將引領未來幾十年晶片行業的發展?
AI 性能將逐年翻倍
受疫情影響,一年一度展示 NVIDIA 最新技術、產品和中國合作夥伴成果的 GTC China 改為線上舉行,黃仁勳缺席今年的主題演講,由 NVIDIA 首席科學家兼研究院副總裁 Bill Dally 進行分享。Bill Dally 是全球著名的電腦科學家,擁有 120 多項專利,在 2009 年加入 NVIDIA 之前,曾任史丹佛大學電腦科學系主任。加入 NVIDIA 之後,Dally 曾負責 NVIDIA 在 AI、光線追蹤和高速互連領域的相關研究。
在 GTC China 2020 演講中,Dally 稱:「如果我們真想提高電腦性能,黃氏定律就是一項重要指標,且在可預見的未來都將一直適用。」
Dally 用三個項目說明黃氏定律將如何得以實現。首先是為了實現超高能效加速器的 MAGNet 工具。NVIDIA 稱,MAGNet 生成的 AI 推理加速器在模擬測試中,能夠達到每瓦 100 tera ops 的推理能力,比目前的商用晶片高出一個數量級。
之所以能夠實現數量級的性能提升,主要是因為 MAGNet 採用了一系列新技術來協調並控制通過設備的訊息流,最大限度地減少數據傳輸。數據搬運是 AI 晶片最耗能的環節已經是當今業界的共識,這一研究模型以模組化實現能夠實現靈活擴展。
Dally 帶領的 200 人的研究團隊的另一個研究項目目標是以更快速的光鏈路取代現有系統內的電氣鏈路。Dally 說:「我們可以將連接 GPU 的 NVLink 速度提高一倍,也許還會再翻番,但電信號最終會消耗殆盡。」
這個項目是 NVIDIA 與哥倫比亞大學的研究團隊合作,探討如何利用電信供應商在其核心網絡中所採用的技術,通過一條光纖來傳輸數十路信號。據悉,這種名為「密集波分複用」的技術,有望在僅一毫米大小的晶片上實現 Tb/s 級數據的傳輸,是如今連網密度的 10 倍以上。
Dally 在演講中舉例展示了一個未來將搭載 160 多個 GPU 的 NVIDIA DGX 系統模型。這意味著,利用「密集波分複用」技術,不僅可以實現更大的吞吐量,光鏈路也有助於打造更為密集的系統。
想要發揮光鏈路的全部潛能,還需要相應的軟件,這也是 Dally 分享的第三個項目——全新程式語言系統原型 Legate。Legate 將一種新的編程速記融入了加速軟件庫和高級運行時環境 Legion,借助 Legate,開發者可在任何規模的系統上運行針對單一 GPU 編寫的程序——甚至適用於諸如 Selene 等搭載數千個 GPU 的巨型超級電腦。
Dally 稱 Legate 正在美國國家實驗室接受測試。
MAGNet、以光鏈路取代現有系統內的電氣鏈路以及 Legate 是成功實現黃氏定律的關鍵,但 GPU 的成功才是基礎。因此,GPU 當下的成功以及未來的演進都尤其重要。
GPU 是黃氏定律的基礎
今年 5 月,NVIDIA 發布了面積高達 826 平方毫米,整合了 540 億個晶體管的 7 奈米全新安培(Ampere)架構 GPU A100。相比 Volta 架構的 GPU 能夠實現 20 倍的性能提升,並可以同時滿足 AI 訓練和推理的需求。
憑藉更高精度的第三代 Tensor Core 核心,A100 GPU AI 性能相比上一代有明顯提升,此前報導,在 7 月的第三個版本 MLPerf Training v0.7 基準測試(Benchmark)結果中,NVIDIA 的 DGX SuperPOD 系統在性能上開創了 8 個全新里程碑,共打破 16 項紀錄。
另外,在 10 月出爐的 MLPerf Inference v0.7 結果中,A100 Tensor Core GPU 在雲端推理的基準測試性能是最先進 Intel CPU 的 237 倍。
更強大的 A100 GPU 迅速被多個大客戶採用,迄今為止,阿里雲、百度智能雲、滴滴雲、騰訊雲等眾多中國雲服務提供商推出搭載了 NVIDIA A100 的多款雲服務及 GPU 實例,包括圖像辨識、語音辨識,以及計算流體動力學、計算金融學、分子動力學等快速增長的高性能計算場景。
另外,新華三、浪潮、聯想、寧暢等系統製造商等也選擇了最新發布的 A100 PCIe 版本以及 NVIDIA A100 80GB GPU,為超大數據中心提供兼具超強性能與靈活的 AI 加速系統。
Dally 在演講中提到:「經過幾代人的努力,NVIDIA 的產品將通過基於物理渲染的路徑追蹤技術,即時生成令人驚豔的圖像,並能夠借助 AI 構建整個場景。」
與光鏈路取代現有系統內的電氣鏈路需要軟硬體的匹配一樣,NVIDIA GPU 軟硬體的結合才能應對更多 AI 應用場景苛刻的挑戰。
Dally 在此次的 GTC China上首次公開展示了 NVIDIA 對話式 AI 框架 Jarvis 與 GauGAN 的組合。GauGAN 利用生成式對抗網路,只需簡略構圖,就能創建美麗的風景圖。演示中,用戶可通過語音指令,即時生成像照片一樣栩栩如生的畫作。
GPU 是黃氏定律的基礎,而能否實現並延續黃氏定律,僅靠少數的大公司顯然不夠,還需要眾多的合作夥伴激發對 AI 算力的需求和更多創新。
黃氏定律能帶來什麼?
NVIDIA 已經在構建 AI 生態,並在 GTC China 上展示了 NVIDIA 初創加速計劃從 100 多家 AI 初創公司中脫穎而出的 12 家公司,這些公司涵蓋會話人工智慧、智慧醫療 / 零售、消費者網路 / 行業應用、深度學習應用 / 加速數據科學、自主機器 / IoT / 工業製造、自動駕駛汽車。
智慧語音正在改變我們的生活。會話人工智慧的深思維提供的是離線智慧語音解決方案,在佔有很少空間的前提下實現智慧交互,語音合成和語音辨識保證毫秒級響應。深聲科技基於 NVIDIA 的產品研發高質量中英文語音合成、聲音定制、聲音複製等語音 AI 技術。
對於行業應用而言,星雲 Clustar 利用 NVIDIA GPU 和 DGX 工作站,能夠大幅提升模型預測精確度以及解決方案處理性能,讓傳統行業的 AI 升級成本更低、效率更高。
摩爾定律的成功帶來了新的時代,黃氏定律能否成功仍需時間給我們答案。但這一定律的提出對 AI 性能的提升給出了明確的預測,並且 NVIDIA 正在通過硬體、軟體的提升和創新,努力實現黃氏定律,同時藉生態的打造想要更深遠的影響 AI 發展。
黃氏定律值得我們期待。
附圖:▲ NVIDIA GPU 助推 AI 推理性能每年提升 1 倍以上。(Source:影片截圖)
▲NVIDIA 首席科學家兼研究院副總裁 Bill Dally。
▲ 搭載 160 多個 GPU 的 NVIDIA DGX 系統模型。
資料來源:https://technews.tw/2020/12/16/huang-law-predicts-that-ai-performance-will-double-every-year/?fbclid=IwAR1vXHWAGt_b8nDRW6VUqzpAINX_n_DzJ0KwJvdBnl18s8Q1A3Thk7hgBoI