為了讓 AI 不斷打怪升級,DeepMind 打造「宇宙」
作者 雷鋒網 | 發布日期 2021 年 07 月 30 日 8:15 |
DeepMind 又給我們小驚喜。我們都知道,強化學習苦於類化能力差,經常只能針對單個任務從頭學習。
DeepMind之前開發的AlphaZero,儘管可以玩圍棋、西洋棋和日本將棋,但每種棋牌遊戲都只能從頭訓練。類化能力差也是AI一直被詬病為人工智障的一大原因。人類智慧的厲害之處,就在藉鑑之前經驗迅速適應新環境。
但類化能力不是一蹴而就,就像玩遊戲,也是先做簡單任務,逐步升級到複雜任務。《空洞騎士》(Hollow Knight)一開始只需要隨意走動揮刀砍怪,但噩夢級難度的「苦痛之路」關,沒有前面累積的技巧,只能玩寂寞。
多任務宇宙
DeepMind此次採用「課程學習」,讓智慧體於不斷擴展升級的開放世界學習。也就是說,AI新任務(訓練資料)是基於舊任務不斷生成。智慧體可盡情鍛鍊自己,簡單的如「靠近紫色立方體」,複雜點的如「靠近紫色立方體或將黃色球體放在紅色地板」,甚至和其他智慧體玩耍,如捉迷藏──「找到對方,且不要被對方發現」。
每個小遊戲存在世界小角落,千千萬萬個小角落拼成龐大的物理模擬世界,如下圖的幾何「地球」。總體來說這個世界的任務由三個要素構成,即任務=遊戲+世界+玩家,並根據三要素關係,決定任務的複雜度。
複雜度的判斷有四個維度:競爭性、平衡性、可選項、探索難度。
比如「搶方塊」遊戲,藍色智慧體需要把黃色方塊放到白色區域,紅色智慧體需要把黃色方塊放到藍色區域。這兩個目標矛盾,因此競爭性較強;同時雙方條件對等,平衡性比較高;因目標簡單,所以可選項少;DeepMind把探索難度評為中上,可能是因定位區域算較複雜的場景。
再如「球球喜歡和方塊一起玩」遊戲,藍色和紅色智慧體有共同目標,讓相同顏色的球體和方塊放在相近位置。
這時競爭性自然很低,平衡性毋庸置疑很高的;可選項比上面遊戲高很多;探索難度沒有定位區域,智慧體隨便把球體和方塊放哪都行,難度就變小了。
基於這四個維度,DeepMind打造超大規模「宇宙」任務空間,幾何「地球」也只是這宇宙的小角落,是四維任務空間的一點。DeepMind將「宇宙」命名為XLand,包含數十億個任務。
來看XLand的全貌,由一系列遊戲組成,每個遊戲在許多模擬世界進行,這些世界的拓樸和特徵平滑變化。
終生學習
數據有了,接下來得找到合適的算法。 DeepMind發現,目標注意代理(GOAT)可學習更通用的策略。
具體來說,智慧體輸入包括第一視角的RGB圖像、本體感覺以及目標。經過初步處理後,生成中間輸出,傳遞給GOAT模組,會根據智慧體目前目標處理中間輸出的特定部分,邏輯分析目標。
邏輯分析是指,每個遊戲可藉由一些方法,構建另一個遊戲,並限制策略的價值函數的最優值上限或下限。
DeepMind提出一個問題:對每個智慧體,什麼樣的任務是最好的?換句話說,打怪升級時,什麼樣的關卡設置才讓玩家順利升級為「真」高手,而不是一刀9999?
DeepMind的答案是,每個新任務都基於舊任務生成,「不會太難,也不會太容易」。其實恰好是讓人類學習時感覺「爽」的興奮點。
訓練開始時,太難或太容易的任務可能會鼓勵早期學習,但會導致訓練後期的學習飽和或停滯。不要求智慧體某任務非常優秀,而是鼓勵終身學習,即不斷適應新任務。所謂太難、太容易是較模糊的描述。需要量化方法,在新任務和舊任務之間彈性連接。
怎麼不讓智慧體做新任務時不適應而「暴死」?進化學習就提供很好的靈活性。總體來說,新任務和舊任務同時進行,且每個任務有多智慧體參與「競爭」。舊任務適應好的智慧體,會選拔到新任務繼續學習。
新任務中,舊任務的優秀智慧體權重、瞬間任務分佈、超參數都會複製,參與新一輪「競爭」。除了舊任務的優秀智慧體,還有很多新人參與,這就引進隨機性、創新性、靈活性,不用擔心「暴死」問題。
當然,因任務不斷生成、動態變化,一個任務可訓練不同長處的智慧體,並往不同方向演化(隨著智慧體相對性能和強健性進行)。最終每個智慧體都會形成擅長任務的集合,就像春秋戰國時期「百家爭鳴」。說打怪升級顯得格局小,簡直是模擬地球。
DeepMind表示,「這種組合學習系統的特性是,不最佳化有界性能指標,而是更新定義的通用能力範圍,這使智慧體開放式學習,僅受環境空間和智慧體的神經網路表達能力的限制。」
智慧初現
最終這複雜「宇宙」升級、進化、分流的智慧體長成了什麼優秀物種?DeepMind說,智慧體有很明顯的零樣本學習能力,比如使用工具、合圍、數數、合作+競爭等。
來看具體例子。首先智慧體學會臨機應變。目標有三個:
黑色金字塔放到黃色球體旁邊
紫色球體放到黃色金字塔旁邊
黑色金字塔放到橙色地板
AI一開始找到一個黑色金字塔,想拿到橙色地板(目標3),但搬運過程瞄見黃色球體,瞬間改變主意,「我可以實現目標1啦」,將黑色金字塔放到黃色球體旁邊。
第二個例子是,不會跳高,怎麼拿到高台上的紫色金字塔?智慧體需要想辦法突破障礙,取得高台上的紫色金字塔,高台周邊並沒有類似階梯、斜坡的路。
因不會跳高,所以智慧體「掀桌子」,把周邊幾塊豎起來的板子弄倒。然後一塊黑色石板剛好倒在高台邊,「等等,這不就是我要的階梯嗎?」這過程是否體現了慧體的智慧,還無法肯定,可能只是一時幸運。關鍵還是,要看統計數據。
經過5代訓練,智慧體在XLand的4千個獨立世界玩了約70萬個獨立遊戲,涉及340萬個獨立任務,最後一代每個智慧體都經歷2千億次訓練步驟。智慧體已能順利參與幾乎每個評估任務,除了少數即使人類也無法完成的任務。
DeepMind的研究,或許一定程度體現「密集學習」重要性。也就是說,不僅資料量要大,任務量也要大。這也使得智慧體在類化能力有很好表現,如資料顯示,只需對一些新複雜任務進行30分鐘集中訓練,智慧體就可快速適應,而從頭開始用強化學習訓練的智慧體根本無法學習這些任務。
往後我們也期待這「宇宙」更複雜和生機勃勃,AI經過不斷演化,不斷給我們帶來驚喜(細思極恐)的體驗。
資料來源:https://technews.tw/2021/07/30/deepmind_xland/
學習能力 定義 在 台灣物聯網實驗室 IOT Labs Facebook 的精選貼文
「擴增智慧」全新概念誕生!人機交互協作,能超越當前的 AI 嗎?
2021/04/22
by
陳泓儒
人工智慧(AI)應用愈來愈普及,預計到了 2025 年,整體市場規模將達到 1,900 億美元。目前,AI 已被逐步擴展,應用於各種商業場景,而在AI發展的同時,一個稱作「新 AI」的概念也在近期被提出。
「新 AI」又被稱作擴增智慧(Augmented intelligence),據 Gartner 的定義,擴增智慧是指在以人為中心的前提下,人類與 AI 攜手合作以提高認知表現的協作模式。透過這種人機協作,達到比任何一方「單打獨鬥」得到更好的結果,預計 2021 年,擴增智慧將在全球創造 2.9 兆美元的商業價值及62億小時的勞動生產力,未來也將成為各領域企業極力發展的目標。
新 AI 將會用於什麼場域?想善用新 AI 的企業,又該找尋什麼樣的人才?
AI 學習能力有限,訓練消耗甚鉅
隨著自動化改變了全球勞動力的形態,許多行業不得不對員工重新進行大規模的技能培訓,然而,基於對 AI 取代人類的恐懼,目前仍有一部分人對 AI 充滿著不信任感,因此,擴增智慧的概念才會如此迷人,它希望能融合人類與 AI 的精髓,相互配合達以達成雙贏的局面。
AI 發展至今已經可以做到一般人無法完成的事情,如 AI 可以輕鬆吸收大量的知識,此外,其執行任務的專注度和洞察力都遠勝過於人類,加上不會感到疲倦。鑑於此,AI 已在許多產業中發揮作用,然而目前為止,它仍得依循人類制定的規則運作,沒辦法自己「幹大事」。
也許會有 AI 技術的研究人員反駁,只要寫入夠多的模型,給它夠多的資源,AI 就能有不輸人類的理解和學習能力,但這背後的資源消耗甚鉅,據統計,一個最先進的AI模型每次訓練所消耗的能量比「5 台車跑到報廢」還多,相較之下,人類的大腦只需要「一頓早餐」就能開始思考、學習新知。
而在擴增智慧的概念中,人類和AI做事是對等的,兩者無法互相取代,但有交集就能相互合作,如何結合這兩種強大力量將成為未來的主要方向。
工作生活套 AI,做事更有效率
在擴增智慧的理念中,AI 將和人類一同工作,不僅能提高人類的生產力,還有可能因與人類的創造力相結合,而產生過去從沒想過的解決方案。例如,美國醫學會(American Medical Association)將擴增智慧用於加強患者護理體驗、改善人口健康、降低總體醫療成本,增加對醫生的專業滿意度。當醫生遇到棘手病症時,可以運用 AI 找到許多解決方法,不過各方法可能會因患者的體質或當地的法規、醫療環境等而無法運用,這就要靠醫師判斷去調整,因此最後決策權還是在醫師手上。
新創公司 Personal AI 則將擴增智慧作為人腦的延伸,其運用 AI 技術將客戶的記憶透過區塊鏈技術加以「保存」,讓客戶不需要再用力地回想破碎的記憶,協助人們更有效地保留這些生活細節。透過人與 AI 的交互,不僅能節省人們的腦容量和思索時間,還能使人們更專注於體驗生活並創造值得回憶的記憶。
AI 人才,將成未來趨勢
既然擴增智慧的理念主打人和 AI 相互合作,相關人才的思維要跟上就顯得重要。未來要跟 AI 溝通的將不再限於工程師,而是各領域的人們,如上述範例中,醫生要有 AI 的基本概念,兩者才有機會共同合作。
有一定的 AI 素養,才能了解人 AI 工作原理的核心概念,以及 AI 應用於自家產業別的優缺點,並靠 AI 獲取自己在工作上遇到問題的能力和得到創造力。當然,擴增智慧是將人類和機器的智慧結合,兩者都將在其中發揮作用,因此也不僅要理解 AI 的概念,還需要使用者「天馬行空」, 思索人機組合的新用途,將合作效益最大化。
企業老闆可以透過擴增智慧理念,將新技術和員工的創造力結合,將業務加以精簡,但反過來聘僱員工時,也得確保有 AI 素養才能發揮效果。
擴增智慧將人和 AI 都發揮了比以往更多的效果,這個概念將可能成為未來主流。在 AI 不斷進化的同時,人若在 AI 素養上也能同速率提升,確保自己能與 AI 溝通,就能使自己在工作領域上,藉由「1+1 大於 2」的觀念,成為領先者。
資料來源:https://fc.bnext.com.tw/articles/view/1325
學習能力 定義 在 Facebook 的精選貼文
如何在贏者全拿的職場中生存
我自己出社會約20幾年了。也換了快8家公司。職場的故事在我的面前如連續劇般的不斷上演。我觀察到了一些職場勝利者總有的特質。和這次拿到的新書。談到職場中贏者全拿的一些觀念。
我看完後節錄一些重點供各位參考。
跨領域的溝通者堀起
前一陣子我們有一場HR的職能評測的解析會議。會中有提到未來HR要具備的職能,在場的HR主管幾乎都有提到。需要跨界的學習能力。如同書中所提示
跨領域的有效溝通,膠水人的職涯觀念將會是在職場中的重要核心能力。
成為被需要的人材-生涯網格的職涯規劃
在現今多變的社會。你會選擇一輩子待在一間公司。還是每隔幾年就轉換跑道。或轉換不同的專業路線呢?
最近我姊姊剛從任職超過20年的公司離職。從業務轉任行銷工作。她告訴我她之前的路線太安逸了。現在的工作充滿了挑戰和樂趣。而這是我們從事工作要注意的基本態度-增加被利用的價值。
善用數據提供的資訊
之前的一部電影魔球。談的是一位球隊的總經理放棄傳統球探的選人直覺。直接導入各項球員的數據來進行球隊的組合。結果他用聯的最低薪資。組成勝率最高的球隊。這在其他的領域也一樣。之前我在上課時。就有學生詢問我如何定義 HR這樣較難量化的職務績效。我就跟他說明。招募有錄取率。教育訓練的上課達成率。員工關係有留任率。其實只要觀察和思考。沒有工作不能量化指標的。
現今的職場和過去最大的差別是新的職能和工作不斷產出。公司面對的挑戰也不斷出現。我們在職場唯有不斷的學習和精進才是贏者之道。
#高鐵上的讀書會
學習能力 定義 在 劉氏基金會- 「為什麼孩子能力已經及齡了 - Facebook 的必吃
超前的學習效率展現超前的成果,讓你我以及孩子們都能夠真正的快樂學習回到劉氏「能力超前」的定義,就是讓孩子具備超越自己年齡的能力,除了上述提到 ... ... <看更多>