為了讓 AI 不斷打怪升級,DeepMind 打造「宇宙」
作者 雷鋒網 | 發布日期 2021 年 07 月 30 日 8:15 |
DeepMind 又給我們小驚喜。我們都知道,強化學習苦於類化能力差,經常只能針對單個任務從頭學習。
DeepMind之前開發的AlphaZero,儘管可以玩圍棋、西洋棋和日本將棋,但每種棋牌遊戲都只能從頭訓練。類化能力差也是AI一直被詬病為人工智障的一大原因。人類智慧的厲害之處,就在藉鑑之前經驗迅速適應新環境。
但類化能力不是一蹴而就,就像玩遊戲,也是先做簡單任務,逐步升級到複雜任務。《空洞騎士》(Hollow Knight)一開始只需要隨意走動揮刀砍怪,但噩夢級難度的「苦痛之路」關,沒有前面累積的技巧,只能玩寂寞。
多任務宇宙
DeepMind此次採用「課程學習」,讓智慧體於不斷擴展升級的開放世界學習。也就是說,AI新任務(訓練資料)是基於舊任務不斷生成。智慧體可盡情鍛鍊自己,簡單的如「靠近紫色立方體」,複雜點的如「靠近紫色立方體或將黃色球體放在紅色地板」,甚至和其他智慧體玩耍,如捉迷藏──「找到對方,且不要被對方發現」。
每個小遊戲存在世界小角落,千千萬萬個小角落拼成龐大的物理模擬世界,如下圖的幾何「地球」。總體來說這個世界的任務由三個要素構成,即任務=遊戲+世界+玩家,並根據三要素關係,決定任務的複雜度。
複雜度的判斷有四個維度:競爭性、平衡性、可選項、探索難度。
比如「搶方塊」遊戲,藍色智慧體需要把黃色方塊放到白色區域,紅色智慧體需要把黃色方塊放到藍色區域。這兩個目標矛盾,因此競爭性較強;同時雙方條件對等,平衡性比較高;因目標簡單,所以可選項少;DeepMind把探索難度評為中上,可能是因定位區域算較複雜的場景。
再如「球球喜歡和方塊一起玩」遊戲,藍色和紅色智慧體有共同目標,讓相同顏色的球體和方塊放在相近位置。
這時競爭性自然很低,平衡性毋庸置疑很高的;可選項比上面遊戲高很多;探索難度沒有定位區域,智慧體隨便把球體和方塊放哪都行,難度就變小了。
基於這四個維度,DeepMind打造超大規模「宇宙」任務空間,幾何「地球」也只是這宇宙的小角落,是四維任務空間的一點。DeepMind將「宇宙」命名為XLand,包含數十億個任務。
來看XLand的全貌,由一系列遊戲組成,每個遊戲在許多模擬世界進行,這些世界的拓樸和特徵平滑變化。
終生學習
數據有了,接下來得找到合適的算法。 DeepMind發現,目標注意代理(GOAT)可學習更通用的策略。
具體來說,智慧體輸入包括第一視角的RGB圖像、本體感覺以及目標。經過初步處理後,生成中間輸出,傳遞給GOAT模組,會根據智慧體目前目標處理中間輸出的特定部分,邏輯分析目標。
邏輯分析是指,每個遊戲可藉由一些方法,構建另一個遊戲,並限制策略的價值函數的最優值上限或下限。
DeepMind提出一個問題:對每個智慧體,什麼樣的任務是最好的?換句話說,打怪升級時,什麼樣的關卡設置才讓玩家順利升級為「真」高手,而不是一刀9999?
DeepMind的答案是,每個新任務都基於舊任務生成,「不會太難,也不會太容易」。其實恰好是讓人類學習時感覺「爽」的興奮點。
訓練開始時,太難或太容易的任務可能會鼓勵早期學習,但會導致訓練後期的學習飽和或停滯。不要求智慧體某任務非常優秀,而是鼓勵終身學習,即不斷適應新任務。所謂太難、太容易是較模糊的描述。需要量化方法,在新任務和舊任務之間彈性連接。
怎麼不讓智慧體做新任務時不適應而「暴死」?進化學習就提供很好的靈活性。總體來說,新任務和舊任務同時進行,且每個任務有多智慧體參與「競爭」。舊任務適應好的智慧體,會選拔到新任務繼續學習。
新任務中,舊任務的優秀智慧體權重、瞬間任務分佈、超參數都會複製,參與新一輪「競爭」。除了舊任務的優秀智慧體,還有很多新人參與,這就引進隨機性、創新性、靈活性,不用擔心「暴死」問題。
當然,因任務不斷生成、動態變化,一個任務可訓練不同長處的智慧體,並往不同方向演化(隨著智慧體相對性能和強健性進行)。最終每個智慧體都會形成擅長任務的集合,就像春秋戰國時期「百家爭鳴」。說打怪升級顯得格局小,簡直是模擬地球。
DeepMind表示,「這種組合學習系統的特性是,不最佳化有界性能指標,而是更新定義的通用能力範圍,這使智慧體開放式學習,僅受環境空間和智慧體的神經網路表達能力的限制。」
智慧初現
最終這複雜「宇宙」升級、進化、分流的智慧體長成了什麼優秀物種?DeepMind說,智慧體有很明顯的零樣本學習能力,比如使用工具、合圍、數數、合作+競爭等。
來看具體例子。首先智慧體學會臨機應變。目標有三個:
黑色金字塔放到黃色球體旁邊
紫色球體放到黃色金字塔旁邊
黑色金字塔放到橙色地板
AI一開始找到一個黑色金字塔,想拿到橙色地板(目標3),但搬運過程瞄見黃色球體,瞬間改變主意,「我可以實現目標1啦」,將黑色金字塔放到黃色球體旁邊。
第二個例子是,不會跳高,怎麼拿到高台上的紫色金字塔?智慧體需要想辦法突破障礙,取得高台上的紫色金字塔,高台周邊並沒有類似階梯、斜坡的路。
因不會跳高,所以智慧體「掀桌子」,把周邊幾塊豎起來的板子弄倒。然後一塊黑色石板剛好倒在高台邊,「等等,這不就是我要的階梯嗎?」這過程是否體現了慧體的智慧,還無法肯定,可能只是一時幸運。關鍵還是,要看統計數據。
經過5代訓練,智慧體在XLand的4千個獨立世界玩了約70萬個獨立遊戲,涉及340萬個獨立任務,最後一代每個智慧體都經歷2千億次訓練步驟。智慧體已能順利參與幾乎每個評估任務,除了少數即使人類也無法完成的任務。
DeepMind的研究,或許一定程度體現「密集學習」重要性。也就是說,不僅資料量要大,任務量也要大。這也使得智慧體在類化能力有很好表現,如資料顯示,只需對一些新複雜任務進行30分鐘集中訓練,智慧體就可快速適應,而從頭開始用強化學習訓練的智慧體根本無法學習這些任務。
往後我們也期待這「宇宙」更複雜和生機勃勃,AI經過不斷演化,不斷給我們帶來驚喜(細思極恐)的體驗。
資料來源:https://technews.tw/2021/07/30/deepmind_xland/
同時也有1部Youtube影片,追蹤數超過15萬的網紅徐佳瑩 LaLa,也在其Youtube影片中提到,立即訂閱徐佳瑩LaLa官方YouTube頻道 ►https://www.youtube.com/user/TheLaLaBarChannel 好評力薦 徐佳瑩《心裡學》專輯第五首椎心情歌___〈到此為止〉 葛大為x徐佳瑩x陳建騏 特別演出:李淳 已經跟別人親吻共眠的你, 同時擁有了真實與謊言。 ...
開放式關係例子 在 Facebook 的精選貼文
#你選擇伴侶的3個條件是什麼呢
這故事是這樣的,我一個朋友 李利嘎 看了 劉芒 *的影片之後,也寫了10個擇偶條件(因為實在太多了所以我摘錄三個給大家):
1.一個禮拜至少做愛三次
2.床上沒有貓毛(對貓毛過敏)
3.經濟能力可以負擔一個禮拜至少去外面吃拉麵三次(這是一個高層次的條件:
-必須至少知道拉麵多少錢
-有吃拉麵這個興趣
-願意在這興趣上面花這個錢)
一開始我聽她講第三個條件的時候我還在盤算這樣是多少錢,但她說多少錢不是重點。正當我想不清楚的時候,她舉了一個例子我就瞬間秒懂:「能夠一個月和你一起組3架RG的鋼彈」。
除了列出條件之外,這裡還有一個關鍵:真正的月老不是月老本人,而是你身邊的朋友,所謂天助自助者,拜完月老之後你還要把上面這個條件「廣傳」給你的朋友,否則他們可能誤以為你一個人過得開心寫意,而忽略了你正在找對象的事情。
不論你是否迷信,拜月老還有一個心理學上重要的意義:清楚明確的定義自己想要的東西。例如Liga 的條件是「如果我可以找到一個交往七年的長期伴侶,那麼我就會在第七年的時候用一個月的薪水來打一個金牌還願」(KPI 訂得非常明確啊!月老容易嗎!);這件事情不只是說個月老聽,其實也是說給自己聽。
有些人在感情裡面受傷,是因為不確定自己要找的是什麼樣的關係,所以在曖昧的時候不敢說出口,在約砲的時候暈船很久,在有人想要和自己認真交往的時候又承諾恐懼,表面上說自己遇人不淑,但實際上是連自己要什麼都不太清楚。
所以我列出的這麼多條件當中,我自己覺得最重要的一個是「能夠高層次的理性討論」,這個討論可以在關係的開始、關係進行中、甚至是關係要結束的時候。以關係的開始為例子,兩個人甚至可以在曖昧的時候就好好的討論,彼此想要去到什麼樣的地方,才不會變成,一個人想要開放式關係,另外一個人覺得他被劈腿了;或者是一個人覺得他只想約炮,另外一個人覺得自己被玩弄了。
當然,事情不是如憨人想得那麼簡單。談戀愛如果可以那麼理性那就好了,很多時候兩個人都是走著走著才知道彼此要去到什麼樣的地方,所以這也是為什麼持續的溝通是重要的,因為昨天你覺得不重要的事情,今天你可能會有不一樣的心情(比方說,你可能一開始接受他的感情觀,但後來其他的對象出現,你才發現自己低估那個嫉妒的程度)。
所以我覺得這個 #真命甜子 小抄應該要列印很多份,然後押上日期做滾動式修正,讓每一個時刻的你們,都有機會可以坐下來好好討論,現在感情進行的模樣,是不是彼此目前的想像。
最後,我覺得地雷也是要先說的。比方說我有兩個比較大的地雷:
1.不能尊重我的空間,直接越界(這可能跟小時候我爸會隨時打開我房間的窗戶嚇到我有關)。
2.隨時會情緒炸裂(這也可能跟我爸很喜歡大小聲有關)
寫下來才知道我爸影響我很大,但是同時我也很喜歡跟我爸一樣慷慨、重義氣的人。如果你看過很多心理相關的書籍會發現,感情裡面經常是複製童年的傷口,但其實有機會,你也可以從那些傷口當中畢業。當你明確列出你想要的和不想要的,選擇和自己家庭不一樣的環境,你就有機會締造不一樣的感情。
這次 #霞海城隍廟 、#森永牛奶糖 與 #你的在線月老 這個系列的設計,真的是深得我心,除了有我每次心情不好的時候會吃的森永牛奶糖之外(碳水化合物是悲傷的解藥),還有這一系列我覺得很棒的自我對話的小卡,坦白講寫的時候需要花點力氣,但如果你能夠更了解自己,就會有更值得的相遇。
#甜作之盒 #甜蜜哲學 你的在線月老
#今年有沒有人可以一起過情人節就靠它了
https://url.relab.cc/moom_sweetbox_haitaibear
報我的名字有折價喔,優惠碼haitaibear
(優惠碼是七月二十二日後才會生效喔)
——
*https://youtu.be/OPW-6kPksAs
開放式關係例子 在 三媽從來不說謊 Sama Never Lies Facebook 的最佳貼文
《真愛唯一?開放式關係相悖》
#開放式關係和一對一關係唯一差別
.
很多關於開放式關係的負面看法或者言論,
仔細探究會發現大多和相處之間的情緒、溝通、信任有關,
反而跟開放式關係沒有直接關聯,
那些問題在一對一關係之中也有可能遇到。
.
只是一對一多了「愛上別人就有罪」的框架,
(這邊的「愛上別人就有罪」請自行斷句,兩種都行得通)
得以規範或限制住一些行為,
進而讓這段關係能更直覺地感到踏實,
那種我是愛你的你是愛我的,相愛的感覺。
.
像是沒有安全感、吃醋、自己隱瞞想法、無法釐清對方想法、雙方不願意溝通...等,
這些並不會因為選擇開放式或者一對一關係而不一樣,
但會因為良善溝通、坦誠相待、信任彼此,而有明顯的變化。
.
那開放式關係和主流的一對一關係,差在哪裡呢?
對於「真愛唯一」的看法是不一樣的。
大部分的開放式關係實踐是違背「真愛唯一」的,
也就是「不會一輩子只愛你」,我不會只愛你一個人。
(對於只開放性的開放式關係實踐者來說,可能愛的對象是唯一的)
.
那「愛」是唯一的嗎?
我想這題的答案見仁見智,
涉及的層面很廣,
和「愛」的定義有關,
和因為愛產生的「行為」有關,
和因為愛獲得的「收穫」有關。
.
而這些「和愛有關」的一切,
在人生中,體驗到的感覺是「有限」的,
可能比較容易產生「愛是唯一」的想法,
因為在過去的經驗中,
意識到這些都不是無上限的,
那就會讓「唯一」顯得有可能,
畢竟有上限才有可能唯一嘛!
.
反之,體驗到「和愛有關」的一切是無限時,
好像就比較能夠信仰愛非唯一,
因為過去的體驗是無限的。
(並不是所有開放式關係實踐者,都認為愛是無限的,也會有人覺得是有限的。關於愛是有限還是無限的,以後再和大家分享,本篇關注在「愛是否唯一」)
.
好像講得有點複雜😼
我拿親身經驗當例子好了。
.
我生長在多口家庭,
有三個妹妹一個弟弟,
如果愛是有限的話,
那我獲得的愛,應該是不斷地被後來出生的妹妹弟弟們分出去,
但我並沒有感受到愛變少的感覺。
(可能要歸功父母對我的偏心😅)
.
因此我從小對於愛的體驗就是無限的,
還會偷偷佩服父母,
覺得他們很厲害,
不但小孩一直生出來,
每個人也都被照顧得很好。
.
為何能如此泰然接受「不會只愛一個人」,
每當被問起,或自我反思這個問題時,
循著過去的足跡找答案,
我想應該和在充滿愛的家庭長大有關吧!
.
也難怪我實踐開放式關係將滿兩年,
這趟歷程大多是自在歡喜,
「我會愛你一輩子,不會一輩子只愛你。」
.
建議對於開放式關係實踐有興趣,
但還不確定是否要一腳踏入的人,
先從對於愛是否唯一的想法開始探索,
這才是開放式關係和一對一關係之間最大的差異。
(其實也可以先踏入發現不適合再離開啦😜)
.
至於真愛是否唯一,這是沒有標準答案的,
確定自己對於愛的看法如何,才是最重要的。
.
相信真愛唯一的人,沒有比較不好,只要確定這是你所想要的,好好愛著那個人,就是完美。
相信真愛非唯一的人,沒有比較不好,只要確定這是你所想要的,好好愛著那些人,就是完美。
.
.
*內文的開放式關係指與一人以上產生情慾關係(情或慾擇一或者兩者皆有),且依據關係深淺,達成不同程度上的知情同意!(那種會說謊,會讓對方有欺騙受傷的感覺,才不在內文所討論之範疇呢!)
.
*開放式關係所花費的時間精力極大,非情感交流愛好者切勿輕易嘗試。(吵架的時候不是兩個人吵,是三個四個甚至更多的人一起吵喔!)
.
#開放式關係 #openrelationship #愛非唯一 #真愛唯一 #唯一 #愛情 #愛情故事 #關於愛情 #因為愛情 #我會愛你一輩子 #不會一輩子只愛你 #提供開放式關係諮詢 #信義簡嫚書 #三媽從來不說謊 #samaneverlies
開放式關係例子 在 徐佳瑩 LaLa Youtube 的最佳解答
立即訂閱徐佳瑩LaLa官方YouTube頻道 ►https://www.youtube.com/user/TheLaLaBarChannel
好評力薦 徐佳瑩《心裡學》專輯第五首椎心情歌___〈到此為止〉
葛大為x徐佳瑩x陳建騏
特別演出:李淳
已經跟別人親吻共眠的你,
同時擁有了真實與謊言。
在你身上能夠印證時間是重疊的。
時間留在發給你的最後一則簡訊。
帶你進入我的世界,你終究還是跟他走了。
數不清次數的懷疑終究我當時消滅了那樣的自己選擇相信你。
在你離去之後原本的我卻又回不來了。
把我變壞了,你卻沒有好轉。
以逃避為生的你啊貌似完成了我們的旅途。
藉口不會處理的愛情卻其實熟練不已這般的輪迴。
你只是誤以為我祝福了。
那些日子我們都記得、而我們也都不想忘記,
但很可惜的,只能到此為止了。
我們相互競爭,放肆搶奪。
在必須分道揚鑣時才明白我們從來就是一體的。
請銘記我最後對你的不是嚴厲,那看似恨的,是愛。
別再不告而別了,對你往後想要愛護的每個人。
從今以後。
徐佳瑩LALA好評專輯《心裡學》的第五首椎心情歌主打〈到此為止〉是一首深刻又具有傳唱度的動人作品,由金牌組合葛大為、徐佳瑩詞曲無間搭配、陳建騏製作。歌曲直白道出愛情的不忠與不堪。講述兩人關係因不專注的愛而相互凌遲的糾結情緒,搖滾吉他聲線搭載鼓點重擊的力度,磅礡弦樂激昂氣勢加乘,起伏平靜的主歌而後翻曲勢攀升,一氣呵成的宣洩感狂烈重擊。這是一首看似堅強的脆弱情歌,深切刻劃出感情裡為愛對峙時恨意與別離的拔河。特別的是〈到此為止〉的英文歌名,作詞人葛大為刻意使用了[From now on],也就是[從今以後],看似是對愛情告別的期許,但也可能是迴圈式陷入的悲觀,能不能堅持放棄容忍,其實是開放式結局。
而音樂錄影帶MV導演比爾賈更是用力參透這首歌的複雜情緒,悟出了那些拉扯與對峙,其實都是互為一體的依賴,於是特別用純愛片的形式,邀請來曾演出〈目擊者〉、〈比利.林恩的中場戰事〉等優秀的新生代演員李淳與徐佳瑩痛快對戲。
〈到此為止〉也是李淳首次參與音樂MV的拍攝,樂於嘗試不同型態表演的李淳,在接獲邀約立即爽快答應,同時表達對徐佳瑩創作與歌唱實力的欣賞。拍攝過程中,李淳全心投入的敬業態度,以及情感詮釋得宜的細膩演技,幾場憤怒思緒糾結流轉的內心戲,演來絲絲入扣不慍不火,讓導演與所有工作人員大為讚賞,而徐佳瑩也對李淳專注於角色的入戲能力頻頻讚許,鮮少演戲的她也在李淳細膩帶戲下,展現不同以往的表演面向。
MV中兩人從兒時就開始勢不兩立的競爭,捉對廝殺想要勝過對方,但其實早已釀出在乎跟依賴。猶如雙生兒般互存互依,在面對離別時才驚覺自己便是對方、對方便是自己。情節的巧妙安排與歌曲中對愛情的態度隱隱呼應。
到此為止 From Now On 詞:葛大為 曲:徐佳瑩
自甘墮落再一次 把推理發揮極致
我們禁得起 幾次誠實?
與其被牽絆挾持 反目成仇都勝過
若無 其事
背叛自己的意志 苦笑著替你解釋
她無辜介入 這個事實
我有妒忌的體質 卻把原諒的權利
當成 恩賜
到此為止
各有各的天地 依然相互凌遲
我們就是 最好的例子
到此為止
別離的歌早已 哼在嘴邊
是你 為我 提詞
我們的寂寞
變成兩個層次
當我自言自語
你是她們朗誦的詩
從今以後
旁觀你的故事 需要怎麼調適
都是番外 我個人的事
從今以後
不再做愛情的汙點證人
容忍 到此 為止
製作人:陳建騏
編曲:JackieYu@WhiteMusic
鋼琴:孔奕佳
弦樂編寫:劉涵 (隱分子樂團)
合聲編寫/演唱:徐佳瑩
吉他:JackieYu@WhiteMusic、韓立康
鼓:賴聖文
貝斯:Jack ko
小提琴:蔡曜宇,陳泱瑾
中提琴:甘威鵬
大提琴:劉涵 (隱分子樂團)
錄音工程師:陳以霖、單為明、林鉑堅(強尼)TomasChan
錄音室:大小眼錄音室、Lights up studio、皮老闆錄音室、ZealStudio
混音工程師:黃欽勝
混音錄音室:強力錄音室
【工作人員】
導演:比爾賈
助理導演:王新宜 黃牧洋 林効賢
製片:江重佑
製片助理: 范耀晨
攝影師:傅士英
攝影大助:廖建勝
攝影助理:白杰立 郭柏翔
燈光師:余毓鈞
燈光大助:呂科徵
燈光助理:李家弦 紀朝元
美術:鄭鉫叡
美術助理:柯苡均
服裝管理:邱映涵
場務:高銘鈞 吳明龍
協力:張慎宸
道具車:黃清錶
司機員:朱維鍵 林良儒 周銘偉
攝影器材:宏達數位影業有限公司
燈光器材:利達數位影音科技股份有限公司
後期製作:源映製作有限公司
特效監製:吳佳益
剪接指導:陳韶華
剪接助理:何國豪 黃煜傑
藝術指導:林安妮
特效製作:梁杰鉦 林琬青 周芃彣
服裝造型:方綺倫
化妝:陳佳惠
髮型:Cia Cia (ZOOM Hair)
髮型助理:Howard(ZOOM Hair)
特別感謝:泰北高中
主演:李淳
經紀: 何瑞德
化妝: 林佳錦
髮型: Louis(Flux reel)
髮型助理:Vison (Flux reel)
『心裡學』數位聆聽&實體通路購買資訊
►https://LaLaHsu.lnk.to/TheInnerMe
