DeepMind AI 修練成精了,已經學會「發脾氣」?
作者 雷鋒網 | 發布日期 2021 年 08 月 12 日 8:00 |
DeepMind 又在「捏小人」了!這群小人是英國人工智慧實驗室 DeepMind 生產的 AI,不過只能在遊戲裡看到。但你可能不知道的是,DeepMind 還訓練過 AI 下象棋、玩足球、比電競,甚至提出人工生命言論。
最近這群AI,竟然能直接跳過數據訓練,在開放式任務環境自我進化。
之前Alpha Go和Alpha Star能力再強,也只能在各自擅長遊戲放大招,超出範圍立刻停擺。現在這批小人卻能在不同遊戲游刃有餘完成任務,展現超強的泛用能力。難道人工智慧治好泛用「頑疾」了?
在搶奪高地金字塔的任務,兩個不同顏色的小人能力值相當,都沒有跳躍能力,開始發脾氣亂扔東西,混亂中竟把其中一塊板子「扔」成樓梯,長驅直入,任務完成!
多次實驗發現,小人可複製方法,難道這群AI有記憶了?不僅如此,小人還學會「相對運動」──我上不去,你下來──借助板子直接把目標拉下來!甚至為了贏得比賽,多個小人學會配合,團體合作能力一直上升。
這種用虛擬遊戲自我進化的AI,僅需人為搭建任務環境,設計大量任務目標,利用加強深度學習,一步步打通關,最終成為十八般武藝精通的AI。
沒有樣本,沒有經驗,這些AI究竟如何進化,零樣本學習是否意味這些AI具備基本的「自學意識」?
社會達爾文主義訓練場
比起之前的足球場,這批AI的訓練場更像遊戲「社會」,有無數個遊戲房,每房間遊戲照競爭性、平衡性、可選性、探索難度分類。不管哪種任務,這批AI都只能從最簡單開始,一步步解鎖更複雜的遊戲,整個遊戲更像虛擬社會。
無需大數據集訓的AI,每玩一次遊戲就成長一次,與各種環境互動和「獎勵」下成長為更通用的AI,更像人工「生命」。
能讓AI自我進化的關鍵在於正確設計初始智慧和進化規則。一開始都非常簡單,所有複雜結構都是進化而來。就像嬰兒不會做大人的事,任務核心是不要超出AI自身的改進能力。
據DeepMind說法,每個AI會在4千間遊戲房玩約70萬個遊戲,並在340萬個任務經歷2千億次訓練步驟。1億次步驟約耗時30分鐘。照這訓練法,41天就能訓練出一群「成年」AI。
但AI還是不會思考
DeepMind表示「單AI可開發智慧成多目標,不僅一個目標」。AI公司Pathmind 的CEO Chris Nicholson也說「它學到的技能可舉一反三。例AI學習抓取和操縱物體,就能完成敲鎚子或鋪床任務。DeepMind正用程式設計為AI在這世界設定目標,這些AI正在學習如何掌握。」
但南加州大學計算機科學副教授Sathyanaraya Raghavachary表示,這些AI並不能定義為「生命」,尤其關於AI擁有身體感覺、時間意識及理解目標幾個結論。「即使人類也沒有完全意識到身體這件事,更不用說人工智慧了。」
他表示,活躍的身體對大腦不可或缺,大腦要放在合適的身體意識和空間位置內進化。如果AI能理解任務,何必需要2千億次模擬訓練達到最佳結果?總體而言,虛擬環境訓練的AI只是和以往AI「大同小異」。
從理論到現實的路還很長
狹義人工智慧是「複製人類行為的元素」,在計算機內執行某種任務,如分類圖像、定位照片物件、定義對象邊界等。這些系統旨在執行特定任務,而不具解決問題的一般能力。
相比之下,Deepmind使用的「通用人工智慧」有時也稱為人類等級人工智慧,因可理解上下文、潛台詞和社會線索,甚至認為可能完全超過人類。
但正如行為主義和認知主義的對抗,AI是否有解決問題的能力,並不能只考慮統計結果。善於「事後解釋」任何行為,實驗室之外還是無法「預測」哪些行動即將發生。
資料來源:https://technews.tw/2021/08/12/is-deepminds-new-reinforcement-learning-system-a-step-toward-general-ai/?fbclid=IwAR0xofCay9Ydy83BfQ_7lyEtfGvJroFfCznxiTxYIHP6HUFWpELClQPFs28
同時也有2部Youtube影片,追蹤數超過80萬的網紅Science Experiments with Physics Engine,也在其Youtube影片中提到,強化学習で人に二足歩行を覚えさせました。「proximal policy optimization (PPO)」というアルゴリズムを使っています。 Proximal Policy Optimization Algorithms https://arxiv.org/abs/1707.06347 T...
「reinforcement learning」的推薦目錄:
- 關於reinforcement learning 在 台灣物聯網實驗室 IOT Labs Facebook 的精選貼文
- 關於reinforcement learning 在 昱創企管顧問有限公司 Facebook 的最佳貼文
- 關於reinforcement learning 在 軟體開發學習資訊分享 Facebook 的精選貼文
- 關於reinforcement learning 在 Science Experiments with Physics Engine Youtube 的最佳貼文
- 關於reinforcement learning 在 與芬尼學英語 Finnie's Language Arts Youtube 的最佳貼文
reinforcement learning 在 昱創企管顧問有限公司 Facebook 的最佳貼文
Deepmind一直在人工智慧強化學習上,
有很驚人的表現,
2016年在AlphaGo,
後來在海綿體模擬,
現在還會在遊戲中發脾氣,
結果因此贏了。
#人工智慧
AIoT數位轉型在中小製造企業的實踐 博客來購買:https://www.books.com.tw/products/0010898976
AIoT數位轉型策略與實務 博客來購買:https://www.books.com.tw/products/0010875914
AIoT的現在與未來Ted演講:https://www.youtube.com/watch?v=lCXRPlaUk0s&t=4s
中華亞太智慧物聯發展協會協助企業數位轉型 https://www.facebook.com/APAC.AIOT/
昱創企管顧問有限公司 https://rich4innovation.com/
https://technews.tw/2021/08/12/is-deepminds-new-reinforcement-learning-system-a-step-toward-general-ai/
reinforcement learning 在 軟體開發學習資訊分享 Facebook 的精選貼文
在 Flappy Bird、Mario、Stocks 等環境中使用最先進的強化學習演算法!!
從這 5 小時的課程,你會學到
實用強化學習
掌握 Open AI Gyms
Flappy Bird 代理
瑪利歐代理
股票代理
汽車代理
太空入侵者代理
以及更多!!
在任何環境下建立強化學習代理
https://softnshare.com/practical-reinforcement-learning/
reinforcement learning 在 Science Experiments with Physics Engine Youtube 的最佳貼文
強化学習で人に二足歩行を覚えさせました。「proximal policy optimization (PPO)」というアルゴリズムを使っています。
Proximal Policy Optimization Algorithms
https://arxiv.org/abs/1707.06347
Twitter:https://twitter.com/physics_engine0
BGM:
「Trick or treat」written by GT-K
「Halloween Monsters」written by ISAo.
#物理エンジンくん
reinforcement learning 在 與芬尼學英語 Finnie's Language Arts Youtube 的最佳貼文
[#字正腔圓] #記得開聲睇 Buffet 和 Buffett 只是一個字母之差,讀音又有何分別呢?
其實 buffet 和 Buffett 都源自法語,可能是因為 buffet(自助餐)一字較常用,法語的原音透過 reinforcement 得以保存下來,而 Buffett 是比較冷門的姓氏,到了美國後便英文化了。
英文裡還有哪些外借字呢?➡️ http://bit.ly/2iHh4xf
(Buffett 卡通圖來源:flic.kr/p/kjEYRx)
● 訂閱電子報: http://bit.ly/FLA-nl
● 下載免費學習資源: http://bit.ly/FLA-freebies
Facebook 直播播放清單 ► https://www.youtube.com/playlist?list=PLs2gyIM_VlT_sOdILhtZEScHRCxPN9LcV
● 博客: http://bit.ly/FLA-blog
● Facebook: http://bit.ly/FLA-facebook
● Instagram: http://bit.ly/FLA-instagram
● Pinterest: http://bit.ly/FLA-pinterest
?Free stuff!!! :)
Use my iHerb Discount Code: ASC7218
Sign up at AirBnb and get HKD$290 in travel credit: https://www.airbnb.com/c/tiffanys213
Get a FREE first Uber ride (up to HK$50): https://www.uber.com/invite/tiffanys2213ue
reinforcement learning 在 技術文章-強化學習(Reinforcement Learning):入門指南 的相關結果
強化學習是機器學習(Machine learning)的一種,指的是電腦透過與一個動態(dynamic)環境不斷重複地互動,來學習正確地執行一項任務。這種嘗試錯誤(trial-and-error)的 ... ... <看更多>
reinforcement learning 在 What is Reinforcement Learning? – Overview of How it Works 的相關結果
Reinforcement Learning (RL) is the science of decision making. It is about learning the optimal behavior in an environment to obtain maximum ... ... <看更多>
reinforcement learning 在 強化學習- 維基百科,自由的百科全書 的相關結果
強化學習(英語:Reinforcement learning,簡稱RL)是機器學習中的一個領域,強調如何基於環境而行動,以取得最大化的預期利益。強化學習是除了監督學習和非監督學習之 ... ... <看更多>