四兩撥千斤! 創新工場首席科學家AI大牛周明博士率瀾舟團隊刷新CLUE新紀錄,輕量化模型孟子一鳴驚人!
本週,中文語言理解權威評測基準CLUE榜單,被「低調」刷新。
不同的是,不是大公司、不是超大模型……
一個新面孔,一個輕量化模型,首戰即登頂,四兩撥千斤。
CLUE榜單近年來由巨頭——騰訊、搜狗、華為、阿里達摩院輪番霸榜的格局,被首次打破。
瀾舟科技-創新工場推出的孟子模型,以十億參數完成了此前百億、千億參數模型刷新的紀錄。
這也是瀾舟科技首次對外曝光,背後團隊負責人,正是創新工場首席科學家、全球AI大牛周明博士。以下文章解釋了這個模型的原理,文章來自《量子位》微信公眾號,經授權轉載。
▎輕量化模型孟子?
孟子,基於瀾舟團隊自研技術研發的大規模預訓練語言模型。
包括創新工場、上海交通大學、北京理工大學等單位參與聯合研發。
可處理多語言、多模態數據,同時支持多種文本理解和文本生成任務,能快速滿足不同領域、不同應用場景的需求。
孟子模型基於Transformer架構,僅包含十億參數量,基於數百G級別涵蓋互聯網網頁、社區、新聞、電子商務、金融等領域的高質量語料訓練。
但誰也沒想到,小模型卻有大智慧,一經登場,打破格局。
CLUE,中文語言理解領域最具權威性的測評基準,涵蓋文本相似度、分類、自然語言推理、閱讀理解等共10項語義分析和理解類子任務。
該榜單競爭激烈,幾乎是業內所有自然語言理解玩家必爭之地。
騰訊、搜狗、華為、阿里達摩院等更是輪番霸榜刷新紀錄。
而且隨著大參數模型愈演愈烈,CLUE還漸有巨頭壟斷之勢。
因為百億、千億甚至萬億參數的大模型,已然不再是創業或其他玩家可與之爭鋒。
萬萬沒想到,瀾舟科技-創新工場團隊出手,四兩撥千斤。
因為孟子,走的是基於輕量級、高效訓練的研究路線,致力於構建十億級別的小模型,充分發揮已有參數下的模型潛力,有利於快速、低成本地落地現實業務場景。
孟子預訓練模型性能比肩甚至超越千億大模型,在包含文本分類、閱讀理解等各類任務上表現出色。
相對已有的中文語言模型,孟子模型實現了多項突破性進展:
1) 堅持「小而精」的輕量化訓練策略。實現在同等模型規模下,遠超公開模型的性能。作為精巧的小模型,對標「巨無霸」,小模型性能超越千億規模模型。
2)使用知識圖譜增強模型,讓 AI 真正獲得知識。孟子模型具備頂尖的語言理解能力,在權威CLUE中文理解評測的總排行榜,以及分類排行榜和閱讀理解排行榜均位列第一,刷新三項榜單世界紀錄。總排行榜分數突破84分,逼近人類基準分數(85.61)。
3)靈活的領域和場景適應能力,方便快速定制和應用。基於T5-style的端到端生成的訓練範式,同步適配BERT-style的判定式架構,既能理解也能生成。便於適配行業應用,覆蓋廣泛業務場景。
當然,隨著孟子一鳴驚人,也必然能讓輕量化模型研究來到聚光燈下。
▎原理方法和應用?
在輕量化模型算法研究方面,基於自研的基於語言學知識、知識圖譜和領域數據增強等技術,從模型架構(包括基礎層Embedding表示和交互層Attention機制)到預訓練策略進行了全方位改進。
具體有四方面:
1) 模型結構方面,將語義角色、詞性標註等語言學特徵融合到Embedding表示中,基於句法約束引入註意力機制中,從而提升模型對語言學知識的建模能力。
2) 訓練策略上,引入基於實體知識和Discourse的Mask機制,強化模型對語言成分和語篇關係的表徵。
3) 為進一步提高訓練效率,使用了大模型蒸餾和初始化小模型策略。
4) 為更好地將孟子模型適應垂直領域如金融、營銷,使用了領域數據繼續訓練並構造相應的提示模版(Prompt),取得了明顯的性能提升。
基於以上算法策略,實現從語料中高效學習涵蓋詞級、句子級和語篇級知識,大幅提升語言模型提煉語言結構和語義信息能力,以及良好的領域遷移能力,適應廣泛的產品應用場景。
另外,在Finetune的進展方面,如何將預訓練模型用於各項任務?
瀾舟團隊也有總結,從數據增強、知識蒸餾、遷移訓練、訓練優化等方面展開了一些探索,進一步提升語言模型的性能:
1) 數據增強:使用領域相關數據;
2) 知識蒸餾:基於Teacher-Student自蒸餾提升訓練效率;
3) 遷移訓練:結合課程學習的思想,由易到難訓練下游模型;
4) 訓練優化:使用多種訓練目標,多角度提升模型能力;
而且孟子還已經展開了垂直化領域應用。
基於領域適應技術,孟子模型已深度垂直化賦能相應行業。典型的例子為適用於金融領域的孟子模型,領域適應策略主要包含兩大方面:
1) 通過大規模的泛金融領域語料,將通用孟子模型遷移到金融領域。金融版孟子模型已經應用於多個金融行業的合作企業,在金融知識圖譜搭建、脫水研報、公告抽取等多個任務上獲得了出色的表現。
2) 通過大規模的營銷領域語料,將孟子模型遷移到數字營銷領域,完成了營銷文案生成、新聞摘要等多項任務,將用於行業頭部的數字營銷公司和多個世界五百強企業的合作之中。
瀾舟方面還透露,孟子模型已在多個領域成功落地實踐,衍生出多項行業領先的產品,涵蓋文本生成、行業搜索、機器翻譯等諸多領域。
並且毫無疑問的是,因為輕量級模型具有的模型參數較少、快速推斷的特點,更易於線上部署和推廣到移動設備中,自然不會局限於現有應用和場景,接下來還會有更廣泛的研究和應用場景中。
▎瀾舟團隊?
最後,也簡單介紹本次一鳴驚人的新面孔瀾舟科技。
瀾舟科技是創新工場孵化的一家認知智能公司。公司創始人——周明博士。
AI領域內,周明已不用過多介紹,他是公認的世界級AI科學家,自然語言處理領域的代表性人物。
周明博士在2020年加盟創新工場,擔任創新工場首席科學家。
而瀾舟科技則針對商業場景的數字化轉型,基於大數據、知識圖譜和行業模型,提供新一代的信息檢索、知識推理和商業洞見技術和相關產品。
據稱目前已與國內外幾十所著名高校和十餘個相關領域的頭部企業建立了穩定的合作關係。
值得注意的是,瀾舟科技除了大牛坐鎮,其實也是行業趨勢的體現。
引用創新工場董事長兼CEO李開復最新分享來說:
AI的發展可以按照兩個時間點劃分。
第一個時間點是2015年,以CNN為核心的計算機視覺技術讓機器超越了人類,帶來了人臉識別、智能質檢、無人零售、智慧城市、無人駕駛等商機。
而第二個時間點出現在2019年,以大模型為代表的自然語言方向取得突破性進展,讓NLP從數據、信息走向知識和洞見成為可能,將會在翻譯、語音識別、法律、金融、新聞、廣告、醫療、娛樂等大賽道帶來機遇。
「如果說CNN造就了今天計算機視覺領域的突破和眾多應用,預訓練大模型+微調也將帶來自然語言的百花齊放的發展,用數據智能驅動各類業務的升級。瀾舟科技在周明老師的帶領下取得了今天的成果,在新機遇面前躬身入局,一起發掘NLP領域的黃金發展期」,李開復說到。
nlp 文章 生成 在 DOC職人 時食刻客 Facebook 的最佳解答
【小編將被AI取代?】
~AI多元應用,讓撰文更簡單
人工智慧(AI)的發展一直是全球矚目焦點美國一個新創團隊Copy.ai,研發出可為企業產出文案的AI功能,這項核心技術為「人工智慧圈當紅的 GPT-3」,它擁有龐大的資料庫,可以產出更生活化的語言文字,不僅能編撰新聞稿與文案、譜詞曲,還可以協助技術文件、生成程式碼。
未來這項技術普及,小編們僅需要透過網站,進行三步驟:選擇文案方向、形容目標產品、推薦進行編輯,就能有十多筆文案可參考,從作者的角色轉為編輯者,產出各式行銷文案更簡單。
--------
#DOC數位機會中心
#城鄉交流數位應用
--------
更多職人 : http://expert.chineseink.com.tw/client/default.aspx
--------
Doc職人產品
http://docmall.doctw.com/index.php
nlp 文章 生成 在 李開復 Kai-Fu Lee Facebook 的最佳貼文
這是我看過最好的一篇GPT-3 科普文章。到現在還看不懂GPT-3的,建議好好讀:
本文來自量子位微信公眾號
…………………………………………
火爆全球的GPT-3,到底憑什麼砸大家飯碗?
GPT-3是指第三代生成式預訓練Transformer,它由三藩市AI公司OpenAI開發。該程式歷經數年的發展,最近在AI文本生成領域內掀起了一波的創新浪潮。
從許多方面來看,這些進步與自2012年以來AI影像處理的飛躍相似。
電腦視覺技術促進了、無人駕駛汽車到面部識別、無人機的發展。因此,有理由認為GPT-3及其同類產品的新功能可能會產生類似的深遠影響。
與所有深度學習系統一樣,GPT-3也是資料模式。它在龐大的文本集上進行了訓練,並根據統計規律進行了挖掘。
重要的是,此過程中無需人工干預,程式在沒有任何指導的情況下查找,然後將其用於完成文本提示。
▌海量訓練數據
GPT-3的與眾不同之處在於它的運行規模和完成一系列令人難以置信的任務。
第一版GPT於2018年發佈,包含1.17億個參數。2019年發佈的GPT-2包含15億個參數。
相比之下,GPT-3擁有1750億個參數,比其前身多100倍,比之前最大的同類NLP模型要多10倍。
GPT-3的訓練資料集也十分龐大。整個英語維琪百科(約600萬個詞條)僅占其訓練數據的0.6%。
訓練資料的其他部分來自數位化書籍和各種網頁連結。不僅包括新聞文章、食譜和詩歌之類的內容,還包括程式碼、科幻小說、宗教預言等各種你可以想像到的任何文字。
上傳到互聯網的文本類型都可能成為其訓練資料,其中還包括不良內容。比如偽科學、陰謀論、種族主義等等。這些內容也會投喂給AI。
這種不可置信的深度和複雜性使輸出也具有複雜性,從而讓GPT-3成為一種非常靈活的工具。
在過去的幾周中,OpenAI通過向AI社區的成員提供GPT-3商業API,鼓勵了這些實驗。這導致大量新的用法出現。
下面是人們使用GPT-3創建的一小部分示例:
▌GPT-3能做什麼
1、基於問題的搜尋引擎:就像Google,鍵入問題,GPT-3會將定向到相關的維琪百科URL作為答案。
2、與歷史人物交談的聊天機器人:由於GPT-3接受過許多數位化書籍的訓練,因此它吸收了大量與特定哲學家相關的知識。這意味著你可以啟動GPT-3,使其像哲學家羅素一樣講話。
3、僅需幾個樣本,即可解決語言和語法難題。
4、基於文本描述的代碼生成:用簡單的文字描述你選擇的設計項目或頁面配置,GPT-3會彈出相關代碼。
5、回答醫療問題:來自英國的一名醫學生使用GPT-3回答了醫療保健問題。該程式不僅給出了正確答案,還正確解釋了潛在的生物學機制。
6、基於文本的探險遊戲。
7、文本的風格遷移:以某種格式編寫的輸入文本,GPT-3可以將其更改為另一種格式。
8、編寫吉他曲譜:這意味著GPT-3可以自行生成音樂。
9、寫創意小說。
10、自動完成圖像:這項工作是由GPT-2和OpenAI團隊完成的。它表明可以在圖元而不是單詞上訓練相同的基本GPT體系結構,從而使其可以像在文字上一樣實現視覺資料自動完成任務。
但是,所有這些樣本都需要一些上下文,以便更好地理解它們。而令人印象深刻的是,GPT-3沒有接受過完成任何特定任務的訓練。
常見的語言模型(包括GPT-2)需要完成基礎訓練,然後再微調以執行特定任務。
但是GPT-3不需要微調。在語法難題中,它只需要一些所需輸出類型的樣本(稱為“少量學習”)。
GPT-3是如此龐大,以至於所有這些不同功能都可以在其中實現。用戶只需要輸入正確的提示就可以調教好它。
但是網上傳出的內容存在另一個問題:這些都是精心挑選的樣本,生成結果肯定不止一個。必然有炒作因素。
正如AI研究人員Delip Rao在一篇針對GPT-3的炒作解構文章中指出的那樣,該軟體的許多早期演示來自矽谷企業家,他們渴望宣傳該技術的潛力並忽略其陷阱,因為他們關注AI帶來的新創業公司。
的確,瘋狂的鼓吹情緒變得如此強烈,以至於OpenAI CEO本人都發Twitter說:GPT-3被過度宣傳了。
▌GPT-3也會犯低級錯誤
儘管GPT-3可以編寫代碼,但我們很難判斷其總體用途。它是淩亂的代碼嗎,這樣的代碼會為人類開發人員帶來更多問題嗎?
沒有詳細的測試很難說,但是我們知道GPT-3在其他方面會犯嚴重錯誤。
當用戶和GPT-3創造的“約伯斯”交談時,詢問他現在何處,這個“約伯斯”回答:“我在加州庫比蒂諾的蘋果總部內。”這是一個連貫的答案,但很難說是一個值得信賴的答案。
在回答瑣事問題或基本數學問題時,也可以看到GPT-3犯了類似的錯誤。例如,不能正確回答100萬前的數是多少(回答是99萬)。
但是,我們很難權衡這些錯誤的重要性和普遍性。
如何判斷這個可以幾乎回答所有問題的程式的準確性?如何創建GPT-3的“知識”的系統地圖,然後如何對其進行標記?
儘管GPT-3經常會產生錯誤,但更加艱巨的挑戰是,通常可以通過微調所輸入的文本來解決這些問題。
用GPT-3創造出小說的研究人員Branwen指出,“抽樣可以證明知識的存在,但不能證明知識的缺失”,可以通過微調提示來修復GPT-3輸出中的許多錯誤。
在一個錯誤的示範中,詢問GPT-3:“哪個更重,一個烤麵包機或一支鉛筆?” 它回答說:“鉛筆比烤麵包機重。”
但是Branwen指出,如果你在問這個問題之前給機器投喂某些提示,告訴它水壺比貓重,海洋比塵土重,它會給出正確的回應。
這可能是一個棘手的過程,但是它表明GPT-3可以擁有正確的答案,如果你知道怎麼調教它。
Branwen認為,這種微調最終可能會最終成為一種編碼範例。就像程式設計語言使用專用語法的編碼更加流暢一樣,未來我們可能完全放棄這些程式設計語言,而僅使用自然語言程式設計。從業人員可以通過思考程式的弱點並相應地調整提示,來從程式中得出正確的回應。
GPT-3的錯誤引起了另一個問題:該程式不可信的性質是否會破壞其整體實用性?
現在人們已經嘗試了GPT-3各種用途:從創建客服機器人,到自動內容審核。但是答案內容的錯誤可能回給商業公司帶來嚴重後果。
沒有人原因創建一個偶爾侮辱客戶的客服機器人。如果沒有辦法知道答案是否可靠,我們也不敢拿GPT-3作為教育工具。
▌專業人士評價
一位匿名的在Google資深AI研究人員說,他們認為GPT-3僅能自動完成一些瑣碎任務,較小、更便宜的AI程式也可以做到,而且程式的絕對不可靠性最終會破壞其商用。
這位研究人員指出,如果沒有很多複雜的工程調試,GPT-3還不夠真正使用。
AI研究人員Julian Togelius說:“ GPT-3的表現常常像是一個聰明的學生,沒有讀完書,試圖通過廢話,比如一些眾所周知的事實和一些直率的謊言交織在一起,讓它看起來像是一種流暢的敘述。”
另一個嚴重的問題是GPT-3的輸出存在偏見。英偉達的AI專家Anima Anandkumar教授指出,GPT-3在部分程度上接受了Reddit過濾後的資料的訓練,並且根據此資料構建的模型產生的文本有“令人震驚地偏向性”。
在GPT-2的輸出中,如果要求完成下列句子時,模型會產生各種歧視性言論:“ 黑人(皮條客工作了15年)”、“ 那個女人(以Hariya為名做妓女)”。
參考連結:
https://www.theverge.com/21346343/gpt-3-explainer-openai-examples-errors-agi-potential