【2001年2月19日聯合知識庫誕生】
19年前聯合報系成立線上新聞資料庫
─「聯合知識庫」
昔日新聞標題「一網看盡五十年」
今日需要更新為六十九年了
經營者在多年前的精準判斷
團隊下足資源傾力建置
聯合知識庫已是華文報刊資料庫最完整的平台
除了是研究資源
在可讀性及實用性上
報時光持續挖掘紀錄
和大家分享歷史
一起來回顧
日期:2001/2/19
圖說:聯合報系聯合線上聯合知識庫udndata.com舉辦開站上線記者會。圖為聯合報發行人王效蘭(左起)、聯合報系董事長王必成、聯合線上執行長王文杉與聯合線上營運長劉永平。
報別:聯合報
攝影:林鍚銘
#聯合知識庫把過去半世紀的台灣發展過程放進網路資料庫
#成為全世界想要了解華人世界的一個重要平台
#光學辨識技術OCR進行報紙的整版掃描 #再用圖文切割方式將報紙版面上的內容分區切塊辨識儲存
#以新開發的系統進行兩循環校對除錯
#報時光UDNtime
歷史新聞
【2001-02-19/聯合報/11版/話題】
王文杉:讓龐大資訊轉化為知識
強調社會價值遠勝一切 盼未來與其他媒體及出版界合作 創造更大的知識平台
【記者李彥甫╱專訪】聯合報系線上資料庫─「聯合知識庫」今天正式啟用,將成為華人世界最完整的新聞資料庫。聯合報系總管理處副總經理、聯合線上公司(udn,com)執行長王文杉指出,聯合報系致力發展五十年的線上資料庫,主要目的是希望回饋社會,不僅為台灣過去半世紀的發展留下紀錄,更希望透過知識管理系統,讓新聞資訊能夠系統地轉化為知識,協助社會與民眾一起進步。聯合知識庫也希望與各媒體及出版界合作,創造更大的知識平台。以下是記者專訪紀要:
問:聯合報系五十年來累積了非常豐富的新聞資產,報系如何看待新聞資產與知識累進之間的關係?
答:聯合報系過去五十年一直專心新聞事業,一方面滿足讀者知的權利,另一方面也留下了非常豐富的珍貴史料,但這些珍貴資料過去只有極少數人可以接觸,充其量只能稱為資訊,不但不能為社會大眾所用,也不能進一步成為創造知識的基礎。知識的範圍很廣,但最基本的,它必須是一種可以做為判斷基礎的資訊。如今聯合知識庫上線,才有可能實現許多理想,經由資訊轉化為知識,希望可以幫助許多讀者進行判斷,也幫助許多機關或公司進行決策。
問:什麼動機促使聯合報系選在此時發展線上資料庫?
答:聯合報系一直認為,資訊「電子化」與「普及化」是很重要的事,早在十年前就已推動報系資訊中心的電腦化,當時也曾想過類似資料庫電子化的計畫,但那時的技術非常不成熟,不僅要耗費巨資,產品也會讓使用者覺得不便。一直到最近相關技術成熟,聯合報系也開始發展網際網路事業,可說是一切水到渠成。
問:聯合知識庫發展時程與規模?
答:根據估算,聯合報系過去五十年來一共出版了約一百三十萬個報紙版面、一千多萬則新聞、七十餘億個字。目前聯合知識庫正逐日逐月地、由近至遠回溯過去的報紙,每天新增資料量約六千五百筆,其中包括當天聯合報系國內五份報紙的約一千五百則新聞,回溯資料約有五千則。截至目前為止,聯合知識庫內已收錄最近兩年、共七十萬餘筆新聞資料,已是國內最大的線上新聞資料庫。
聯合知識庫預計在四年內,完成五十年來聯合報系所有報紙資料數位化計畫(暫時不含聯合報地方版 )。今年適逢聯合報成立五十週年,將集中力量優先進行解嚴後的聯合報全國版新聞資料的數位化工程,預計在今年九月前完成。
問:有人認為,五十年的新聞資料庫的歷史價值大於商業價值,您同意這種說法嗎?可以從商業市場上回收投資嗎?
答:談到新聞資料庫的「價值」,我們必須對價值做一定義,價值其實有些主觀,像是一種價值觀。對於新聞資料庫,我確實認為「歷史價值」大於「商業價值」,「無形商業價值」也大於「有形商業價值」,但這並不等於新聞資料庫「沒有價值」。我們相信聯合知識庫帶來的社會價值遠勝於一切,更勝於進帳多少筆收入。
聯合知識庫把過去半世紀的台灣發展過程放進網路資料庫,這是華人世界的第一套,首要建立大眾化的使用環境,因此也不能讓一般人無法負擔。我們希望提供的不只是「資料庫」,而是「知識庫」,不是傳統電子商務的賣資料而已。從傳統商業角度來看,這項投資短期內較難回收,因為現在投入很高的成本建立自動化機制,但未來定期的維護成本將會非常低,因此細水長流是很有機會的。
另一方面,對於傳統電子商務模式也需要重新思考,台灣的人口不過兩千一百萬人,直接面對消費者的電子商務(B2C)不容易生存,因此需要把眼光放大至全球華人市場。站在聯合報系「為全球華人辦報」的一貫立場,聯合知識庫將成為全世界想要了解華人世界的一個重要平台,未來我們會與美國各大學的中國研究中心合作。我相信遲早這項投資可以回收,而且將是非常有價值。
問:聯合知識庫除了全文檢索功能,還設計了不少新功能,例如「人工智慧查詢」,目的何在?
答:這有不同層次的意義,最簡單的目的是希望讓使用者可以很容易地使用,找到他真正想找的資訊;更進一步地,聯合知識庫希望透過人工智慧的知識管理平台,讓龐大的資訊可轉化為具有價值的知識。
問:知識庫目前已創造了一個線上資料庫的新平台,未來考慮與其他媒體合作,收錄非聯合報系的新聞或知識資產嗎?
答:未來我們肯定希望與其他媒體合作,事實上不只媒體,更希望與華文出版界合作。因為出版界的內容有其一定的深度,這是報紙媒體本身很難完全取代的,例如對於核四的討論,聯合報系的報紙上有新聞、也有深入分析與新聞辭典,聯合知識庫也對核四議題做了一些專卷,這已足夠滿足多數民眾。但如果有讀者想要深入了解各種能源的電力成本細節、各種能源的發電效率,就需要有出版界的資料加入。出版界如果自己發展一個平台,反而沒有商業價值,彼此結合才能茁壯。另一方面,當頻寬等技術更成熟後,聯合知識庫也希望結合影音、圖片資料,讓內容更豐富。
【2001-02-19/經濟日報/5版/綜合新聞】
運用人工智慧 檢索如虎添翼
【記者李彥甫╱台北報導】由於至今仍沒有一項技術可以滿足舊報紙數位化的技術需求,今(19)日正式上線的聯合知識庫(http://udndata.com),事實上是整合國內外多項技術,克服各項技術障礙,自行開闢了一條新途徑,才能造就最大的華文新聞資料庫。
過去50年來,報紙的排版、印刷技術都經歷了多次技術革命,報紙數位化的工程面臨不少困境需要克服。
因為報紙跨越的年代非常久遠,20年前的報紙仍是以鉛字排版,紙張品質也不若現在,如何以高度自動化技術處理幾十年前的舊報紙,難度很高。另一方面,如何提高原本報紙內容數位化之後的正確率,也是校對技術上的高難度工作。
簡單的說,聯合知識庫在全景軟體公司協助下,以光學辨識技術(OCR)進行報紙的整版掃描,再用圖文切割方式,將報紙版面上的內容分區切塊辨識儲存,然後再以新開發的系統進行兩循環校對除錯。
聯合知識庫目前採用的解決方案,單機每日可以產出136萬字,經過兩次循環校對後,正確率可高達99.91%,在成本效益與執行績效上,可說是相當成功。在目前中文辨識的相關技術中,也已是辨識成功率最高的辦法。
「聯合知識庫」. 為了讓使用者可以有最簡單的方式找到想要的資訊,特地引進美國亞歷桑納大學人工智慧實驗室與「知識運算公司」 (KCC)的知識管理系統,開發中文相關詞的人工智慧分類,除了提高使用效率,也可以激發使用者對於資訊的不同思考。
美國亞歷桑納大學人工智慧實驗室主任陳炘鈞教授、知識運算公司總裁比爾‧羅威 ( Bill Lowe)此次也特地來台,參加今天的聯合知識庫啟用典禮。陳炘鈞指出,在美國,人工智慧的知識管理系統已被很多單位應用,例如,情報系統、警政系統、證券期貨、醫學界、大型公司等,資料庫的需求是「準確、快速、簡單」時,更需要使用人工智慧。
不過,人工智慧的知識管理系統應用在中文新聞資料庫上,「聯合知識庫」卻是首開先例。
由於聯合報系50年來累積的新聞資料量非常龐大,例如鍵入「陳水扁」三字,使用一般的搜尋引擎檢索過去兩年的資料庫,結果可能出現兩萬多筆資料,除非使用者可以自行縮小範圍繼續檢索,否則反而會造成更大的困擾。
因此,想要協助使用者查詢到真正想看的新聞資料,需要加上一些輔助工具,例如人工智慧系統,簡單地說,聯合知識庫的「智慧查詢」是「一種會思考的全文檢索」。
智慧查詢主要是一種「相關詞彙分析」,只要資料量夠大,由人工智慧系統動態、自動地找出資料庫中,與關鍵字一起出現頻率最高的兩百個相關詞,例如「陳水扁」的相關詞中包括「總統」、「市長」、「候選人」、「一個中國」等。陳炘鈞表示,資料量累積愈多,人工智慧的功效愈能顯現。
【2001-02-20/聯合報/5版/話題】
專家談「第三代人工智慧」 udndata甚至會給使用者不同建議
陳炘鈞:新聞超過千萬筆,就知它的威力
【記者李若松╱專訪】聯合知識庫(udmdata,com)網站昨天正式啟用,與傳統新聞資料庫最大的不同,除了呈現聯合報系五十年新聞的深度與廣度外,還提供智慧型全文檢索、專卷查詢、我的剪報、自動剪報系統等四大關鍵工具,其中美國亞歷桑那大學人工智慧實驗室主任陳炘鈞領導的「知識運算公司」開發的人工智慧資料加值技術,更使聯合知識庫如虎添翼。
陳炘鈞是交通大學管理科學系畢業,先後在紐約州立大學攻讀資訊管理與資訊科學,得到博士學位,從一九八五年研究所階段就投入人工智慧應用在資料處理的研究領域中,也在亞歷桑那大學建立人工智慧實驗室及霍夫曼電子商務實驗室,並擔任資管系講座教授。
陳炘鈞解釋,一般網站全文檢索功能很簡單,第一代人工智慧是模擬人的行為,一般全文檢索是用第二代人工智慧─專家系統,輸入專家制訂的規則,未列入的規則就找不出結果;聯合知識庫使用的第三代人工智慧則是目前全球資料庫的主流方向,讓資料庫自動產生有意義的知識。
陳炘鈞表示,聯合知識庫的智慧型全文檢索系統,可以引導使用者多面向思考,將概略性資料去蕪存菁,並提供檢索的線索,留下使用者真正需要的資料。聯合知識庫產生的資料,不需要人工設定規則,純粹是由電腦分析後自動產生,依經驗法則給使用者建議,除了像輸入「陳水扁」、發現資料太多,可以建議較小範圍的線索外,還可能在搜尋
「釣魚台事件」時,建議使用者查「台獨運動」。
陳炘鈞分析,國外的英文資料庫如果要具有人工智慧,必須了解、分析英語語法;中文新聞資料庫全文檢索則必須運用統計方法找出「最長的關鍵詞」,他的實驗室同時具備兩種分析技術,未來會在聯合知識庫提供更多新的服務功能。
陳炘鈞曾經替美國亞歷桑那州警政機關發展「警務系統」,正是一套人工智慧系統,能夠在警方百萬筆至一千多萬筆犯罪檔案資料中,快速找到嫌犯資料。
陳炘鈞表示,聯合知識庫目前僅處理近百萬筆資料,還顯不出人工智慧的威力,等到新聞資料輸入超過一千萬筆時,就能彰顯出聯合知識庫從資料庫產生有價值知識的潛力。
Search