中文 語料庫 下載 在 大象中醫 Youtube 的精選貼文
中文 語料庫 下載 在 大象中醫 Youtube 的最佳貼文
中文 語料庫 下載 在 2019.11 庫博中文語料庫分析工具(CORPRO) 應用工作坊錄影 ... 的必吃
本錄影為「庫博 中文語料庫 分析工具」 (CORPRO) 的開發者、國立台灣大學生物 ... 下載 庫博CORPRO: http://cjlin.nlplab.tw/CORPRO/index.html 第二部: ... ... <看更多>
Search
本錄影為「庫博 中文語料庫 分析工具」 (CORPRO) 的開發者、國立台灣大學生物 ... 下載 庫博CORPRO: http://cjlin.nlplab.tw/CORPRO/index.html 第二部: ... ... <看更多>
#1. 中文自然語言處理百萬級語料庫-ChineseSemanticKB免費下載
中文 自然語言處理百萬級語料庫-ChineseSemanticKB免費下載. 2020-08-09 深度學習與NLP. ChineseSemanticKB,chinese semantic knowledge base, 面向中文處理的12類、百 ...
#2. 下載軟體與資源 - CKIP Lab 中文詞知識庫小組
CKIP Tagger — 中文斷詞暨實體辨識系統. 線上展示 · 商業授權 · Python Package ... 中文詞向量評估資料集. 下載 · 中文向量表達. 漢語平衡語料庫詞集及詞頻統計.
#3. 中文自然语言处理百万级语料库-ChineseSemanticKB免费下载
中文 自然语言处理百万级语料库-ChineseSemanticKB免费下载. 1 年前· 来自专栏深度学习与NLP. ChineseSemanticKB,chinese semantic knowledge base, ...
#4. 中文自然語言處理百萬級語料庫-ChineseSemanticKB免費下載
中文 自然語言處理百萬級語料庫-ChineseSemanticKB免費下載. ChineseSemanticKB,chinese semantic knowledge base,. 面向中文處理的12類、百萬規模的 ...
#5. brightmart/nlp_chinese_corpus: 大规模中文自然语言处理语料 ...
大规模中文自然语言处理语料Large Scale Chinese Corpus for NLP. ... 语料库将会不断扩充。 ... 训练集:243万;验证集:7.7万;测试集,数万,不提供下载。
#6. 中文情感分析语料库大全-带下载地址 - DataSense
中文 的带有情感标注的语料库比较少, 所以我特地整理了一些公开的语料库, 有些怕丢失, 放到了自己的百度网盘里, 有需要的请自行下载。
#7. 乾貨下載|中文自然語言處理語料/數據集 - 每日頭條
ChineseNlpCorpus. 搜集、整理、發布中文自然語言處理語料/數據集,與有志之士共同促進中文自然語言處理的發展。 情感/觀點/評論傾向性分析.
2018年11月8日 — 中文情感分析語料庫【下載】 ... 說明:譚鬆波收集整理了一個較大規模的酒店評論語料。 ... 數據集3:中文情感挖掘語料-ChnSentiCorp.
#9. 中文NLP福利!大规模中文自然语言处理语料 - 腾讯云
... 一个中文自然语言处理语料库项目:nlp_chinese_corpus ,初步贡献了几个已经预处理好的中文语料,包括维基、新闻和百科语料,可直接下载使用。
#10. 中文自然語言處理數據集:ChineseNLPCorpus
推薦一個Github項目: ChineseNLPCorpus, 該項目收集了一批中文自然語言處理數據集的相關 ... 中科大新聞分類語料庫: ... 數據集, 數據概覽, 下載 ...
#11. 中文情感分析語料庫【下載】 - 程式人生
中文 情感分析語料庫【下載】 ... 資料集2:2012年CCF自然語言處理與中文計算會議:中文微博情感分析測評資料 ... 資料集3:中文情感挖掘語料-ChnSentiCorp.
#12. 中文自然语言处理领域语料库获取 - CSDN博客
github的一个收集NLP领域各大任务的大型语料库包含NLP 10任务,持续扩充中可用来预训练 ... 中文自然语言处理百万级语料库-ChineseSemanticKB免费下载.
#13. 最全中文自然語言處理資料集、平臺和工具整理 - sa123
騰訊AI實驗室公開的中文詞向量資料集包含800多萬中文詞彙,其中每個詞對應一個200維的向量。 下載地址:https://ai.tencent.com/ailab/nlp/embedding.html.
#14. CORPRO 庫博中文獨立語料庫分析工具- 暫時下載點
CORPRO 庫博中文獨立語料庫分析工具- 暫時下載點. (本網頁僅供數位人文相關課程教學使用,將在課程結束後關閉。) 專題研究計畫Research Projects.
#15. 以中文十億詞語料庫為基礎之兩岸詞彙對比研究 - ACL Anthology
中文 詞網(Chinese Wordnet (CWN))兩個WordNet 中文版所使用的詞彙,探討兩岸對於 ... 二、是以有大量兩岸對比語料的Gigaword Corpus 作為實證研究的基礎,驗證中文概念.
#16. 臺灣華語文語料庫
表5 臺灣華語文語料庫書面語語料主題分類及相對應的中文圖書分類號. ... Public License, Version 3) 的方式上傳到GitHub,開放使用者下載使用,網址 ...
#17. 中文語料庫下載 - 軟體兄弟
中文語料庫下載, 此一「中文句結構樹資料庫」目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。另有1000個句結構樹開放 ...
#18. (PDF) 中文獨立語料庫分析工具之開發與應用 - ResearchGate
Download full-text PDF ... 之中文語料庫語言學電腦輔助文本分析軟體,稱為「庫博中文語料庫分析工具. (CORPRO)」。社會人文學科學者透過文本 ...
#19. 資料庫下載- 維基百科,自由的百科全書
(※)注意,不同語言的條目內容不一定相同,歡迎您協助翻譯不完善的條目或提出翻譯請求。 中文版的下載處:https://download.wikipedia.com/zhwiki/. 文言文版的下載處: ...
#20. Corpus语料库– 第2 页 - NLPIR自然语言处理与信息检索共享平台
中文 新闻分类语料库 ... 语料库下载地址: http://download.cnblogs.com/f… Read More » · 采用《黄帝内经》语料构建中医领域理论 ...
#21. 自然语言处理语料库(长期更新...) | 冷眼-风雨飘摇
训练集:516万;验证集:3.9万;测试集,数万,不提供下载。 可能的用途:. 可以用于训练中英文翻译系统,从中文翻译到英文,或从英文翻译到中文; ...
#22. 國網中心資料集平台
需同意授權 TE_02_中文新聞語料庫_抽樣資料. 更新頻率 不定期 瀏覽次數 11441 下載次數 106. 使用條款使用此資料集前,請詳閱下列條款: 資料庫之電子型式,組成資料內容 ...
#23. 國內可外用免費語料庫下載資源匯總, 語言翻譯必備
「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫( ...
#24. 自然语言处理——NLTK中文语料库语料库- 波比12 - 博客园
Python NLTK库中包含着大量的语料库,但是大部分都是英文,不过有一个Sinica(中央研究院)提供的繁体中文语料库,值得我们注意。 在使用这个语料库 ...
#25. 繁體中文語料庫 :: 非營利組織網
CKIP Lab 中文詞知識庫小組| 非營利組織網 · 下載軟體與資源| 非營利組織網 · 中央研究院平衡語料庫| 非營利組織網 · 中華民國計算語言學學會| 非營利組織網 · 以中文十億詞 ...
#26. 简体中文语料库资源汇总(更新至2017/9/21) - 简书
简体中文语料库资源汇总(更新至2017/9/21) ... 古代汉语语料库:提供了分词、词性标注软件、词频统计、字频统计软件 ... BCC语料库 · 资源下载.
#27. 如何使用中文維基百科+ word2vec. Wikipedia Dump
一、下載中文維基百科資料集 ... 一、首先先去下載最新的中文維基百科corpus ... 中文语料库,高质量的中文语料库较难找,维基百科和百度百科算是比较不错的语料库。
#28. 干货下载| 中文自然语言处理语料/数据集 - 专知
内附资料下载地址,速速get起来喽~ 来源:GitHub 作者:SophonPlus ChineseNlpCorpus 搜集、整理、发布中文自然语言处理语料/数据集,与有志之士共同 ...
#29. 1. 中文NLP筆記:中文自然語言處理的一般流程 - ITREAD01 ...
摘要: 圖片發自簡書App 今天開始一起學習中文自然語言處理中文NLP一般 ... 一個文字集合作為語料庫(Corpus) 來源: 已有語料積累的文件下載語料搜.
#30. 中文自然语言处理数据集:ChineseNLPCorpus(附链接)
保险行业语料库. 下载地址:https://github.com/. Samurais/insuranceqa-corpus-zh. 汉语拆字字典. 英文可以做char embedding,中文不妨可以试试拆字.
#31. 可能是史上最大的开源中文语料库以及高质量中文预训练模型集合
数据下载. 申请方式:将使用语料研究目的和用途,计划、研究机构和申请者介绍,发送到邮箱,并承诺不 ...
#32. 中文自然语言处理百万级语料库-ChineseSemanticKB免费下载
中文 自然语言处理百万级语料库-ChineseSemanticKB免费下载 · 1、本项目开源了一个目前可用于事件处理以及工业舆情的12类语义词库,总规模数目一百余万; · 2 ...
#33. 中文自然语言处理百万级语料库-ChineseSemanticKB免费下载
ChineseSemanticKB,chinese semantic knowledge base,面向中文处理的12类、百万 ... 中文自然语言处理百万级语料库-ChineseSemanticKB免费下载_lqfarmer的博客-程序员 ...
#34. 中華民國計算語言學學會
該計畫完成一個MATBN中文廣播新聞語料庫,語料來源是198個小時之公共電視晚間新聞,內容包括音檔、人工標記及文字轉 ... 授權使用協議書(下載)一式兩份。
#35. Day 13:『自然語言處理』(NLP) 概念介紹 - iT 邦幫忙
分詞(Tokenize):英文較容易,一般以空白即可,但中文就比較困難。 ... Toolkit)工具箱同時提供完整的函數庫及大量的語料庫,各式的語料庫可透過下列指令下載:.
#36. NTU NLPL's Homepage台大自然語言處理實驗室
Yue-Shi Lee, 以語料庫為本的方法研究中文句子的產生. Generating Chinese Sentences: A Corpus-Based Approach. 吳詠裕. Yeong-Yui Wu, 中英雙語語料庫句子排列問題之 ...
#37. 劍橋詞典:英語-中文(繁體)翻譯
使用劍橋雙語詞典,體驗英語-中文(繁體)翻譯的便捷與輕鬆。 ... 定期更新詞語及釋義,精心挑選的數千條例句來自劍橋英語語料庫 ——所有例句均譯為中文。 ... 去下載app!
#38. 2019.11 庫博中文語料庫分析工具(CORPRO) 應用工作坊錄影 ...
本錄影為「庫博 中文語料庫 分析工具」 (CORPRO) 的開發者、國立台灣大學生物 ... 下載 庫博CORPRO: http://cjlin.nlplab.tw/CORPRO/index.html 第二部: ...
#39. 维基中文百科官网下载- 头条搜索 - Toutiao
维基百科的语料库下载以及信息提取笔记_ㄣ知... _维基百科语料库 · 前言一、前提知识1-1、中文维基百科的下载1-2、抽取正文内容,繁体转换为简体1-2-1、抽取正文 ...
#40. THUOCL:清华大学开放中文词库
下载 链接:点此下载. 财经. 词表简介:本词表包含了大量财经类词汇。 词条样例:年期、调整方案、全面收购、差价、萎缩。 词条数量:3830条. 词频统计语料库:新浪新闻.
#41. 獲取中文維基百科語料 - 落格博客
這是官方定期dump 出來的xml 格式數據,下載的話基本是1GB 左右,中文的內容確實太少啊。如果你解壓縮,那麼是一個6GB 多的xml 文件,不過別去傻乎乎 ...
#42. 中文文本分类的语料库- 源代码在线查看: 262.txt - 虫虫下载站
中文 文本分类的语料库. 源代码在线查看: 262.txt. 软件大小:, 3742 K, 下载次数:, 2. 上传用户:, multicolor. 关键词:, 文本分类. 下载地址:, 下载, VIP ...
#43. 以中文十億詞語料庫為基礎之兩岸詞彙對比研究 - Airiti Library ...
全文下載. 以中文十億詞語料庫為基礎之兩岸詞彙對比研究. Cross-Strait Lexical Differences: A Comparative Study based on Chinese Gigaword Corpus.
#44. 语音数据集下载地址汇总| 免费的汉语说话人识别语料库
Acoustic-Phonetic Continuous Speech Corpus【英文】 · 数据集链接 · commonvoice [ 中文] · 下载链接 · 中文语音数据- THCHS-30 : A Free ...
#45. Simplified Chinese - CALPER Corpus Portal - Sites at Penn ...
除了许多商业软件可用来准备和/或分析中文语料库,网络上也有一些免费软件可供下载,其中有一些十分实用。 由Erik Peterson研发的DimSum Chinese Language Tool是一个以 ...
#46. 公布一批中文文本分类的新闻语料库 - 我爱自然语言处理
感谢网易新闻中心、腾讯新闻中心、凤凰新闻中心以及新浪新闻中心提供新闻素材。新闻著作权归以上网站所有,任何人未经上述公司允许不得抄袭。 语料库下载地址:http:// ...
#47. 【語料庫】語料庫資源彙總 - 程式前沿
其中一個月的語料(1998年1月)近200萬字在網際網路上公佈,供自由下載。 ... 網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。
#48. 中文新聞語料庫中文新聞分類語料庫 - Pripdw
3,有關語料庫的其他情況,請參考《獻給熱衷于自然語言處理的業余愛好者的中文新聞分類語料庫之一》。 ... 搜狗最新文本分類語料庫下載-CSDN論壇. 中文文本分類_新聞 ...
#49. Brown Corpus 布朗语料库- 数据集下载 - 超神经
布朗语料库是美国英语的首个文本语料库,它取自不同主题的报纸文本、书籍以及政府文件,包含1,014,312 个单词的它主要用于语言建模。
#50. 手动下载nltk_data,jieba中文语料库挖掘- 自然语言处理 - 亚博 ...
手动下载nltk_data,jieba中文语料库挖掘. 2022-05-16 PM08:32:01. NLTK的全称是natural language toolkit,是一套基于python的自然语言处理工具集。
#51. Mozilla 同聲計畫中文語音資料搶鮮版開放下載 - 科技新報
由鄉民參與收集的語音資料庫Common Voice 同聲計畫,如今開放釋出多國含台灣中文語音資料(Beta 版),有興趣先行試用訓練語音AI 的人,可以下載台灣 ...
#52. 中文维基百科语料库词向量的训练 - 吴良超的学习笔记
下载. 中文维基百科语料库的下载链接为:https://dumps.wikimedia.org/zhwiki/, 本试验下载的是最新的zhwiki ...
#53. 自然語言處理入門 - 博客來
HanLP作者何晗彙集多年經驗,從基本概念出發,逐步介紹中文分詞、詞性標注、命名實體識別、資訊抽取、文本聚類、文本分類、句法分析這幾個熱門問題的演算法原理與工程 ...
#54. 最全中文自然語言處理數據集、平台和工具整理
... 詞向量or模型、中文完形填空等大量數據集,中文數據集平台和NLP工具等。 ... 新聞分類語料庫:http://www.nlpir.org/?action-viewnews-itemid-145.
#55. 语言维基:NLP和語料庫
语言维基:NLP和語料庫 · 中文分詞和新詞發現編輯 · 中文詞性標註編輯 · 句法分析編輯 · 語音合成編輯 · 理論研究編輯 · 開放數據集下載編輯 · 語言維基NLP技術和算法研發公佈編輯.
#56. 千万级巨型汉语词库分享-码农场 - Hankcs
本来博客“自然语言处理”分类下就有“语料库”这一小类,不过一直没有分享什么,这次分享一个6千万词汇的巨型汉语 ... 全部目录请下载: 千万级巨型汉语词库【目录】.zip ...
#57. 基于python的语料库数据处理电子版_手动下载nltk_data
... 解压压缩包:nltk_data-gh-pages.zip拷贝packages文件夹到D:\python\packages ... 基于python的语料库数据处理电子版_手动下载nltk_data,jieba中文语料库挖掘.
#58. 語料庫建置入門工作流程指南
文本方面收錄「中央研究院現代漢語平衡語料庫」以及「中文詞彙網路」等中文詞彙知識檢索 ... 使用者可以藉由下載免費的ArcRead,加以使用已製作好的語言分布的情況( ...
#59. wikipedia 中文語料如何使用中文維基百科語料 - Awzn
wikipedia 中文語料如何使用中文維基百科語料. 也就是5天前。 ... wikipedia 中文希望文章對你有所幫助,-【游戲蠻牛】-游戲出海,有Wiki Dump 可以直接下載,而百度 ...
#60. python 提取sogou中文语料库 - 程序员大本营
sogou中文语料库下载地址是:https://download.csdn.net/download/kinas2u/1277550 下载下来的文件包含了很多子文件夹,每个子文件夹下又包含了很多txt语料文件,我想 ...
#61. 中文分詞語料庫與數據清洗 - 方格子
講到數據清洗,無非那幾樣東西,這裡也就不再引用網路文獻累贅說明了。這篇文章主要用數據清洗的幾個方向來檢查一下中研院的中文分詞語料庫有哪些 ...
#62. 中文信息处理 - 搜索结果- 中国知网
下载 :170 被引:2 ... 中文信息处理作为一门与计算机科学、语言学、数学、信息学和声学多门学科相结合的交叉型学科, ... 中文语料库切分不一致字串分类校验方法研究.
#63. 中文情感分析语料库【下载】_晓杰1990的博客-程序员ITS401
中文 情感分析语料库【下载】_晓杰1990的博客-程序员ITS401_情感分析语料库 ... 说明:谭松波收集整理了一个较大规模的酒店评论语料。语料规模为10000篇。语料从携程网上自动 ...
#64. 新聞中譯英文本結構「明朗化」特徵之語料庫翻譯研究
為建置上述3個比較語料庫,首先使用ParaConc進行英中文本連結。ParaConc下載SL及TL 文本之介面如下:. 步驟一: 開啟下載功能. 步驟二: 下載中英語料庫.
#65. AntConc(语料库检索工具) v3.5.8中文版 - 手机应用软件下载
AntConc中文版是一款非常好用的语料库检索工具,对于从事语言文字研究学习的朋友特别有用,它具有索引词表生成,主题词计算,搭配和词族提取等多种功能,以很方便地用 ...
#66. 语料库下载 - 程序员ITS404
搜狗中文语料库,涉及运动休闲、人文科学、生活百科、艺术设计、医学医药等十大领域。 更多...
#67. 收藏| 中文公開聊天語料庫及使用方法(附連結) - 壹讀
收藏| 中文公開聊天語料庫及使用方法(附連結) ... 該Github庫是對目前市面上已有的開源中文聊天語料的搜集和系統化整理工作。 ... 下載語料.
#68. 【求助】请问哪有中文n-gram语料库下载 - 水木社区
主题:【求助】请问哪有中文n-gram语料库下载 ... 整个互联网的n-gram统计当然最理想,基于较小语料(如整个中文wiki+人民日报语料库之类的)的统计结果可能也能够满足 ...
#69. 中文處理工具簡介 - g0v
中研院CKIP 的衍生系統,據國教院的同仁說,新近詞的收量較大,跑起來也稍快些。 http://120.127.233.228/Segmentor/. 另外還附有一個語料索引系統:http://120.127.
#70. [情報] 中國國內可用免費語料庫- 看板Linguistics
其中一個月的語料(1998年1月)近200萬字在互聯網上公佈,供自由下載。 ... 個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院 ...
#71. LJCorpus中文语料库分析软件
华军软件园文科工具频道,为您提供LJCorpus中文语料库分析软件最新版、LJCorpus中文语料库分析软件官方下载等文科工具软件下载。更多LJCorpus中文 ...
#72. 語言資料庫 - 謝佳玲老師- 國立臺灣師範大學
「國立政治大學漢語口語語料庫」包含三個語言的口語語料:中文、客語、閩南語。語料庫記錄口語語料,並提供外界作為非營利的研究和教學之用。學生和教師(或其他)經會員 ...
#73. 自然语言处理中文数据集入口整理 - 极客分享
https://github.com/crownpku/Awesome-Chinese-NLP#corpus-中文语料 中文语料 ... 今日头条中文新闻(短文本)分类数据 ... 保险行业语料库 下载 ...
#74. 语料库下载 - 瘟疫公司apk 破解
使用Reverso Context: 语料库,在中文-英语情境中翻译"语料" ... Reverso Context免费- 谷歌Play. 下载... 注:中文文本语料只在中国国内市场销售.21 ...
#75. 习近平系列重要讲话数据库
习近平就巴西东北部严重洪涝灾害向巴西总统博索纳罗致慰问电 · 发扬光荣传统用心用情促进儿童健康成长全面发展 · 秉承宋庆龄先生“永远和党在一起”的信念为促进海内外中华儿女 ...
#76. 语料库研究前沿》征稿启事(官方微信公众号信息 - 万维书刊网
中外文参考文献分别排列,中文在前,外文在后。参考文献类型以字母标识,期刊文章为J,普通图书(包括专著、教材等)为M ...
#77. 上海外国语大学: SISU
上海外国语大学是中国著名的高等外语学府,秉承“格高志远、学贯中外”的校训精神和“诠释世界、成就未来”的办学理念,致力于建成国别区域全球知识领域特色鲜明的世界一流 ...
#78. 自由廣場》端午節的英文
近來也有音譯為Duanwu Festival的聲音,不過語料庫的證據顯示,此譯的只有Dragon ... 英文詞語的世界權威《牛津英語詞典》(簡稱OED)收錄了來自中文 ...
#79. 四川外国语大学
四川外国语大学第一届语料库应用研究论坛 · 23. 2022-05. 王铭玉教授“语料库及应用研究”系列课程回顾. 通知公告 / NOTICES AND ANNOUNCEMENTS.
#80. 开源新闻摘要:2019 年4 月22 日| 亚马逊AWS官方博客
... 包含的图像与98 种语言(包括英语,每种语言最多10000 个单词)所代表的单词匹配。 Paracrawl,来自针对欧洲语言提供的更广泛Web 规模并行语料库 ...
#81. HC49-4H/534JF6.4MHZ - Datasheet - 电子工程世界
本资料有HC49-4H/534JF6.4MHZ、HC49-4H/534JF6.4MHZ pdf、HC49-4H/534JF6.4MHZ中文 ... Golledge Electronics: 厂商官网:http://www.golledge.com/: 标准:. 下载文档 ...
#82. 人工智能算法Python案例实战 - Google 圖書結果
下面,我们将采用复旦大学计算机信息与技术系国际数据库中心自然语言处理小组提供的中文文本分类语料库(下载地址参见本书提供的电子资源)来进行中文文档的分类。
#83. 玩轉社群:文字大數據實作(第二版) - 第 72 頁 - Google 圖書結果
維基詞典中文版 始於 2004 年 5 月,截至目前已經有 833,644 個詞項目,可擷取該詞典之詞項,也可以至維基資料庫中下載中文語料庫,經資料清理後納入大量擴充詞庫內容。
#84. 维吾尔文文本分类中若干问题的研究 - 第 15 頁 - Google 圖書結果
目前常用的中文文本分类语料库有 863 中文评测语料、TanCorp 语料库、复旦语料库、搜狗实验室提供的文本分类语料库等。它们也可以公开免费下载。 TanCorp 语料库 4由 ...
#85. 語料庫建置入門數位化工作流程指南 - 第 116 頁 - Google 圖書結果
... 2009年1月31日下載,http://content.ndap.org.tw/index/?p=843。 ... 中文詞彙網路:http://cwn.ling.sinica.edu.tw/。 2. ... 語料庫建置入門工作流程指南 116.
#86. 每日新聞、專題報道| 星島日報
提供全方位多角度的香港、國際、中國及兩岸新聞,涵蓋社會、政治、經濟、民生、外交、政策、突發消息、城市熱話、專題報道、名家專欄。
#87. 这篇博客基于GPT2-Chinese大概讲述如何使用朋友的聊天 Apr ...
Clone the repo, install dependencies, and download the model weights. ... 新闻、古诗等中文生成任务,并且训练和分享了中文作文生成模型,取得了不错的生成效果。
#88. 【太空星購】文體學新發展研究(新時代外國語言 ... - 露天拍賣
... 大学包装:精装丛书名: 新时代外国语言文学新发展研究丛书开本:16开出版时间:2021-08-01 用纸:胶版纸页数:405 字数:408000 正文语种:中文 ...
#89. 挑选赢家:一种数据驱动的质量评估方法- 外文文献专区
中文 摘要: ... PDF下载: ... 在信息检索中,从大型语料库中选择一组文档以涵盖感兴趣的主题也存在一个问题(Agrawalet al.2009,Chen and Karger ...
#90. deeplearning4j之word2vec学习_旭旭_哥的博客-程序员信息网
语料库 来自点评文本数据,分词用的是ansj中文分词,最后分出词的效果如下: 格胡亚街舞提娜科目礼物舒适下次朋友新型宽敞经理介绍微信腾讯聊天账号aa 妹子好漂亮年轻选 ...
中文 語料庫 下載 在 [情報] 中國國內可用免費語料庫- 看板Linguistics 的必吃
出處是中國網站,不可免俗地會有(四)出現.......
---
https://www.cnblogs.com/a198720/p/3993093.html
國內可用免費語料庫(已經整理過,凡沒有標註不可用的鏈接均可用)
(一) 國家語委
1國家語委現代漢語語料庫https://www.cncorpus.org/
現代漢語通用平衡語料庫現在重新開放網絡查詢了。重開後的在線檢索速度更快,功能
更強,同時提供檢索結果下載。現代漢語語料庫在線提供免費檢索的語料約2000萬字,
為分詞和詞性標註語料。
2古代漢語語料庫https://www.cncorpus.org/login.aspx
網站現在還增加了一億字的古代漢語生語料,研究古代漢語的也可以去查詢和下載。同
時,還提供了分詞、詞性標註軟件、詞頻統計、字頻統計軟件,基於國家語委語料庫的
字頻詞頻統計結果和發佈的詞表等,以供學習研究語言文字的老師同學使用。
(二) 北京大學計算語言學研究所
1《人民日報》標註語料庫https://www.icl.pku.edu.cn/icl_res/
《人民日報》標註語料庫中一半的語料(1998年上半年)共1300萬字已經通過《人民日報
》新聞信息中心公開提供許可使用權。其中一個月的語料(1998年1月)近200萬字在互聯
網上公佈,供自由下載。
(三) 北京語言大學
漢語國際教育技術研發中心:HSK動態作文語料庫
https://202.112.195.192:8060/hsk/login.asp
語言研究所:北京口語語料查詢系統(B J K Y)
https://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp
(四)台灣中央研究院
中研院語料庫WWW版所有功能均開放使用,但為防主機資源耗用過劇及顧及數據傳輸
之實際限制,暫以檢索結果為限制的條件:院內檢索限兩萬行數據,院外檢索限兩千行
數據。
1現代漢語平衡語料庫https://www.sinica.edu.tw/SinicaCorpus/
專 門針對語言分析而設計的,每個文句都依詞斷開,並標示詞類。語料的蒐集也儘量
做到現代漢語分配在不同的主題和語式上,是現代漢語無窮多的語句中一個代表性 的
樣本。現有語料庫主要針對語言分析而設計,由中央研究院信息所、語言所詞庫小組完
成,內含有簡介、使用說明,現行的語料庫是4.0的版本。
2古漢語語料庫https://www.sinica.edu.tw/ftms-bin/ftmsw
古漢語語料庫包含以下五個語料庫: 上古漢語、中古漢語(含大藏經)、近代漢語、其他
、出土文獻。部分數據取自史語所漢籍全文數據庫,故兩者間略有重迭。此語料庫之出
土文獻語料庫,全部取自史語所漢簡小組所制作的數據庫。
3近代漢語標記語料庫https://www.sinica.edu.tw/Early_Mandarin/
為 應漢語史研究需求而建構的語料庫。目前素語料庫所蒐集的語料已含蓋上古漢語(
先秦至西漢)、中古漢語(東漢魏晉南北朝)、近代漢語(唐五代以後)大部分的 重
要語料,並己陸續開放使用;在標記語料庫方面,上古漢語及近代漢語都已有部分語料
完成標註的工作,並視結果逐步提供上線檢索。
4樹圖數據庫https://treebank.sinica.edu.tw/
「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個
中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica
Corpus) 中抽取句子,經由電腦剖析成結構樹,並加以人工修正、檢驗後所得的成果。
在中文句結構樹中,我們標示了中文句語意和語法的訊息。此一「中文句結構樹資料庫
」目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。
另有1000個句結構樹開放下載。
5中英雙語知識本體詞網https://bow.sinica.edu.tw/
結合詞網,知識本體,與領域標記的詞彙知識庫。
6搜文解字https://words.sinica.edu.tw/
包含「搜詞尋字」、「文學之美」、「遊戲解惑」、「古文字的世界」四個單元,可由
部件、部首、字、音、詞互查,並可查詢在四書、老、莊、唐詩中的出處,及直接連結
到出處,閱讀原文。
7文國尋寶記https://www.sinica.edu.tw/wen/
在搜文解字的基礎之上,以華語文學習者為對象,進一步將字、詞、音的檢索功能與國
編、華康、南一等三種版本的國小國語課本結合,與唐詩三百首、宋詞三百首、紅樓夢
、水滸傳等文學典籍結合,提供網絡上國語文學習的素材。
8唐詩三百首https://cls.admin.yzu.edu.tw/300/
以 國中、小學學生為主要使用對象,提供吟唱、繪畫、書法等多媒體數據,文字數據
報含作者生平、讀音標註、翻譯、批註、評註、典故出處等資料;檢索點包含作 者、
詩題、詩句、綜合資料、體裁分類等;檢索結果可以列出全文,並選擇標示相關之文字
及多媒體數據。並提供了一套可以自動檢查格律、韻腳、批改的「依韻入 詩格律自動
檢測索引教學系統」,協助孩子們依韻作詩,協助教師批改習作。
9漢籍電子文獻https://www.sinica.edu.tw/~tdbproj/handy1/
包含整部25史 整部阮刻13經、超過2000萬字的台灣史料、1000萬字的大正藏以及其他
典籍。
10紅樓夢網絡教學研究數據中心https://cls.hs.yzu.edu.tw/HLM/home.htm
元智大學中國文學網絡系統研究室所開發的「網絡展書讀—中國文學網絡系統」,為研
究中心負責人羅鳳珠老師主持,紅樓夢是其中一個子系統,其他還包括善本書、詩經、
唐宋詩詞、作詩填詞等子系統。此網站為國內Internet最大中國文學研究數據庫,提供
用戶最完整的中國文學研究數據。
(五)中國傳媒大學
1中國傳媒大學文本語料庫檢索系統
https://ling.cuc.edu.cn/RawPub/
2在線分詞標註系統
https://ling.cuc.edu.cn/cucseg/
3新詞語研究資源庫
https://ling.cuc.edu.cn/newword/web/index.asp
4音視頻語料檢索系統
https://ling.cuc.edu.cn/mmcpub(目前系統正在升級改造中)
(六)哈爾濱工業大學
1哈工大信息檢索研究室對外共享語料庫資源
https://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
該語料庫為漢英雙語語料庫,10萬對齊雙語句對,文本文件格式,同義詞詞林擴展版,
77,343條詞語,秉承《同義詞詞林》的編撰風格,同時採用五級編碼體系,多文檔自動
文摘語料庫,40個主題,文本文件格式,同一主題下是同一事件的不同報導,漢語依存
樹庫,不帶關係5萬句,帶關係1萬句,LTML化,分詞、詞性、句法部分人工標註,可以
圖形化查看,問答系統問題集,6264句,已標註問題類型,LTML化,分詞、詞性、句法
、詞義、淺層語義等程序處理得到,單文檔自動文摘語料庫,211篇,分不同體裁,
LTML化,文摘句標註,分詞、詞性、句法、詞義、淺層語義、文本分類、指代消解等程
序處理得到。
(七)清華大學
漢語均衡語料庫TH-ACorpus:https://www.lits.tsinghua.edu.cn/ainlp/source.htm(
似乎在改版,一直上不去)
(八)香港教育學院
語言資訊科學中心及其語料庫實驗室https://www.livac.org/index.php?lang=sc
自1995年開始,以「共時」方式處理了超常的大量漢語語料,通過精密的技術,累積眾
多精確的統計數據,建立了LIVAC (Linguistic Variation in Chinese Speech
Communities)共時語料庫。 本語料庫最大特點是採用「共時性」視窗模式,嚴謹地定
時分別收集來自多地的定量同類語料,可供各種客觀的比較研究,方便有關的信息科技
發展與應用。此外,語料庫又兼顧了「歷時性」,方便各方人士客觀地觀察與研究視窗
內的有代表性的語言發展全面動態。
(九)中國科學院計算技術研究所
跨語言語料庫https://mtgroup.ict.ac.cn/new/resource/index.php(目前不可用,不
知道是否在升級)
目前的雙語句對數據庫中有約180,000對已對齊的中英文句子。 本數據庫支持簡單的中
英文查詢服務。 查詢結果包括句對編號、中文句子、英文句子、句對來源。
(十)中文語言資源聯盟
中文語言資源聯盟https://www.chineseldc.org/
(Chinese Linguistic Data Consortium,簡稱ChineseLDC)的建立。ChineseLDC是吸收
國內高等院校,科研機構和公司參加的開放式語言資源聯盟。其目的是建成能代表當今
中文信息處理水平的,通用的中文語言信息知識庫。ChineseLDC 將建設和收集中文信息
處理所需要的各種語言資源,包括詞典,語料庫,數據,工具等。在建立和收集語言資源的
基礎上,分發資源,促成統一的標準和規範,推薦給用戶,並且針對中文信息處理領域的關
鍵技術建立評測機制,為中文信息處理的基礎研究和應用開發提供支持。(之所以排名
這麼後,是因為是國家出錢的項目,卻沒有什麼免費資源)
--
※ 發信站: 批踢踢實業坊(ptt.cc), 來自: 121.140.19.4
※ 文章網址: https://www.ptt.cc/bbs/Linguistics/M.1499710409.A.452.html
... <看更多>