繼今年7月在2023世界人工智能大會(huì)發(fā)起成立“中國(guó)大模型語(yǔ)料數(shù)據(jù)聯(lián)盟”(以下簡(jiǎn)稱(chēng)“語(yǔ)料數(shù)據(jù)聯(lián)盟”),上海人工智能實(shí)驗(yàn)室(上海AI實(shí)驗(yàn)室)于8月14日宣布,聯(lián)合語(yǔ)料數(shù)據(jù)聯(lián)盟成員單位,共同開(kāi)源發(fā)布“書(shū)生·萬(wàn)卷”1.0多模態(tài)預(yù)訓(xùn)練語(yǔ)料。
【資料圖】
“書(shū)生·萬(wàn)卷”1.0目前包含文本數(shù)據(jù)集、圖文數(shù)據(jù)集、視頻數(shù)據(jù)集三部分,本次開(kāi)源的數(shù)據(jù)總量超過(guò)2TB。該語(yǔ)料數(shù)據(jù)包含超過(guò)5億個(gè)文本,2200萬(wàn)個(gè)圖文交錯(cuò)文檔,1000個(gè)節(jié)目影像視頻,具備多元融合、精細(xì)處理、價(jià)值對(duì)齊、易用高效等四大特征。
集合語(yǔ)料數(shù)據(jù)聯(lián)盟成員豐富的內(nèi)容積累與上海AI實(shí)驗(yàn)室領(lǐng)先的數(shù)據(jù)處理能力等優(yōu)勢(shì),“書(shū)生·萬(wàn)卷”將為學(xué)術(shù)界及產(chǎn)業(yè)界提供更符合主流中文價(jià)值對(duì)齊的高質(zhì)量大模型多模態(tài)預(yù)訓(xùn)練語(yǔ)料。
跨界聯(lián)合,共建寬領(lǐng)域語(yǔ)料庫(kù)
本次開(kāi)源的“書(shū)生·萬(wàn)卷”1.0包含文本、圖文、視頻三部分?jǐn)?shù)據(jù)集。其中文本數(shù)據(jù)為來(lái)自網(wǎng)頁(yè)、百科、書(shū)籍、專(zhuān)利、教材、考題等不同來(lái)源的清洗后預(yù)訓(xùn)練語(yǔ)料,數(shù)據(jù)總量超過(guò)5億個(gè)文檔,數(shù)據(jù)大小超過(guò)1TB,覆蓋科技、文學(xué)、媒體、教育、法律等多個(gè)領(lǐng)域。
圖文數(shù)據(jù)主要來(lái)自公開(kāi)網(wǎng)頁(yè),經(jīng)處理后形成圖文交錯(cuò)文檔。文檔總量超過(guò)2200萬(wàn)個(gè),數(shù)據(jù)大小超過(guò)140GB(不含圖片),覆蓋新聞事件、人物、自然景觀、社會(huì)生活等多個(gè)領(lǐng)域。
視頻數(shù)據(jù)主要來(lái)自中央廣播電視總臺(tái)和上海文廣集團(tuán),包含新聞、影視等多種類(lèi)型的節(jié)目影像,總計(jì)視頻文件數(shù)超過(guò)1000個(gè),數(shù)據(jù)大小超過(guò)900GB,內(nèi)容覆蓋軍事、文藝、體育、自然、真實(shí)世界、知識(shí)、影像藝術(shù)、媒體、美食、歷史、科教等方面。
精細(xì)處理構(gòu)建高質(zhì)量預(yù)訓(xùn)練語(yǔ)料
高質(zhì)量、大規(guī)模、安全可信的語(yǔ)料數(shù)據(jù)對(duì)于大語(yǔ)言模型的訓(xùn)練和性能提升至關(guān)重要。基于語(yǔ)料數(shù)據(jù)聯(lián)盟構(gòu)建的語(yǔ)料庫(kù),上海AI實(shí)驗(yàn)室對(duì)其中部分?jǐn)?shù)據(jù)進(jìn)行細(xì)粒度清洗、去重以及價(jià)值對(duì)齊,形成了高質(zhì)量多模態(tài)預(yù)訓(xùn)練語(yǔ)料“書(shū)生·萬(wàn)卷”1.0,具備多元融合、精細(xì)處理、價(jià)值對(duì)齊、易用高效等四大特征。
在多元融合方面,“書(shū)生·萬(wàn)卷”1.0包含文本、圖文、視頻等多模態(tài)數(shù)據(jù),范圍覆蓋科技、文學(xué)、媒體、教育、法律等多個(gè)領(lǐng)域,在訓(xùn)練提升模型知識(shí)含量、邏輯推理和泛化能力方面具有顯著效果。
在精細(xì)處理方面,“書(shū)生·萬(wàn)卷”1.0經(jīng)歷了語(yǔ)言甄別、正文抽取、格式標(biāo)準(zhǔn)化、基于規(guī)則及模型的數(shù)據(jù)過(guò)濾與清洗、多尺度去重、數(shù)據(jù)質(zhì)量評(píng)估等精細(xì)化數(shù)據(jù)處理環(huán)節(jié),因而能更好地適配后續(xù)的模型預(yù)訓(xùn)練需求。
在價(jià)值對(duì)齊方面,研究人員在“書(shū)生·萬(wàn)卷”1.0的構(gòu)建過(guò)程中,著眼于內(nèi)容與中文主流價(jià)值觀的對(duì)齊,通過(guò)算法與人工評(píng)估結(jié)合的方式,提升了語(yǔ)料的純凈度。
在易用高效方面,研究人員在“書(shū)生·萬(wàn)卷”1.0采用統(tǒng)一格式,并提供詳細(xì)的字段說(shuō)明和工具指導(dǎo),使其兼顧了易用性和效率,可快速應(yīng)用于語(yǔ)言、多模態(tài)等大模型預(yù)訓(xùn)練。
據(jù)悉,高質(zhì)量、多模態(tài)、寬領(lǐng)域的數(shù)據(jù)支持已成為當(dāng)前人工智能大模型發(fā)展的重要基石,中國(guó)大模型語(yǔ)料數(shù)據(jù)聯(lián)盟將持續(xù)通過(guò)開(kāi)源開(kāi)放,共建包容、開(kāi)放、有序、共享的人工智能大生態(tài)。
上海人工智能實(shí)驗(yàn)室是我國(guó)人工智能領(lǐng)域的新型科研機(jī)構(gòu),目標(biāo)為建成國(guó)際一流的人工智能實(shí)驗(yàn)室,成為享譽(yù)全球的人工智能原創(chuàng)理論和技術(shù)的策源地。
中國(guó)大模型語(yǔ)料數(shù)據(jù)聯(lián)盟是由上海人工智能實(shí)驗(yàn)室聯(lián)合國(guó)家氣象中心、上海數(shù)據(jù)集團(tuán)、上海市數(shù)商協(xié)會(huì)等單位聯(lián)合發(fā)起成立的開(kāi)放組織。旨在通過(guò)鏈接模型訓(xùn)練、數(shù)據(jù)供給、學(xué)術(shù)研究、第三方服務(wù)等多方面機(jī)構(gòu),聯(lián)合打造多知識(shí)、多模態(tài)、標(biāo)準(zhǔn)化的高質(zhì)量語(yǔ)料數(shù)據(jù),探索形成基于貢獻(xiàn)、可持續(xù)運(yùn)行的激勵(lì)機(jī)制,打造國(guó)際化、開(kāi)放型的大模型語(yǔ)料數(shù)據(jù)生態(tài)圈。
(文章來(lái)源:上海證券報(bào))
Copyright © 2015-2023 今日汽車(chē)網(wǎng)版權(quán)所有 備案號(hào):滬ICP備2023005074號(hào)-40 聯(lián)系郵箱:5 85 59 73 @qq.com