久久婷婷久久一区二区三区_99国产**精品****_国产精品国产自产拍高清av水多_538国产精品一区二区免费视频

正在加載數據...
當前位置:北方企業新聞網> 商訊>正文內容
  • 新啟龍運·承蒙厚AI--2024開工季答謝會——泰安站圓滿落幕
  • 2024年03月13日 來源:中國網

提要:近日,上海人工智能實驗室(上海AI實驗室)發布新一代高質量大模型預訓練語料“萬卷CC”(WanJuan-CC),首批開源的語料覆蓋過去十年互聯網上的公開內容,包含1千億字符,約400GB的高質量英文數據。

近日,上海人工智能實驗室(上海AI實驗室)發布新一代高質量大模型預訓練語料“萬卷CC”(WanJuan-CC),首批開源的語料覆蓋過去十年互聯網上的公開內容,包含1千億字符(100B token),約400GB的高質量英文數據。作為“大模型語料數據聯盟”今年首發的開源語料,WanJuan-CC將為學界和業界提供大規模、高質量的數據支撐,助力構建更智能可靠的AI大模型。

預訓練數據的質量對大模型整體性能至關重要。當前,CommonCrawl(CC)數據集因其規模大、跨度廣而成為國際主流大模型訓練數據的重要來源。與此同時,其原始數據格式復雜、數據質量低等問題,或將導致模型訓練效率低,甚至可能引發價值觀對齊等方面的隱患。

中國科研人員通過原創的數據清洗技術,從CC數據庫中抽取約1300億份原始數據文檔進行再處理,“萃取”出其中約1.38%的高質量內容,構建成WanJuan-CC語料庫。實驗結果顯示,WanJuanCC具有高文本質量、高信息密度的特點,可滿足當前大模型訓練對大規模高質量語料的需求。

上海AI實驗室發布的書?·浦語2.0(InternLM2)即以WanJuan-CC為關鍵數據作支撐,使訓練效率和語言建模能力大幅提升,綜合性能領先開源社區。

高質量語料驅動,效率性能雙提升

近期,上海AI實驗室發布了新一代大語言模型書?·浦語2.0(InternLM2)。回歸語言建模本質,InternLM2綜合性能達到同量級開源模型的領先水平。模型基座語言建模能力的提升,則得益于預訓練文本質量及信息密度的增強。作為InternLM2的關鍵預訓練語料,WanJuan-CC的文本質量和高信息密度經過了模型實際驗證。在InternLM2的訓練過程中,在僅使用約60%的訓練數據情況下,模型即獲得了與此前使用1T token相同的性能表現,大幅提升訓練效率,并使模型在相同語料規模上取得了更好的性能。

綠色曲線為InternLM2使用WanJuan-cc作為預訓練語料,在不同數據規模上取得的任務性能分布,結果顯示,WanJuan-CC可大幅提升模型訓練效率

研究團隊通過對CC原始數據進行清洗,去除了網頁代碼和重復內容,同時利用分類模型剔除了廣告和質量較差的信息,并通過內容一致性、語法正確性、數據噪聲和信息價值等四個維度,對語言的流暢性進行評估。為驗證數據質量,研究團隊使用WanJuan-CC和RefineWeb(從CommonCrawl中抽取并構建的主流英文預訓練語料)分別重新訓練了參數量1B的模型,并進行評測。結果顯示,由WanJuan-CC作為訓練數據的模型在多項驗證中取得了更優效果。

基于WanJuan-CC訓練的1B模型在Pile驗證集評測效果更優,這表明由WanJuan-CC訓練的模型在不同領域和各類知識上擁有更強能力

四重處理, 百里挑一“萃取”高質量數據

為從浩如煙海的CC數據庫中“精選”最可靠的信息,研究團隊搭建了高性能分布式數據處理基礎設施,通過啟發式規則過濾、多層級數據去重、內容安全過濾、數據質量過濾等四個步驟,從原始數據中“萃取”出高質量數據,數據留存率僅為原數據的1.38%。

通過原創技術,對CC原始數據進行多階段處理,得到了高信息密度的WanJuan-CC

研究團隊首先從CC中抽取了約1300億份原始數據文檔,然后基于高性能數據處理工作流得到2.2T token(35.8億個文檔)安全數據,最后,根據質量排序精選出1T token(3.6億個文檔)質量最高的數據,構建成WanJuan-CC。如以下柱狀圖所示,在WanJuan-CC構建過程中的每一階段,均進行了大比例的數據去除。對于僅占原CC數據比例2.76%的安全信息,研究人員再次“篩”掉五成低質內容,最終呈現出“百里挑一”的高質量數據。

各清洗階段的文檔保留率和去除率(本圖使用對數坐標軸)

數據質量高,模型更可靠

為推動訓練更智能可靠的AI大模型,研究團隊以保障數據安全性為前提,在數據處理的各環節均實施了多項安全加固措施,使WanJuan-CC成為目前開源CC語料中首個在毒性(Toxic)、色情(Porn)和個人隱私三方面同時進行了安全加固的英文語料,因而在價值對齊方面具有更高的可靠性。

與部分開源CC語料多維度對比,在毒性、色情和個人隱私等方面,WanJuan-CC均進行了安全加固

研究人員分別對WanJuan-CC、Redpajama和Refineweb數據集進行了10萬條數據的抽樣,從毒性、侮辱、恐嚇等7個維度進行評分,以驗證各數據集的信息安全性。結果顯示,WanJuan-CC在各維度上的體現出最高安全性。

WanJuan-CC與其他開源英文CC語料安全性對比

高質量、多模態、寬領域的數據已成為支持當前人工智能大模型發展的重要基石。WanJuan-CC的主要構建團隊——OpenDataLab致力于建設面向人工智能開發者的超大規模、高質量、多模態開放數據服務平臺,目前已匯聚高質量多模態數據集超6500個,涵蓋大模型研發應用所需的各類語料數據。

大模型語料數據聯盟

由上海人工智能實驗室聯合中央廣播電視總臺、人民網、國家氣象中心、中國科學技術信息研究所、上海報業集團、上海文廣集團等10家單位聯合發起。為應對大模型發展對高質量、大規模、安全可信語料數據資源的需求,保障大模型科研攻關及相關產業生態發展,大模型語料數據聯盟于2023年7月6日世界人工智能大會開幕式上宣布成立,旨在通過鏈接模型訓練、數據供給、學術研究、第三方服務等多方面機構,聯合打造多知識、多模態、標準化的高質量語料數據,探索形成基于貢獻、可持續運行的激勵機制,打造國際化、開放型的大模型語料數據生態圈。



責任編輯:周峰菊
相關新聞
    沒有關鍵字相關信息!
新聞排行
久久婷婷久久一区二区三区_99国产**精品****_国产精品国产自产拍高清av水多_538国产精品一区二区免费视频
国产精品专区h在线观看| 国产精品影视天天线| 国产精品三级视频| 一本一本a久久| 欧美日本韩国一区二区三区| 亚洲精品资源| 国产精品观看| 欧美在线精品免播放器视频| 国产欧美一区二区白浆黑人| 欧美亚洲一级| 亚洲韩国精品一区| 欧美日韩亚洲视频一区| 性xx色xx综合久久久xx| 亚洲国产一区在线| 欧美午夜精品久久久| 老司机午夜精品视频| 在线视频中文亚洲| 亚洲第一精品久久忘忧草社区| 欧美日韩精品在线观看| 久久久国产视频91| 亚洲一级黄色片| 91久久在线视频| 狠狠色狠狠色综合日日91app| 欧美午夜精品伦理| 欧美韩日一区二区三区| 久久这里只精品最新地址| 亚洲尤物在线视频观看| 亚洲精品一区二| 亚洲福利久久| 极品少妇一区二区| 国产亚洲一区二区三区在线观看| 国产精品www色诱视频| 久久综合婷婷| 午夜精品免费在线| 99视频在线精品国自产拍免费观看| 国产亚洲综合在线| 欧美日韩在线高清| 免费成人高清在线视频| 午夜性色一区二区三区免费视频| 99精品国产一区二区青青牛奶 | 99热精品在线观看| 一区视频在线播放| 国产精品羞羞答答| 老司机午夜免费精品视频| 久久激情五月激情| 亚洲资源在线观看| 亚洲一品av免费观看| 亚洲香蕉视频| 午夜视频一区在线观看| 亚洲午夜精品网| 99这里有精品| 亚洲欧洲一区二区三区在线观看| 亚洲国产精品电影在线观看| 国产一区二区日韩| 国产精品护士白丝一区av| 欧美日韩中文字幕日韩欧美| 欧美日韩小视频| 欧美日韩中文字幕在线| 欧美成人精品在线| 欧美高清成人| 欧美日韩午夜视频在线观看| 欧美日韩一区在线视频| 欧美日本不卡视频| 欧美黄色aa电影| 国产精品扒开腿做爽爽爽视频| 国产精品久久久久久久久借妻| 国产日韩精品一区二区| 好吊一区二区三区| 亚洲国产精品久久久久久女王| 亚洲伦伦在线| 新片速递亚洲合集欧美合集| 久久久亚洲国产美女国产盗摄| 欧美大香线蕉线伊人久久国产精品| 欧美精品一区二区在线播放| 国产精品视频自拍| 在线看欧美日韩| 在线中文字幕不卡| 久久久久9999亚洲精品| 欧美日韩国产一区二区三区地区 | 国产一区二区三区在线观看精品 | 久久综合五月| 欧美性做爰毛片| 极品尤物av久久免费看| 一本一本大道香蕉久在线精品| 久久国产精品99久久久久久老狼| 欧美电影免费观看| 国产精品网站视频| 亚洲国产日韩综合一区| 午夜精品美女自拍福到在线| 欧美成人久久| 国产亚洲成精品久久| 亚洲精品系列| 久久在线精品| 国产亚洲欧美在线| 亚洲午夜一区二区三区| 农夫在线精品视频免费观看| 国产精品视频久久| 亚洲三级影院| 久久人人九九| 国产精品一区二区三区四区| 亚洲精品乱码久久久久久日本蜜臀 | 99视频一区二区三区| 久久精品视频播放| 国产精品麻豆成人av电影艾秋| 在线精品一区二区| 久久国产精品一区二区三区| 欧美婷婷久久| 99爱精品视频| 欧美激情精品久久久久久| 狠狠色伊人亚洲综合成人| 亚洲午夜精品福利| 欧美日韩国产色站一区二区三区| 在线日韩中文| 久久综合九色| 怡红院精品视频| 久久久久久久成人| 国产日韩在线一区二区三区| 午夜国产一区| 国产欧美一区二区三区国产幕精品| 亚洲免费成人| 欧美喷潮久久久xxxxx| 亚洲国产小视频在线观看| 老司机精品视频网站| 红桃视频国产一区| 久久久久久精| 1000部精品久久久久久久久| 老司机aⅴ在线精品导航| 亚洲大胆美女视频| 免费日韩精品中文字幕视频在线| 激情综合在线| 欧美大胆a视频| 99av国产精品欲麻豆| 国产精品高潮在线| 欧美一级一区| 精品二区视频| 欧美成人精品| 亚洲精品一级| 欧美视频在线看| 先锋资源久久| 在线看国产日韩| 欧美日韩一区二区视频在线观看| 亚洲婷婷综合久久一本伊一区| 国产精品人人爽人人做我的可爱| 欧美伊人久久久久久久久影院| 精品福利av| 一区二区欧美日韩| 国产精品成人免费精品自在线观看| 亚洲欧美日韩精品| 欧美日韩99| 欧美午夜寂寞影院| 亚洲手机在线| 韩国av一区二区三区四区| 欧美+日本+国产+在线a∨观看| 亚洲美女网站| 国产视频在线一区二区| 免费久久99精品国产自| 宅男噜噜噜66国产日韩在线观看| 国产欧美一区二区三区在线老狼| 久久久精品999| 日韩一级免费| 国产亚洲精品v| 欧美成年视频| 在线观看日韩| 国产精品―色哟哟| 久久婷婷久久| 中国av一区| 亚洲成色最大综合在线| 欧美日一区二区在线观看| 欧美一区二区三区四区在线观看| 在线播放不卡| 国产精品日韩专区| 欧美a级片一区| 午夜在线视频观看日韩17c| 精品动漫一区二区| 国产精品一区二区三区四区五区| 蜜臀久久99精品久久久久久9| 亚洲一级黄色片| 亚洲精品久久7777| 黄色成人在线网址| 国产精品区一区二区三区| 免费观看日韩| 久久精品一二三| 亚洲欧美日韩视频二区| 日韩亚洲一区在线播放| 精品91久久久久| 国产精品一二三视频| 欧美大片18| 久久综合久久综合久久| 欧美一区二区成人6969| 99视频在线观看一区三区| 亚洲国产视频a| 激情六月婷婷综合| 国模私拍一区二区三区| 欧美激情视频网站| 欧美不卡高清| 欧美久久久久久久久| 欧美/亚洲一区| 久久综合伊人77777蜜臀| 久久www免费人成看片高清| 欧美一区1区三区3区公司|