阿里巴巴研發中文語言數據集 Youku-mPLUG,語料數據來自優酷 興趣認證 |
發布時間:2023-06-09 文章來源:本站 瀏覽次數:2102 |
6月8日訊,據 arxiv上的一篇論文顯示,達摩院近來為了推進視覺言語預練習以及多模態大言語模型在中文社區的發展,發布了一款視頻言語數據集 Youku-mPLUG。 這個數據集的一切內容均來自優酷,對其間的安全性、多樣性和內容質量有著非常嚴厲的標準。據達摩院介紹,Youku-mPLUG中包含了45種不同類型的1000萬個視頻文本,這些視頻文本從4億個原始視頻中篩選而出,首要用于大規模預練習。 達摩院表示,Youku-mPLUG可以幫助研制人員在未來進行更深入的多模態研究,開宣布更好的應用。 |