近日,微軟亞洲研究院舉行(xíng)多(duō)模态表征學習與應用研討(tǎo)會(huì),與來(lái)自首爾國立大(dà)學、台灣大(dà)學、 清華大(dà)學和(hé)中科院的學者們深度探討(tǎo)了多(duō)模态表征學習在多(duō)媒體(tǐ)應用服務方面的最新研究進展和(hé)未來(lái)發展趨勢,以推動整個(gè)領域向更好的方向發展。
2018 年,用于自然語言表示建模的 BERT 技(jì)術(shù)(即由變型器(qì)組成的雙向編碼器(qì)表示技(jì)術(shù)) [1] 的出現,為(wèi)深度學習擺脫對有(yǒu)标注數(shù)據的依賴提供了一種新選擇。理(lǐ)論上(shàng),基于 BERT 技(jì)術(shù)可(kě)以利用無限量的未标注數(shù)據作(zuò)預訓練,然後再利用針對特定任務的少(shǎo)量有(yǒu)标注數(shù)據進行(xíng)微調,進而實現對不同任務(如問題解答(dá)和(hé)語言推理(lǐ))的優化。此後,類似 BERT 的無監督預訓練技(jì)術(shù)在許多(duō)自然語言處理(lǐ)任務中取得(de)了突破性進展。
提供大(dà)量有(yǒu)标記多(duō)模态數(shù)據一直是解決多(duō)模态學習問題(如理(lǐ)解、轉換和(hé)生(shēng)成)的一個(gè)重大(dà)挑戰,類似 BERT 的無監督預訓練技(jì)術(shù)很(hěn)好的解決了這一難題,并且可(kě)以顯著提高(gāo)系統整體(tǐ)性能。例如,在本次研討(tǎo)會(huì)上(shàng),微軟亞洲研究院的研究人(rén)員展示了在視(shì)覺語言任務中的通(tōng)用表示預訓練 [2]、具有(yǒu)視(shì)覺內(nèi)容的多(duō)模态自然語言處理(lǐ) [3],以及視(shì)頻語言跨模态任務的預訓練 [4] 等方面所取得(de)的重大(dà)進展。其中,部分技(jì)術(shù)成果已經轉化到微軟核心産品中,取得(de)了良好的應用效果。
預訓練是 AI 未來(lái)所需要的全部嗎?
我們一緻認為(wèi),預訓練将是未來(lái) AI 的非常重要的組成部分,但(dàn)我們需要的不止這些(xiē)。人(rén)類豐富的先驗知識需要有(yǒu)效地集成到系統中,以減少(shǎo)我們對大(dà)數(shù)據、模型和(hé)計(jì)算(suàn)的依賴。此外,學術(shù)界與工業界可(kě)以密切合作(zuò),充分發揮雙方的優勢。例如,高(gāo)校(xiào)開(kāi)設了許多(duō)學科,因此在跨學科研究方面具有(yǒu)天然優勢,而工業界在數(shù)據收集和(hé)計(jì)算(suàn)資源方面實力雄厚。如果有(yǒu)更多(duō)的開(kāi)源項目,讓更多(duō)的人(rén)能夠參與到相關研究中并做(zuò)出貢獻,必将有(yǒu)力推動技(jì)術(shù)快速向前發展。
<span style="background-color: rgb(255, 255, 255); color: rgb(51, 51, 51); font-family: " segoe="" ui",="" "microsoft="" yahei",="" mhei",="" stheititc,="" sans-serif;="" font-size:="" 20px;"="">