日前,北京智源人工智能研究院(簡稱智源研究院)悟道文瀾團隊發布“AI 文案大師”小程序,可以自動匹配生成相應的文案。
據介紹,“AI 文案大師”小程序可以實現“輸入一張圖片,輸出一句文案”的功能。在這個過程中,“圖片”“文本”兩種數據分別對應于“視覺”和“語言”兩種模態。
機器學習領域將這種輸入輸出數據分別屬于不同模態的任務稱為“跨模態”任務。例如,可以訓練模型根據輸入圖片中提取出的視覺信息,自由地生成相應的描述性自然語言文本,這樣的任務稱為“圖像描述”。此外,還可以把圖片作為輸入,提取其視覺特征,并在現有的文本庫中檢索最符合圖片特征的文字描述,這樣的任務稱為“圖文檢索”或“圖文匹配”。
智源研究院悟道文瀾團隊相關負責人表示,“視覺—語言”多模態預訓練有助于提取到兩種模態數據中的關鍵信息,從而實現更高質量的圖文匹配。為了實現“AI文案大師”系統要求的圖文匹配質量,需要提升神經網絡的表征能力。
得益于近年來自監督學習在提取數據內在關鍵知識方面的進展,智源研究院悟道文瀾團隊采用先進的跨模態對比學習(自監督學習算法中的一種)算法 CMCL,利用某一個“圖文對”中的圖像模態或文本模態來構建該“圖文對”的負樣本,并設計了一種基于隊列的詞典來擴大負樣本數目,從而得到更好的數據表征。
未來,智源研究院悟道文瀾團隊還將繼續發布各種基于大規模中文多模態預訓練模型的研究成果和有趣應用。
標簽: 文案大師