動(dòng)感語言文字中的自動(dòng)化科技:國務(wù)院辦公廳關(guān)于全面加強(qiáng)新時(shí)代 語言文字工作的意見
慶祝中國中文信息學(xué)會成立40周年系列活動(dòng) - 第十六屆中國中文信息學(xué)會暑期學(xué)校暨《前沿技術(shù)講習(xí)班》(CIPS ATT)在京召開
2021年7月22日-25日,慶祝中國中文信息學(xué)會成立40周年系列活動(dòng) - 第十六屆中國中文信息學(xué)會暑期學(xué)校暨《前沿技術(shù)講習(xí)班》第二十三期和第二十四期在京舉行。本屆講習(xí)班主題為:預(yù)訓(xùn)練語言模型的基礎(chǔ)理論與方法及其典型應(yīng)用。講習(xí)班吸引了來自全國各高校及科研院所的專家、學(xué)者、學(xué)生、產(chǎn)業(yè)界研發(fā)人員等近400人參加。
哈爾濱工業(yè)大學(xué)車萬翔教授、清華大學(xué)劉知遠(yuǎn)副教授、中國科學(xué)院自動(dòng)化研究所張家俊研究員擔(dān)任本屆講習(xí)班的學(xué)術(shù)主席。劉知遠(yuǎn)副教授和車萬翔教授分別致開幕辭,先后介紹了講習(xí)班的課程內(nèi)容和特邀講者,并歡迎學(xué)員們來京參會!
講習(xí)班邀請了哈爾濱工業(yè)大學(xué)車萬翔教授、科大訊飛崔一鳴研究員、微軟亞洲研究院董力研究員、百度公司孫宇研究員、清華大學(xué)劉知遠(yuǎn)副教授、循環(huán)智能楊植麟博士、復(fù)旦大學(xué)邱錫鵬教授、上海交通大學(xué)趙海教授、字節(jié)跳動(dòng)王明軒研究員、清華大學(xué)黃民烈副教授、中國人民大學(xué)趙鑫副教授和陳旭助理教授、中科院計(jì)算所郭嘉豐教授和范意興助理研究員、清華大學(xué)蘭艷艷教授、中科院自動(dòng)化所劉康研究員和中科院軟件所韓先培研究員在不同的方向作了系統(tǒng)深入的講解,并對預(yù)訓(xùn)練模型及其各領(lǐng)域的應(yīng)用提出了未來的研究方向。
7月22日,車萬翔教授和崔一鳴研究員作題為《自然語言處理:基于預(yù)訓(xùn)練模型的方法》的報(bào)告,重點(diǎn)介紹基于預(yù)訓(xùn)練模型的自然語言處理技術(shù),包括基礎(chǔ)知識、預(yù)訓(xùn)練詞向量和預(yù)訓(xùn)練模型三大部分。基礎(chǔ)知識部分介紹自然語言處理和深度學(xué)習(xí)的基礎(chǔ)知識和基本工具;預(yù)訓(xùn)練詞向量部分介紹靜態(tài)詞向量和動(dòng)態(tài)詞向量的預(yù)訓(xùn)練方法及應(yīng)用方法;預(yù)訓(xùn)練模型部分介紹幾種典型的預(yù)訓(xùn)練語言模型和應(yīng)用,以及預(yù)訓(xùn)練模型的最新進(jìn)展。除理論知識外,還結(jié)合具體代碼進(jìn)行深入介紹,達(dá)到理論和實(shí)踐的統(tǒng)一。 車萬翔教授作題為《自然語言處理:基于預(yù)訓(xùn)練模型的方法》的報(bào)告
崔一鳴研究員作題為《自然語言處理:基于預(yù)訓(xùn)練模型的方法》的報(bào)告
7月23日上午,董力研究員作題為《跨語言預(yù)訓(xùn)練模型》的報(bào)告,主要介紹跨語言預(yù)訓(xùn)練的最新研究進(jìn)展與趨勢,對當(dāng)前跨語言預(yù)訓(xùn)練方法、微調(diào)技術(shù);同時(shí),還將介紹跨語言文本理解與生成的常用評測方式。此外,對當(dāng)前跨語言預(yù)訓(xùn)練研究面臨的挑戰(zhàn)進(jìn)行了探討。
孫宇研究員作題為《跨模態(tài)預(yù)訓(xùn)練模型》的報(bào)告,融合跨模態(tài)知識、跨模態(tài)對抗訓(xùn)練、多個(gè)模態(tài)統(tǒng)一建模等是跨模態(tài)預(yù)訓(xùn)練的新思路。報(bào)告針對語言-視覺、語言-語音跨模態(tài)預(yù)訓(xùn)練,介紹該領(lǐng)域最新的進(jìn)展和趨勢。
董力研究員作題為《跨語言預(yù)訓(xùn)練模型》的報(bào)告
孫宇研究員作題為《跨模態(tài)預(yù)訓(xùn)練模型》的報(bào)告
下午,劉知遠(yuǎn)副教授作題為《知識指導(dǎo)的預(yù)訓(xùn)練語言模型》的報(bào)告,作為典型的數(shù)據(jù)驅(qū)動(dòng)方法,以預(yù)訓(xùn)練語言模型為代表的深度學(xué)習(xí)仍然面臨可解釋性不強(qiáng)、魯棒性差等難題,如何將人類積累的大量語言知識和世界知識引入模型,是改進(jìn)深度學(xué)習(xí)性能的重要方向,同時(shí)也面臨很多挑戰(zhàn)。報(bào)告系統(tǒng)介紹了知識指導(dǎo)的預(yù)訓(xùn)練語言模型的最新進(jìn)展與趨勢。
楊植麟博士作題為《面向生成的預(yù)訓(xùn)練模型》的報(bào)告,探討如何在紛繁復(fù)雜的任務(wù)體系和架構(gòu)體系當(dāng)中尋找統(tǒng)一的解決方案,其中將重點(diǎn)討論「生成理解一體化」的思想,討論基于生成的方式如何統(tǒng)一預(yù)訓(xùn)練和微調(diào)任務(wù)。同時(shí),報(bào)告還討論了基于生成的思想在少樣本學(xué)習(xí)、知識探測、詩歌生成等下游任務(wù)的應(yīng)用,以及基于生成的預(yù)訓(xùn)練模型在工業(yè)界對話理解場景的落地案例。
劉知遠(yuǎn)副教授作題為《知識指導(dǎo)的預(yù)訓(xùn)練語言模型》的報(bào)告
楊植麟博士作題為《面向生成的預(yù)訓(xùn)練模型》的報(bào)告
7月24日上午,邱錫鵬教授作題為《預(yù)訓(xùn)練模型在NLP基礎(chǔ)任務(wù)中的應(yīng)用》的報(bào)告,介紹預(yù)訓(xùn)練模型在NLP基礎(chǔ)任務(wù)上的應(yīng)用,主要包括1)如何在下游任務(wù)精調(diào)預(yù)訓(xùn)練模型;2)在NLP基礎(chǔ)任務(wù)上的應(yīng)用;3)重點(diǎn)介紹了一種統(tǒng)一生成框架,可以用來解決眾多NLP基礎(chǔ)任務(wù)。
趙海教授作題為《預(yù)訓(xùn)練模型在機(jī)器閱讀理解任務(wù)中的應(yīng)用》的報(bào)告,主要探討語言模型、表示對于機(jī)器閱讀理解的技術(shù)性影響,包括技術(shù)演化的時(shí)間線、現(xiàn)狀和挑戰(zhàn),特別是最近一年的最新進(jìn)展和一些個(gè)人新的思考。
邱錫鵬教授作題為《預(yù)訓(xùn)練模型在NLP基礎(chǔ)任務(wù)中的應(yīng)用》的報(bào)告
趙海教授作題為《預(yù)訓(xùn)練模型在機(jī)器閱讀理解任務(wù)中的應(yīng)用》的報(bào)告
下午,王明軒研究員作題為《機(jī)器翻譯的預(yù)訓(xùn)練方法》的報(bào)告,報(bào)告圍繞單語預(yù)訓(xùn)練、多語言預(yù)訓(xùn)練、多模態(tài)預(yù)訓(xùn)練三個(gè)方面來介紹機(jī)器翻譯中利用預(yù)訓(xùn)練提升的最新進(jìn)展。預(yù)訓(xùn)練在機(jī)器翻譯中需要達(dá)到三個(gè)目標(biāo):設(shè)計(jì)有效目標(biāo)從而適應(yīng)翻譯任務(wù);充分利用大量單語和有限雙語、文本和不同模態(tài)數(shù)據(jù);拉近跨語言跨任務(wù)表示。通過預(yù)訓(xùn)練和細(xì)調(diào)方法,在雙語翻譯,多語言聯(lián)合翻譯(包括zero-shot場景),語音翻譯,圖像輔助翻譯等不同翻譯場景都取得了顯著提升。
黃民烈副教授作題為《基于預(yù)訓(xùn)練模型的對話系統(tǒng)》的報(bào)告,報(bào)告圍繞基于預(yù)訓(xùn)練模型的對話系統(tǒng),闡述其中重要的問題、挑戰(zhàn),以及最新的方法,特別是大數(shù)據(jù)、大模型下的框架和任務(wù)設(shè)計(jì)。
王明軒研究員作題為《機(jī)器翻譯的預(yù)訓(xùn)練方法》的報(bào)告
黃民烈副教授作題為《基于預(yù)訓(xùn)練模型的對話系統(tǒng)》的報(bào)告
7月25日上午,趙鑫副教授和陳旭助理教授作題為《預(yù)訓(xùn)練模型在推薦系統(tǒng)中的應(yīng)用》的報(bào)告,聚焦預(yù)訓(xùn)練模型在推薦系統(tǒng)領(lǐng)域的應(yīng)用,對最近幾年的相關(guān)研究進(jìn)行簡要梳理和回顧,主要內(nèi)容包括:1)基礎(chǔ)背景:預(yù)訓(xùn)練模型和推薦系統(tǒng)的相關(guān)背景知識;2)預(yù)訓(xùn)練模型在推薦系統(tǒng)中應(yīng)用的動(dòng)機(jī)和挑戰(zhàn):為什么預(yù)訓(xùn)練模型在推薦系統(tǒng)領(lǐng)域受到廣泛關(guān)注,應(yīng)用過程中的主要難點(diǎn)是什么;3)預(yù)訓(xùn)練模型在推薦系統(tǒng)中的應(yīng)用策略和相關(guān)方法:如何更好地利用推薦系統(tǒng)中用戶的行為數(shù)據(jù)、設(shè)計(jì)更好的模型架構(gòu)和學(xué)習(xí)算法;4)預(yù)訓(xùn)練模型在推薦系統(tǒng)中應(yīng)用的未來展望:該領(lǐng)域亟待解決的問題和未來的發(fā)展方向。
郭嘉豐研究員和范意興助理研究員作題為《預(yù)訓(xùn)練模型在信息檢索中的應(yīng)用》的報(bào)告,聚焦預(yù)訓(xùn)練模型在信息檢索中的應(yīng)用,對最近幾年的相關(guān)研究進(jìn)行系統(tǒng)的梳理和回顧。主要內(nèi)容包括:1)基礎(chǔ)背景:信息檢索的相關(guān)背景知識介紹;2)預(yù)訓(xùn)練模型在檢索召回階段的應(yīng)用:包括預(yù)訓(xùn)練模型在傳統(tǒng)稀疏檢索框架下的應(yīng)用以及基于預(yù)訓(xùn)練模型的稠密檢索方法;3)預(yù)訓(xùn)練模型在重排序階段的應(yīng)用:包括基于預(yù)訓(xùn)練模型的表示學(xué)習(xí)、交互學(xué)習(xí)建模方法與模型加速,以及基于生成模型的排序建模等;4)面向信息檢索的預(yù)訓(xùn)練模型設(shè)計(jì):如何構(gòu)建滿足信息檢索任務(wù)需求的自監(jiān)督學(xué)習(xí)任務(wù),進(jìn)一步提升信息檢索的性能。
趙鑫副教授作題為《預(yù)訓(xùn)練模型在推薦系統(tǒng)中的應(yīng)用》的報(bào)告
陳旭助理教授作題為《預(yù)訓(xùn)練模型在推薦系統(tǒng)中的應(yīng)用》的報(bào)告
郭嘉豐研究員作題為《預(yù)訓(xùn)練模型在信息檢索中的應(yīng)用》的報(bào)告
范意興助理研究員作題為《預(yù)訓(xùn)練模型在信息檢索中的應(yīng)用》的報(bào)告
下午,蘭艷艷教授作題為《學(xué)術(shù)論文寫作的一些體會》的報(bào)告,結(jié)合個(gè)人研究背景和經(jīng)歷,主要介紹了學(xué)術(shù)論文寫作的一些體會,包括邏輯的重要性,3W2H寫作法則,論文的潤色技巧,復(fù)盤與提高等。
劉康研究員和韓先培研究員作題為《Research:the Good, the Bad and the Ugly》的報(bào)告,介紹兩位講者在多年的科研經(jīng)歷中遇到過、看到過、聽到過的Good、Bad、Ugly的科研方法(包括但不限于其中的故事、心態(tài)、理念、方法等),希望對于同學(xué)們的學(xué)習(xí)、科研和生活有所幫助。
蘭艷艷教授作題為《學(xué)術(shù)論文寫作的一些體會》的報(bào)告
劉康研究員和韓先培研究員作題為《Research:the Good, the Bad and the Ugly》的報(bào)告
評論排行