紫東太初聯(lián)合長(zhǎng)城汽車開源OpenS2S: 完全透明開源的端到端共情語(yǔ)音語(yǔ)言大模型
【ZiDongHua 之“汽車產(chǎn)業(yè)鏈”收錄關(guān)鍵詞: 紫東太初 人工智能 大模型】
紫東太初聯(lián)合長(zhǎng)城汽車開源OpenS2S: 完全透明開源的端到端共情語(yǔ)音語(yǔ)言大模型
GPT-4o、Gemini等大模型展現(xiàn)出卓越的語(yǔ)音共情對(duì)話能力,其情感與智能的協(xié)同發(fā)展不斷推動(dòng)通用人工智能(AGI)的前沿進(jìn)展。然而,這些模型雖然具備強(qiáng)大的能力,但由于其技術(shù)體系完全閉源,極大地限制了學(xué)術(shù)界和產(chǎn)業(yè)界對(duì)于情智兼?zhèn)浯竽P?,尤其是共情交互能力的深入研究與持續(xù)創(chuàng)新。過(guò)去一年,學(xué)術(shù)界與工業(yè)界相繼提出了多種語(yǔ)音共情交互(Empathetic Interaction)的方法,其中部分工作發(fā)布了技術(shù)報(bào)告,開放了模型參數(shù),或開源了微調(diào)代碼,為推動(dòng)語(yǔ)音共情交互技術(shù)的發(fā)展發(fā)揮了重要作用。然而,從“可完全復(fù)現(xiàn)”的角度來(lái)看,當(dāng)前的開源仍然有限,尚無(wú)法讓研究者全面了解這些模型是如何被逐步構(gòu)建與訓(xùn)練成功的。
為了追求極致的開源開放,紫東太初團(tuán)隊(duì)聯(lián)合長(zhǎng)城汽車AI Lab,提出了OpenS2S——一個(gè)完全透明開源的端到端共情語(yǔ)音語(yǔ)言大模型,旨在推動(dòng)共情語(yǔ)音交互領(lǐng)域的開放研究與技術(shù)創(chuàng)新。

OpenS2S的核心在于提供一個(gè)高效、低成本構(gòu)建共情語(yǔ)音系統(tǒng)的新范式。它不僅繼承了團(tuán)隊(duì)在語(yǔ)音到文本共情模型BLSP-Emo上的技術(shù)積累,更引入了流式交錯(cuò)解碼架構(gòu),實(shí)現(xiàn)了低延遲的實(shí)時(shí)語(yǔ)音生成。OpenS2S提出自動(dòng)化數(shù)據(jù)生成方法,結(jié)合大語(yǔ)言模型與可控文本到語(yǔ)音生成技術(shù),構(gòu)建多說(shuō)話者、多情感的高質(zhì)量共情語(yǔ)音訓(xùn)練語(yǔ)料。最為重要的是,我們開源了構(gòu)建OpenS2S所需的所有資源,包括:訓(xùn)練與微調(diào)數(shù)據(jù)集、數(shù)據(jù)構(gòu)建代碼、模型權(quán)重以及預(yù)訓(xùn)練和微調(diào)代碼,致力于賦能更廣泛的研究社區(qū),推動(dòng)共情語(yǔ)音系統(tǒng)領(lǐng)域的創(chuàng)新與發(fā)展。

表1 語(yǔ)音語(yǔ)言大模型的開源程度
OpenS2S 的核心貢獻(xiàn)
1.模型的構(gòu)建與訓(xùn)練
OpenS2S 基于先進(jìn)的框架構(gòu)建了高效的端到端語(yǔ)音到語(yǔ)音共情對(duì)話模型,并使用高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練。該模型能夠?yàn)槿祟惻c人工智能提供更便捷、更自然的交互方式。
2.共情語(yǔ)音指令數(shù)據(jù)集的自動(dòng)化構(gòu)建
OpenS2S提出了一種自動(dòng)化的數(shù)據(jù)增強(qiáng)方法,融合了大語(yǔ)言模型(LLMs)與文本到語(yǔ)音(TTS)技術(shù)的優(yōu)勢(shì),專為共情語(yǔ)音對(duì)話而設(shè)計(jì)。借助LLMs生成豐富多樣的用戶提問(wèn)與共情回應(yīng),再通過(guò)語(yǔ)音克隆技術(shù)確保說(shuō)話者身份的多樣性。更重要的是,該技術(shù)實(shí)現(xiàn)了對(duì)語(yǔ)音情感表達(dá)的精準(zhǔn)控制,使得我們能夠以極低的人力成本,構(gòu)建出內(nèi)容豐富、高質(zhì)量的訓(xùn)練數(shù)據(jù)集,為共情語(yǔ)音系統(tǒng)的發(fā)展注入強(qiáng)大動(dòng)力。
3.全面開源發(fā)布
為促進(jìn)學(xué)術(shù)合作與推動(dòng)共情大規(guī)模語(yǔ)音語(yǔ)言模型(LSLMs)領(lǐng)域的快速創(chuàng)新,OpenS2S完整開源了所有核心資源。包括模型權(quán)重、數(shù)據(jù)集構(gòu)建代碼、預(yù)訓(xùn)練與微調(diào)代碼、評(píng)估工具及合成數(shù)據(jù)集,致力于為研究社區(qū)提供完全透明、可復(fù)現(xiàn)的研究基礎(chǔ),助力共情語(yǔ)音技術(shù)的持續(xù)突破。
OpenS2S 技術(shù)方案
OpenS2S 采用模塊化設(shè)計(jì),包含四大核心組件:
音頻編碼器:基于Qwen2-Audio編碼器,高效提取音頻波形中的語(yǔ)義與非語(yǔ)言特征。
指令遵循大語(yǔ)言模型(LLM):選用Qwen3-8B-Instruct,發(fā)揮其強(qiáng)大的文本理解與處理能力,實(shí)現(xiàn)精準(zhǔn)指令解析。
流式語(yǔ)音解碼器:借鑒Minmo與LLaMA-Omni2,采用監(jiān)督語(yǔ)義語(yǔ)音分詞器將語(yǔ)音響應(yīng)離散化為token,隨后通過(guò)自回歸文本到語(yǔ)音模型生成連續(xù)語(yǔ)音token,實(shí)現(xiàn)低延遲流式生成。
Token2Wav解碼器:將生成的語(yǔ)音token轉(zhuǎn)換為最終語(yǔ)音波形,分塊感知因果流匹配模型及HiFi-GAN聲碼器均采用 GLM-4-Voice 中的預(yù)訓(xùn)練組件,保證語(yǔ)音質(zhì)量自然流暢。

圖1 OpenS2S架構(gòu)示意圖
數(shù)據(jù)構(gòu)建過(guò)程包括:首先,利用強(qiáng)大的LLMs生成多樣化且富有共情色彩的用戶查詢及其對(duì)應(yīng)的回應(yīng),確保了對(duì)話內(nèi)容的豐富性和真實(shí)性。接著,通過(guò)引入語(yǔ)音克隆技術(shù),進(jìn)一步豐富了數(shù)據(jù)集的語(yǔ)音多樣性,使其能夠模擬不同說(shuō)話者的聲音。更進(jìn)一步,借助InstructTTS技術(shù),模型能夠?qū)φZ(yǔ)音回應(yīng)中的情感表達(dá)進(jìn)行精確控制,使合成的語(yǔ)音不僅語(yǔ)義連貫,更能在情感層面自然地傳遞共情。通過(guò)這一自動(dòng)化流程,OpenS2S實(shí)現(xiàn)了以極低的成本合成出大量高質(zhì)量、具備語(yǔ)言多樣性的共情語(yǔ)音對(duì)話數(shù)據(jù),并且僅需少量人工監(jiān)督,從而為模型學(xué)習(xí)富有共情的人機(jī)交互提供了堅(jiān)實(shí)且可擴(kuò)展的訓(xùn)練基礎(chǔ)。
訓(xùn)練流程分為三階段:語(yǔ)音理解預(yù)訓(xùn)練、語(yǔ)音生成預(yù)訓(xùn)練及共情語(yǔ)音指令微調(diào),全面提升模型對(duì)語(yǔ)音語(yǔ)義和非語(yǔ)言線索的感知能力,最終實(shí)現(xiàn)自然且富有共情的語(yǔ)音響應(yīng)生成。
實(shí)驗(yàn)結(jié)果
端到端語(yǔ)音到語(yǔ)音共情交互相對(duì)難以評(píng)測(cè),我們按照兩階段的方式,先進(jìn)行語(yǔ)音到文本的評(píng)測(cè),再展示語(yǔ)音到語(yǔ)音的共情交互樣例。
語(yǔ)音到文本評(píng)測(cè)能夠驗(yàn)證模型的語(yǔ)音指令遵循能力、語(yǔ)義和情感理解能力。在語(yǔ)音到文本的交互能力評(píng)估中,OpenS2S在VoiceBench的四個(gè)子集上取得了優(yōu)異成績(jī),其表現(xiàn)僅次于Kimi-Audio(基于超大規(guī)模語(yǔ)音數(shù)據(jù)訓(xùn)練),優(yōu)于其他所有模型。這表明OpenS2S擁有強(qiáng)大的語(yǔ)音交互能力,能夠高效理解用戶的語(yǔ)音指令輸入。此外,在URO-Bench的共情評(píng)估子集上,盡管訓(xùn)練數(shù)據(jù)量遠(yuǎn)少于現(xiàn)有最先進(jìn)模型,OpenS2S依然取得了很好的表現(xiàn)。這不僅驗(yàn)證了OpenS2S的共情交互能力,也充分體現(xiàn)了其創(chuàng)新共情語(yǔ)音對(duì)話數(shù)據(jù)生成方法的高質(zhì)量和有效性。
https://casia-lm.github.io/OpenS2S上,我們展示了若干語(yǔ)音到語(yǔ)音的共情對(duì)話樣例。從例子中,我們可以深切感受到模型對(duì)于用戶的精準(zhǔn)理解和共情能力。
OpenS2S的推出,開創(chuàng)了大模型共情語(yǔ)音對(duì)話能力構(gòu)建的高效且透明的新路徑。憑借自動(dòng)化數(shù)據(jù)構(gòu)建流程與先進(jìn)模型架構(gòu),OpenS2S在多語(yǔ)言、多任務(wù)場(chǎng)景中展現(xiàn)了優(yōu)秀性能。這一突破不僅推動(dòng)了共情語(yǔ)音語(yǔ)言大模型的發(fā)展,更為構(gòu)建智能化、富有人情味的AI交互系統(tǒng)奠定了堅(jiān)實(shí)的技術(shù)基礎(chǔ)與研究范式。
論文標(biāo)題:OpenS2S: Advancing Fully Open-Source End-to-End Empathetic Large Speech Language Model
我要收藏
點(diǎn)個(gè)贊吧
轉(zhuǎn)發(fā)分享
咨詢?cè)斍椋?/strong>如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情,請(qǐng)加微信:ZiDongHuaX 。
微信聯(lián)盟:人工智能微信群、大模型微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語(yǔ)
微信聯(lián)盟:人工智能微信群、大模型微信群,各細(xì)分行業(yè)微信群:點(diǎn)擊這里進(jìn)入。
鴻達(dá)安視:水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器 查看各品牌在細(xì)分領(lǐng)域的定位宣傳語(yǔ)


評(píng)論排行