【ZiDongHua 之“汽車產(chǎn)業(yè)鏈”收錄關鍵詞: 紫東太初 人工智能 大模型】
 
  紫東太初聯(lián)合長城汽車開源OpenS2S: 完全透明開源的端到端共情語音語言大模型
 
  GPT-4o、Gemini等大模型展現(xiàn)出卓越的語音共情對話能力,其情感與智能的協(xié)同發(fā)展不斷推動通用人工智能(AGI)的前沿進展。然而,這些模型雖然具備強大的能力,但由于其技術(shù)體系完全閉源,極大地限制了學術(shù)界和產(chǎn)業(yè)界對于情智兼?zhèn)浯竽P?,尤其是共情交互能力的深入研究與持續(xù)創(chuàng)新。過去一年,學術(shù)界與工業(yè)界相繼提出了多種語音共情交互(Empathetic Interaction)的方法,其中部分工作發(fā)布了技術(shù)報告,開放了模型參數(shù),或開源了微調(diào)代碼,為推動語音共情交互技術(shù)的發(fā)展發(fā)揮了重要作用。然而,從“可完全復現(xiàn)”的角度來看,當前的開源仍然有限,尚無法讓研究者全面了解這些模型是如何被逐步構(gòu)建與訓練成功的。
 
  為了追求極致的開源開放,紫東太初團隊聯(lián)合長城汽車AI Lab,提出了OpenS2S——一個完全透明開源的端到端共情語音語言大模型,旨在推動共情語音交互領域的開放研究與技術(shù)創(chuàng)新。
 
 
  OpenS2S的核心在于提供一個高效、低成本構(gòu)建共情語音系統(tǒng)的新范式。它不僅繼承了團隊在語音到文本共情模型BLSP-Emo上的技術(shù)積累,更引入了流式交錯解碼架構(gòu),實現(xiàn)了低延遲的實時語音生成。OpenS2S提出自動化數(shù)據(jù)生成方法,結(jié)合大語言模型與可控文本到語音生成技術(shù),構(gòu)建多說話者、多情感的高質(zhì)量共情語音訓練語料。最為重要的是,我們開源了構(gòu)建OpenS2S所需的所有資源,包括:訓練與微調(diào)數(shù)據(jù)集、數(shù)據(jù)構(gòu)建代碼、模型權(quán)重以及預訓練和微調(diào)代碼,致力于賦能更廣泛的研究社區(qū),推動共情語音系統(tǒng)領域的創(chuàng)新與發(fā)展。
 
 
  表1 語音語言大模型的開源程度
 
  OpenS2S 的核心貢獻
 
  1.模型的構(gòu)建與訓練
 
  OpenS2S 基于先進的框架構(gòu)建了高效的端到端語音到語音共情對話模型,并使用高質(zhì)量數(shù)據(jù)進行訓練。該模型能夠為人類與人工智能提供更便捷、更自然的交互方式。
 
  2.共情語音指令數(shù)據(jù)集的自動化構(gòu)建
 
  OpenS2S提出了一種自動化的數(shù)據(jù)增強方法,融合了大語言模型(LLMs)與文本到語音(TTS)技術(shù)的優(yōu)勢,專為共情語音對話而設計。借助LLMs生成豐富多樣的用戶提問與共情回應,再通過語音克隆技術(shù)確保說話者身份的多樣性。更重要的是,該技術(shù)實現(xiàn)了對語音情感表達的精準控制,使得我們能夠以極低的人力成本,構(gòu)建出內(nèi)容豐富、高質(zhì)量的訓練數(shù)據(jù)集,為共情語音系統(tǒng)的發(fā)展注入強大動力。
 
  3.全面開源發(fā)布
 
  為促進學術(shù)合作與推動共情大規(guī)模語音語言模型(LSLMs)領域的快速創(chuàng)新,OpenS2S完整開源了所有核心資源。包括模型權(quán)重、數(shù)據(jù)集構(gòu)建代碼、預訓練與微調(diào)代碼、評估工具及合成數(shù)據(jù)集,致力于為研究社區(qū)提供完全透明、可復現(xiàn)的研究基礎,助力共情語音技術(shù)的持續(xù)突破。
 
  OpenS2S 技術(shù)方案
 
  OpenS2S 采用模塊化設計,包含四大核心組件:
 
  音頻編碼器:基于Qwen2-Audio編碼器,高效提取音頻波形中的語義與非語言特征。
 
  指令遵循大語言模型(LLM):選用Qwen3-8B-Instruct,發(fā)揮其強大的文本理解與處理能力,實現(xiàn)精準指令解析。
 
  流式語音解碼器:借鑒Minmo與LLaMA-Omni2,采用監(jiān)督語義語音分詞器將語音響應離散化為token,隨后通過自回歸文本到語音模型生成連續(xù)語音token,實現(xiàn)低延遲流式生成。
 
  Token2Wav解碼器:將生成的語音token轉(zhuǎn)換為最終語音波形,分塊感知因果流匹配模型及HiFi-GAN聲碼器均采用 GLM-4-Voice 中的預訓練組件,保證語音質(zhì)量自然流暢。
 
 
  圖1 OpenS2S架構(gòu)示意圖
 
  數(shù)據(jù)構(gòu)建過程包括:首先,利用強大的LLMs生成多樣化且富有共情色彩的用戶查詢及其對應的回應,確保了對話內(nèi)容的豐富性和真實性。接著,通過引入語音克隆技術(shù),進一步豐富了數(shù)據(jù)集的語音多樣性,使其能夠模擬不同說話者的聲音。更進一步,借助InstructTTS技術(shù),模型能夠?qū)φZ音回應中的情感表達進行精確控制,使合成的語音不僅語義連貫,更能在情感層面自然地傳遞共情。通過這一自動化流程,OpenS2S實現(xiàn)了以極低的成本合成出大量高質(zhì)量、具備語言多樣性的共情語音對話數(shù)據(jù),并且僅需少量人工監(jiān)督,從而為模型學習富有共情的人機交互提供了堅實且可擴展的訓練基礎。
 
  訓練流程分為三階段:語音理解預訓練、語音生成預訓練及共情語音指令微調(diào),全面提升模型對語音語義和非語言線索的感知能力,最終實現(xiàn)自然且富有共情的語音響應生成。
 
  實驗結(jié)果
 
  端到端語音到語音共情交互相對難以評測,我們按照兩階段的方式,先進行語音到文本的評測,再展示語音到語音的共情交互樣例。
 
  語音到文本評測能夠驗證模型的語音指令遵循能力、語義和情感理解能力。在語音到文本的交互能力評估中,OpenS2S在VoiceBench的四個子集上取得了優(yōu)異成績,其表現(xiàn)僅次于Kimi-Audio(基于超大規(guī)模語音數(shù)據(jù)訓練),優(yōu)于其他所有模型。這表明OpenS2S擁有強大的語音交互能力,能夠高效理解用戶的語音指令輸入。此外,在URO-Bench的共情評估子集上,盡管訓練數(shù)據(jù)量遠少于現(xiàn)有最先進模型,OpenS2S依然取得了很好的表現(xiàn)。這不僅驗證了OpenS2S的共情交互能力,也充分體現(xiàn)了其創(chuàng)新共情語音對話數(shù)據(jù)生成方法的高質(zhì)量和有效性。
 
  https://casia-lm.github.io/OpenS2S上,我們展示了若干語音到語音的共情對話樣例。從例子中,我們可以深切感受到模型對于用戶的精準理解和共情能力。
 
  OpenS2S的推出,開創(chuàng)了大模型共情語音對話能力構(gòu)建的高效且透明的新路徑。憑借自動化數(shù)據(jù)構(gòu)建流程與先進模型架構(gòu),OpenS2S在多語言、多任務場景中展現(xiàn)了優(yōu)秀性能。這一突破不僅推動了共情語音語言大模型的發(fā)展,更為構(gòu)建智能化、富有人情味的AI交互系統(tǒng)奠定了堅實的技術(shù)基礎與研究范式。
 
  論文標題:OpenS2S: Advancing Fully Open-Source End-to-End Empathetic Large Speech Language Model