紫東太初聯(lián)合長(zhǎng)城汽車開源OpenS2S: 完全透明開源的端到端共情語(yǔ)音語(yǔ)言大模型

時(shí)間：2025-07-17 13:32:05 發(fā)布：tgy 來(lái)源：中科紫東太初第一對(duì)焦：紫東太初

　　【ZiDongHua 之“汽車產(chǎn)業(yè)鏈”收錄關(guān)鍵詞：紫東太初人工智能大模型】

　　紫東太初聯(lián)合長(zhǎng)城汽車開源OpenS2S: 完全透明開源的端到端共情語(yǔ)音語(yǔ)言大模型

　　GPT-4o、Gemini等大模型展現(xiàn)出卓越的語(yǔ)音共情對(duì)話能力，其情感與智能的協(xié)同發(fā)展不斷推動(dòng)通用人工智能（AGI）的前沿進(jìn)展。然而，這些模型雖然具備強(qiáng)大的能力，但由于其技術(shù)體系完全閉源，極大地限制了學(xué)術(shù)界和產(chǎn)業(yè)界對(duì)于情智兼?zhèn)浯竽Ｐ?，尤其是共情交互能力的深入研究與持續(xù)創(chuàng)新。過(guò)去一年，學(xué)術(shù)界與工業(yè)界相繼提出了多種語(yǔ)音共情交互（Empathetic Interaction）的方法，其中部分工作發(fā)布了技術(shù)報(bào)告，開放了模型參數(shù)，或開源了微調(diào)代碼，為推動(dòng)語(yǔ)音共情交互技術(shù)的發(fā)展發(fā)揮了重要作用。然而，從“可完全復(fù)現(xiàn)”的角度來(lái)看，當(dāng)前的開源仍然有限，尚無(wú)法讓研究者全面了解這些模型是如何被逐步構(gòu)建與訓(xùn)練成功的。

　　為了追求極致的開源開放，紫東太初團(tuán)隊(duì)聯(lián)合長(zhǎng)城汽車AI Lab，提出了OpenS2S——一個(gè)完全透明開源的端到端共情語(yǔ)音語(yǔ)言大模型，旨在推動(dòng)共情語(yǔ)音交互領(lǐng)域的開放研究與技術(shù)創(chuàng)新。

　　OpenS2S的核心在于提供一個(gè)高效、低成本構(gòu)建共情語(yǔ)音系統(tǒng)的新范式。它不僅繼承了團(tuán)隊(duì)在語(yǔ)音到文本共情模型BLSP-Emo上的技術(shù)積累，更引入了流式交錯(cuò)解碼架構(gòu)，實(shí)現(xiàn)了低延遲的實(shí)時(shí)語(yǔ)音生成。OpenS2S提出自動(dòng)化數(shù)據(jù)生成方法，結(jié)合大語(yǔ)言模型與可控文本到語(yǔ)音生成技術(shù)，構(gòu)建多說(shuō)話者、多情感的高質(zhì)量共情語(yǔ)音訓(xùn)練語(yǔ)料。最為重要的是，我們開源了構(gòu)建OpenS2S所需的所有資源，包括：訓(xùn)練與微調(diào)數(shù)據(jù)集、數(shù)據(jù)構(gòu)建代碼、模型權(quán)重以及預(yù)訓(xùn)練和微調(diào)代碼，致力于賦能更廣泛的研究社區(qū)，推動(dòng)共情語(yǔ)音系統(tǒng)領(lǐng)域的創(chuàng)新與發(fā)展。

　　表1 語(yǔ)音語(yǔ)言大模型的開源程度

　　OpenS2S 的核心貢獻(xiàn)

　　1.模型的構(gòu)建與訓(xùn)練

　　OpenS2S 基于先進(jìn)的框架構(gòu)建了高效的端到端語(yǔ)音到語(yǔ)音共情對(duì)話模型，并使用高質(zhì)量數(shù)據(jù)進(jìn)行訓(xùn)練。該模型能夠?yàn)槿祟惻c人工智能提供更便捷、更自然的交互方式。

　　2.共情語(yǔ)音指令數(shù)據(jù)集的自動(dòng)化構(gòu)建

　　OpenS2S提出了一種自動(dòng)化的數(shù)據(jù)增強(qiáng)方法，融合了大語(yǔ)言模型（LLMs）與文本到語(yǔ)音（TTS）技術(shù)的優(yōu)勢(shì)，專為共情語(yǔ)音對(duì)話而設(shè)計(jì)。借助LLMs生成豐富多樣的用戶提問(wèn)與共情回應(yīng)，再通過(guò)語(yǔ)音克隆技術(shù)確保說(shuō)話者身份的多樣性。更重要的是，該技術(shù)實(shí)現(xiàn)了對(duì)語(yǔ)音情感表達(dá)的精準(zhǔn)控制，使得我們能夠以極低的人力成本，構(gòu)建出內(nèi)容豐富、高質(zhì)量的訓(xùn)練數(shù)據(jù)集，為共情語(yǔ)音系統(tǒng)的發(fā)展注入強(qiáng)大動(dòng)力。

　　3.全面開源發(fā)布

　　為促進(jìn)學(xué)術(shù)合作與推動(dòng)共情大規(guī)模語(yǔ)音語(yǔ)言模型（LSLMs）領(lǐng)域的快速創(chuàng)新，OpenS2S完整開源了所有核心資源。包括模型權(quán)重、數(shù)據(jù)集構(gòu)建代碼、預(yù)訓(xùn)練與微調(diào)代碼、評(píng)估工具及合成數(shù)據(jù)集，致力于為研究社區(qū)提供完全透明、可復(fù)現(xiàn)的研究基礎(chǔ)，助力共情語(yǔ)音技術(shù)的持續(xù)突破。

　　OpenS2S 技術(shù)方案

　　OpenS2S 采用模塊化設(shè)計(jì)，包含四大核心組件：

　　音頻編碼器：基于Qwen2-Audio編碼器，高效提取音頻波形中的語(yǔ)義與非語(yǔ)言特征。

　　指令遵循大語(yǔ)言模型（LLM）：選用Qwen3-8B-Instruct，發(fā)揮其強(qiáng)大的文本理解與處理能力，實(shí)現(xiàn)精準(zhǔn)指令解析。

　　流式語(yǔ)音解碼器：借鑒Minmo與LLaMA-Omni2，采用監(jiān)督語(yǔ)義語(yǔ)音分詞器將語(yǔ)音響應(yīng)離散化為token，隨后通過(guò)自回歸文本到語(yǔ)音模型生成連續(xù)語(yǔ)音token，實(shí)現(xiàn)低延遲流式生成。

　　Token2Wav解碼器：將生成的語(yǔ)音token轉(zhuǎn)換為最終語(yǔ)音波形，分塊感知因果流匹配模型及HiFi-GAN聲碼器均采用 GLM-4-Voice 中的預(yù)訓(xùn)練組件，保證語(yǔ)音質(zhì)量自然流暢。

　　圖1 OpenS2S架構(gòu)示意圖

　　數(shù)據(jù)構(gòu)建過(guò)程包括：首先，利用強(qiáng)大的LLMs生成多樣化且富有共情色彩的用戶查詢及其對(duì)應(yīng)的回應(yīng)，確保了對(duì)話內(nèi)容的豐富性和真實(shí)性。接著，通過(guò)引入語(yǔ)音克隆技術(shù)，進(jìn)一步豐富了數(shù)據(jù)集的語(yǔ)音多樣性，使其能夠模擬不同說(shuō)話者的聲音。更進(jìn)一步，借助InstructTTS技術(shù)，模型能夠?qū)φZ(yǔ)音回應(yīng)中的情感表達(dá)進(jìn)行精確控制，使合成的語(yǔ)音不僅語(yǔ)義連貫，更能在情感層面自然地傳遞共情。通過(guò)這一自動(dòng)化流程，OpenS2S實(shí)現(xiàn)了以極低的成本合成出大量高質(zhì)量、具備語(yǔ)言多樣性的共情語(yǔ)音對(duì)話數(shù)據(jù)，并且僅需少量人工監(jiān)督，從而為模型學(xué)習(xí)富有共情的人機(jī)交互提供了堅(jiān)實(shí)且可擴(kuò)展的訓(xùn)練基礎(chǔ)。

　　訓(xùn)練流程分為三階段：語(yǔ)音理解預(yù)訓(xùn)練、語(yǔ)音生成預(yù)訓(xùn)練及共情語(yǔ)音指令微調(diào)，全面提升模型對(duì)語(yǔ)音語(yǔ)義和非語(yǔ)言線索的感知能力，最終實(shí)現(xiàn)自然且富有共情的語(yǔ)音響應(yīng)生成。

　　實(shí)驗(yàn)結(jié)果

　　端到端語(yǔ)音到語(yǔ)音共情交互相對(duì)難以評(píng)測(cè)，我們按照兩階段的方式，先進(jìn)行語(yǔ)音到文本的評(píng)測(cè)，再展示語(yǔ)音到語(yǔ)音的共情交互樣例。

　　語(yǔ)音到文本評(píng)測(cè)能夠驗(yàn)證模型的語(yǔ)音指令遵循能力、語(yǔ)義和情感理解能力。在語(yǔ)音到文本的交互能力評(píng)估中，OpenS2S在VoiceBench的四個(gè)子集上取得了優(yōu)異成績(jī)，其表現(xiàn)僅次于Kimi-Audio（基于超大規(guī)模語(yǔ)音數(shù)據(jù)訓(xùn)練），優(yōu)于其他所有模型。這表明OpenS2S擁有強(qiáng)大的語(yǔ)音交互能力，能夠高效理解用戶的語(yǔ)音指令輸入。此外，在URO-Bench的共情評(píng)估子集上，盡管訓(xùn)練數(shù)據(jù)量遠(yuǎn)少于現(xiàn)有最先進(jìn)模型，OpenS2S依然取得了很好的表現(xiàn)。這不僅驗(yàn)證了OpenS2S的共情交互能力，也充分體現(xiàn)了其創(chuàng)新共情語(yǔ)音對(duì)話數(shù)據(jù)生成方法的高質(zhì)量和有效性。

　　https://casia-lm.github.io/OpenS2S上，我們展示了若干語(yǔ)音到語(yǔ)音的共情對(duì)話樣例。從例子中，我們可以深切感受到模型對(duì)于用戶的精準(zhǔn)理解和共情能力。

　　OpenS2S的推出，開創(chuàng)了大模型共情語(yǔ)音對(duì)話能力構(gòu)建的高效且透明的新路徑。憑借自動(dòng)化數(shù)據(jù)構(gòu)建流程與先進(jìn)模型架構(gòu)，OpenS2S在多語(yǔ)言、多任務(wù)場(chǎng)景中展現(xiàn)了優(yōu)秀性能。這一突破不僅推動(dòng)了共情語(yǔ)音語(yǔ)言大模型的發(fā)展，更為構(gòu)建智能化、富有人情味的AI交互系統(tǒng)奠定了堅(jiān)實(shí)的技術(shù)基礎(chǔ)與研究范式。

　　論文標(biāo)題：OpenS2S: Advancing Fully Open-Source End-to-End Empathetic Large Speech Language Model

我要收藏

點(diǎn)個(gè)贊吧

自動(dòng)對(duì)焦：人工智能大模型

咨詢?cè)斍椋?/strong>如需咨詢文中涉及的相關(guān)產(chǎn)品或解決方案詳情，請(qǐng)加微信：ZiDongHuaX 。

微信聯(lián)盟：人工智能微信群、大模型微信群，各細(xì)分行業(yè)微信群：點(diǎn)擊這里進(jìn)入。

鴻達(dá)安視：水文水利在線監(jiān)測(cè)儀器、智慧農(nóng)業(yè)在線監(jiān)測(cè)儀器　　　　　　查看各品牌在細(xì)分領(lǐng)域的定位宣傳語(yǔ)

上一篇：博世參與2025年中國(guó)國(guó)際供應(yīng)鏈促進(jìn)博覽會(huì)
下一篇：安徽汽車、新能源汽車產(chǎn)量均全國(guó)第一 | 世界制造業(yè)大會(huì)9月將舉行

評(píng)論排行

智慧水務(wù)與傳感器(7)

自動(dòng)化網(wǎng)誠(chéng)征自動(dòng)化科技賦能高質(zhì)量發(fā)展解決方案(3)

深耕應(yīng)用，兆易創(chuàng)新攜全系產(chǎn)品和行業(yè)解決方案亮相慕尼黑電子展(3)

恒力集團(tuán)董事長(zhǎng)陳建華：致力于打造全球行業(yè)標(biāo)桿，為國(guó)家的經(jīng)濟(jì)高質(zhì)量發(fā)展貢獻(xiàn)更大力量|上海電氣集團(tuán)黨委書記、董事長(zhǎng)吳磊來(lái)訪(3)

推好品牌觀察：西門子在滬設(shè)立其中國(guó)首個(gè)智能基礎(chǔ)設(shè)施數(shù)字化賦能中心(2)

黑芝麻智能發(fā)布華山開發(fā)者計(jì)劃高質(zhì)量賦能多元應(yīng)用場(chǎng)景(2)

WOODHEAD通訊卡備品備件：Applicom International PCU1500S7 PCU 1500 S7 V4.5.0(2)

安森美和上能電氣攜手引領(lǐng)可持續(xù)能源應(yīng)用的發(fā)展兩家公司合作開發(fā)高性能儲(chǔ)能和太陽(yáng)能組串式逆變器方案以實(shí)現(xiàn)可持續(xù)的未來(lái)(2)

【6.15-16日】2023第八屆中國(guó)數(shù)字供應(yīng)鏈創(chuàng)新峰會(huì),演講大咖陣容官宣(2)

LS伺服電機(jī)APM-SB02ADK(2)

Kepware 工業(yè)數(shù)據(jù)采集軟件及常見(jiàn)問(wèn)題解答(2)

中國(guó)首款高血壓介入治療器械正式獲批上市(2)

維視教育大咖年終講：打造智能制造人才培養(yǎng)體系(1)

白鶴灘水電站全部機(jī)組投產(chǎn)發(fā)電世界最大清潔能源走廊全面建成|將為建設(shè)新型能源體系、保障國(guó)家能源安全、實(shí)現(xiàn)“雙碳”目標(biāo)提供有力支撐(1)

推好細(xì)分產(chǎn)業(yè)觀察--物聯(lián)網(wǎng)：2026年中國(guó)物聯(lián)網(wǎng)市場(chǎng)規(guī)模接近3000億美元智慧工廠、智慧城市、智慧電網(wǎng)等將占60%以上(1)

加大在用計(jì)量器具、試驗(yàn)檢測(cè)設(shè)備的自動(dòng)化、數(shù)字化改造力度|市場(chǎng)監(jiān)管總局工業(yè)和信息化部關(guān)于促進(jìn)企業(yè)計(jì)量能力提升的指導(dǎo)意見(jiàn)(1)

全國(guó)首套自動(dòng)化虛擬電廠系統(tǒng)在深圳試運(yùn)行功能匹敵大型電廠，已入選國(guó)際典型案例(1)

自動(dòng)化科技將在鄉(xiāng)村振興工作中大有作為|《關(guān)于做好2023年全面推進(jìn)鄉(xiāng)村振興重點(diǎn)工作的意見(jiàn)》發(fā)布(1)

ECG-E30 邊緣計(jì)算網(wǎng)關(guān)及典型應(yīng)用場(chǎng)景 | 工業(yè)級(jí)嵌入式AI計(jì)算機(jī) ，嵌入式無(wú)風(fēng)扇工業(yè)計(jì)算機(jī)(1)

將充分調(diào)動(dòng)超級(jí)自動(dòng)化各技術(shù)領(lǐng)域?qū)＜屹Y源|中國(guó)信通院“超級(jí)自動(dòng)化平臺(tái)”標(biāo)準(zhǔn)研制工作正在進(jìn)行中(1)

相關(guān)文章

端到端智能駕駛數(shù)據(jù)閉環(huán)：亮道智能在中德智能網(wǎng)聯(lián)汽車協(xié)同發(fā)展中的技術(shù)實(shí)踐

浙江省智能網(wǎng)聯(lián)汽車創(chuàng)新中心承辦機(jī)器人與汽車產(chǎn)業(yè)協(xié)同發(fā)展大會(huì)

德賽西威主導(dǎo)首次國(guó)家標(biāo)準(zhǔn)車載毫米波雷達(dá)制定會(huì)議

文遠(yuǎn)知行發(fā)布一段式端到端輔助駕駛解決方案，將在2025年內(nèi)量產(chǎn)上車

經(jīng)緯恒潤(rùn)電池配電管理單元量產(chǎn)萬(wàn)臺(tái)里程碑，三方聚力打造行業(yè)標(biāo)桿

智能化賽道的“雙向奔赴”，德賽西威與東風(fēng)汽車簽署戰(zhàn)略協(xié)議

搭載RoboSense 520線超級(jí)激光雷達(dá)，新一代智己LS6全面進(jìn)化

長(zhǎng)城汽車巴西工廠盛大開業(yè) 巴西總統(tǒng)盧拉出席

禾賽獲得豐田汽車旗下品牌激光雷達(dá)定點(diǎn)，2026年開啟量產(chǎn)

意法半導(dǎo)體新能源汽車創(chuàng)新中心：以全芯實(shí)力共塑中國(guó)智能汽車產(chǎn)業(yè)新未來(lái)

剛剛，東風(fēng)汽車與京東集團(tuán)達(dá)成戰(zhàn)略合作

經(jīng)緯恒潤(rùn)新一代車身域控全系標(biāo)配福田戴姆勒銀河重卡

共探AI技術(shù)深度應(yīng)用路徑，推動(dòng)汽車產(chǎn)業(yè)組織模式創(chuàng)新，WNEVC 2025專題論壇預(yù)告⑦

北京市長(zhǎng)殷勇圍繞推動(dòng)新能源汽車產(chǎn)業(yè)發(fā)展到順義區(qū)調(diào)研|做大做強(qiáng)京津冀智能網(wǎng)聯(lián)新能源汽車產(chǎn)業(yè)集群

臨港汽車軟件聯(lián)盟舉辦首場(chǎng)技術(shù)沙龍共商AI賦能智能汽車OS新范式

智能電池管理增強(qiáng)電動(dòng)汽車購(gòu)買者信心|半導(dǎo)體自動(dòng)測(cè)試設(shè)備通過(guò)實(shí)現(xiàn)更高精度的單電芯級(jí)監(jiān)控

《2025中國(guó)汽車芯片供給手冊(cè)》將于9月在無(wú)錫正式發(fā)布

力控汽車零部件沖壓MES系統(tǒng)方案，助力汽車生產(chǎn)智造升級(jí)

2030年CMOS圖像傳感器市場(chǎng)將突破300億美元：智能手機(jī)與汽車電子驅(qū)動(dòng)行業(yè)新增長(zhǎng)

青軟青之獲吉利汽車實(shí)驗(yàn)室“優(yōu)秀數(shù)字化項(xiàng)目合作伙伴”殊榮

美国肥婆操逼视频|浮力影院草草国产|久久久久国产无码|亚洲精品国产久久|亚洲婷婷免费观看|52AV免费52|人妖系列一区二区|丁香五月久久无码|婷婷丁香久久婷婷|国语对白真实自拍

紫東太初聯(lián)合長(zhǎng)城汽車開源OpenS2S: 完全透明開源的端到端共情語(yǔ)音語(yǔ)言大模型

欄目推薦（1）

信息排行更多

熱點(diǎn)話題更多

紫東太初團(tuán)隊(duì)獲ACL 2025 SAC Highlights獎(jiǎng) ！讓視覺(jué)語(yǔ)言模型學(xué)會(huì)提問(wèn)：消解視覺(jué)問(wèn)答中的模糊性

紫東太初全國(guó)運(yùn)營(yíng)總部落戶光谷，共筑人工智能國(guó)產(chǎn)化發(fā)展新高地

江波龍上?？偛柯涑桑∫愿叨舜鎯?chǔ)"芯"支點(diǎn)鏈動(dòng)全球化布局

霍尼韋爾宣布為計(jì)劃分拆的Solstice Advanced Materials公司提交Form 10注冊(cè)聲明，并將舉行投資者日

話題推薦更多

欄目最新更多

紫東太初聯(lián)合長(zhǎng)城汽車開源OpenS2S: 完全透明開源的端到端共情語(yǔ)音語(yǔ)言大模型

評(píng)論排行

相關(guān)文章

欄目推薦（1）

紫東太初團(tuán)隊(duì)獲ACL 2025 SAC Highlights獎(jiǎng) ！讓視覺(jué)語(yǔ)言模型學(xué)會(huì)提問(wèn)：消解視覺(jué)問(wèn)答中的模糊性

紫東太初全國(guó)運(yùn)營(yíng)總部落戶光谷，共筑人工智能國(guó)產(chǎn)化發(fā)展新高地

江波龍上?？偛柯涑桑∫愿叨舜鎯?chǔ)"芯"支點(diǎn)鏈動(dòng)全球化布局

霍尼韋爾宣布為計(jì)劃分拆的Solstice Advanced Materials公司提交Form 10注冊(cè)聲明，并將舉行投資者日

霍尼韋爾宣布為計(jì)劃分拆的Solstice Advanced Materials公司提交Form 10注冊(cè)聲明，并將舉行投資者日