品玩7月7日訊,據(jù)阿里通義大模型官方消息,通義實(shí)驗(yàn)室首個(gè)音頻生成模型 ThinkSound 現(xiàn)已正式開源,將打破“靜音畫面”的想象力局限。
ThinkSound 首次將 CoT(Chain-of-Thought,思維鏈)應(yīng)用到音頻生成領(lǐng)域,讓 AI 學(xué)會(huì)一步步“想清楚”畫面事件與聲音之間的關(guān)系,從而實(shí)現(xiàn)高保真、強(qiáng)同步的空間音頻生成 —— 不只是“看圖配音”,而是真正“聽懂畫面”。
據(jù)悉,AudioCoT 融合了來自 VGGSound、AudioSet、AudioCaps、Freesound 等多個(gè)來源的 2531.8 小時(shí)高質(zhì)量樣本。這些數(shù)據(jù)覆蓋了從動(dòng)物鳴叫、機(jī)械運(yùn)轉(zhuǎn)到環(huán)境音效等多種真實(shí)場景,為模型提供了豐富而多樣化的訓(xùn)練基礎(chǔ)。為了確保每條數(shù)據(jù)都能真正支撐 AI 的結(jié)構(gòu)化推理能力,研究團(tuán)隊(duì)設(shè)計(jì)了一套精細(xì)化的數(shù)據(jù)篩選流程,包括多階段自動(dòng)化質(zhì)量過濾和不少于 5% 的人工抽樣校驗(yàn),層層把關(guān)以保障數(shù)據(jù)集的整體質(zhì)量。
特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))為自媒體平臺“網(wǎng)易號”用戶上傳并發(fā)布,本平臺僅提供信息存儲(chǔ)服務(wù)。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.