久久国产精品国产精品国产-青春草在线精品视频-长春欧亚卖场是哪个区-青青草视频在线你懂的-丰满人妻一区二区三区精品高清-国产精品久久久久久无码AV-韩国精品一区二区三区四区-韩国日本在线观看一区二区-av日韩天堂在线播放

發(fā)現(xiàn)者網(wǎng) 手機(jī)網(wǎng)站 站內(nèi)搜索
  • 洞察行業(yè)動(dòng)向,賦能未來市場!發(fā)現(xiàn)者網(wǎng),商業(yè)視角的探索之旅!
發(fā)現(xiàn)商業(yè)評(píng)論 旗下
洞察商業(yè) 啟迪未來

雷軍宣布小米AI創(chuàng)新成果閃耀I(xiàn)CASSP 2026,多領(lǐng)域技術(shù)突破引關(guān)注

   時(shí)間:2026-01-22 15:38 來源:天脈網(wǎng)作者:沈瑾瑜

小米在人工智能領(lǐng)域再次取得重大突破,其多項(xiàng)AI創(chuàng)新成果成功入選國際頂級(jí)學(xué)術(shù)會(huì)議ICASSP 2026。這一全球音頻領(lǐng)域最具權(quán)威性的學(xué)術(shù)盛會(huì)將于今年5月在西班牙巴塞羅那舉行,首次會(huì)議可追溯至1976年美國費(fèi)城。此次入選的成果涵蓋音頻理解、音樂生成評(píng)估、聯(lián)邦學(xué)習(xí)泛化、跨模態(tài)預(yù)訓(xùn)練等多個(gè)前沿方向,展現(xiàn)了小米在AI技術(shù)研發(fā)上的深厚積累。

在音頻理解領(lǐng)域,小米團(tuán)隊(duì)提出的ACAVCaps數(shù)據(jù)集開創(chuàng)了精細(xì)化標(biāo)注新范式。該數(shù)據(jù)集通過多專家模型并行提取聲音事件、音樂特征等元數(shù)據(jù),并引入大語言模型進(jìn)行邏輯整合,使標(biāo)注文本從簡單標(biāo)簽升級(jí)為具備上下文關(guān)系的自然語言。這項(xiàng)創(chuàng)新解決了傳統(tǒng)數(shù)據(jù)集"規(guī)模大但描述簡略"或"描述詳盡但規(guī)模受限"的矛盾,包含約470萬條音頻-文本對(duì),近期將全面開源。研究團(tuán)隊(duì)表示,這將推動(dòng)音頻AI從特征識(shí)別向語義理解躍遷。

聯(lián)邦學(xué)習(xí)領(lǐng)域迎來重要突破,小米提出的FedDCG框架首次在聯(lián)邦學(xué)習(xí)設(shè)置下聯(lián)合解決類別和域泛化問題。該框架通過域分組策略避免決策邊界混淆,采用類特定協(xié)作訓(xùn)練機(jī)制增強(qiáng)模型魯棒性。實(shí)驗(yàn)數(shù)據(jù)顯示,在Office-Home數(shù)據(jù)集上訓(xùn)練的模型在ImageNet-R測試中準(zhǔn)確率達(dá)70.30%,較次優(yōu)方法提升近3個(gè)百分點(diǎn)。這項(xiàng)技術(shù)特別適用于跨域圖像分類和隱私保護(hù)場景,為移動(dòng)端智能處理提供了高效解決方案。

音樂生成評(píng)估領(lǐng)域,小米研發(fā)的FUSEMOS雙編碼器架構(gòu)實(shí)現(xiàn)了感知評(píng)估的質(zhì)的飛躍。該架構(gòu)融合CLAP的語義對(duì)齊能力和MERT的音樂結(jié)構(gòu)建模能力,通過晚期融合策略保留模態(tài)獨(dú)立性,并引入排名感知復(fù)合損失函數(shù)。在Musiceval基準(zhǔn)測試中,新方法在均方誤差和排序相關(guān)性等關(guān)鍵指標(biāo)上顯著優(yōu)于現(xiàn)有技術(shù),為文本到音樂生成系統(tǒng)提供了更貼近人類聽覺的評(píng)估標(biāo)準(zhǔn)。

跨模態(tài)預(yù)訓(xùn)練方面,GLAP模型實(shí)現(xiàn)了跨音頻領(lǐng)域與跨語言的雙重突破。該模型通過單一框架同時(shí)優(yōu)化語音、音樂及聲音事件的檢索性能,在LibriSpeech英文語音檢索中recall@1達(dá)94%,AISHELL-2中文語音檢索達(dá)99%。更引人注目的是,GLAP具備50種語言的零樣本關(guān)鍵詞識(shí)別能力,可直接賦能小米"人車家全生態(tài)"中的語音交互、多模指令理解等場景,顯著降低下游產(chǎn)品線的研發(fā)門檻。

視頻到音頻合成領(lǐng)域,MeanFlow模型通過平均速度場建模實(shí)現(xiàn)推理效率的革命性提升。該模型摒棄傳統(tǒng)多步迭代采樣,實(shí)現(xiàn)8秒音頻僅需0.056秒的極速生成,同時(shí)保持SOTA級(jí)的音效質(zhì)量。實(shí)驗(yàn)表明,其推理速度較現(xiàn)有方法提升2至500倍,且能自然延伸至文本生音效任務(wù)。這項(xiàng)技術(shù)將為影視配音、短視頻創(chuàng)作、虛擬形象交互等領(lǐng)域帶來實(shí)時(shí)音效生成的新可能。

多模態(tài)檢索領(lǐng)域,小米研發(fā)的統(tǒng)一多任務(wù)學(xué)習(xí)框架實(shí)現(xiàn)了"找圖、找文、意圖理解"的深度整合。該框架通過單個(gè)文本編碼器同時(shí)對(duì)齊圖像和文本語義空間,并引入跨注意力機(jī)制與NLU模型交互。實(shí)驗(yàn)顯示,新方法在多語言測試中平均召回率達(dá)93.3%-94.8%,較主流模型提升1.1%-2.7個(gè)百分點(diǎn),同時(shí)將模型復(fù)雜度降低40%以上,為手機(jī)場景下的多模態(tài)檢索提供了輕量化解決方案。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容