近日,第49屆國(guó)際 ACM SIGIR(ACM SIGIR Conference on Research and Development in Information Retrieval,簡(jiǎn)稱 SIGIR 2026)公布論文錄用結(jié)果。官全龍、方良達(dá)團(tuán)隊(duì)在信息檢索與人工智能領(lǐng)域取得重要進(jìn)展,論文成果“Mitigating Evidence Suppression:Bi-level Active Evidence Injection for Educational Video Understanding”被 SIGIR 2026 Full Papers Track 錄用。SIGIR 2026年錄用率為18.4%。SIGIR是信息檢索與人工智能領(lǐng)域公認(rèn)的國(guó)際頂級(jí)學(xué)術(shù)會(huì)議之一,自1978年由ACM SIGIR主辦,是中國(guó)計(jì)算機(jī)學(xué)會(huì)(CCF)推薦的 A 類國(guó)際學(xué)術(shù)會(huì)議。
大型視覺(jué)語(yǔ)言模型(LVLM)在知識(shí)密集型教育視頻問(wèn)答任務(wù)中具有廣闊應(yīng)用前景,但即使相關(guān)視覺(jué)證據(jù)已經(jīng)存在,模型在實(shí)際回答過(guò)程中仍常常不能充分利用這些關(guān)鍵信息。研究團(tuán)隊(duì)通過(guò)區(qū)域級(jí)分析發(fā)現(xiàn),與干擾信息相比,任務(wù)關(guān)鍵的視覺(jué) token(如圖表等)在編碼器輸出中往往呈現(xiàn)出更低的表征能量,并在后續(xù)解碼過(guò)程中被較少利用,表現(xiàn)出明顯的“證據(jù)抑制”現(xiàn)象。這種現(xiàn)象會(huì)削弱模型對(duì)教育視頻中核心內(nèi)容的理解能力,從而影響回答準(zhǔn)確率。為解決這一問(wèn)題,團(tuán)隊(duì)提出雙層主動(dòng)證據(jù)注入方法(Bi-level Active Evidence Injection,BAEI)。該方法無(wú)需更新大型視覺(jué)語(yǔ)言模型主干參數(shù),而是在解碼階段引入輕量級(jí)注入策略網(wǎng)絡(luò)(Injection Policy Network,IPN),并通過(guò) GRPO 優(yōu)化,實(shí)現(xiàn)對(duì)候選證據(jù) token 的動(dòng)態(tài)選擇和結(jié)構(gòu)化殘差注入。該框架在兩個(gè)層面發(fā)揮作用:在淺層,通過(guò)干預(yù)提升證據(jù)相關(guān)視覺(jué)信號(hào)對(duì)后續(xù)解碼過(guò)程的有效貢獻(xiàn);在深層,則根據(jù)預(yù)測(cè)熵自適應(yīng)地進(jìn)行校正,從而更穩(wěn)定地增強(qiáng)模型對(duì)關(guān)鍵視覺(jué)證據(jù)的利用能力。教育領(lǐng)域基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該方法能夠帶來(lái)穩(wěn)定的性能增益,驗(yàn)證了解碼階段面向證據(jù)信號(hào)進(jìn)行主動(dòng)干預(yù)的有效性。

論文作者是劉成、王一評(píng)、官全龍(通訊作者)、賀超波、朱星諭、方良達(dá)。該研究工作得到了國(guó)家自然科學(xué)基金項(xiàng)目(62377028,62276114,62477016)等項(xiàng)目的支持。
責(zé)編:常凱麗