8 月 23 日消息,科技媒體 9to5Mac 今天發(fā)布博文,報(bào)道稱蘋果研究團(tuán)隊(duì)開源 SlowFast-LLaVA-1.5 長視頻多模態(tài)大語言模型,在 1B、3B、7B 參數(shù)規(guī)模下,均刷新 LongVideoBench、MLVU 等 SOTA 基準(zhǔn)紀(jì)錄。
當(dāng)前大語言模型在處理和理解視頻方面,通用做法是在 AI 預(yù)訓(xùn)練中集成視頻感知,但這種做法存在以下 3 重局限性:
現(xiàn)有現(xiàn)有模型往往嚴(yán)重依賴長上下文窗口,而處理時(shí)通常會(huì)遇到大量冗余幀,易超出上下文窗口限制,從而丟失信息。
大多數(shù)訓(xùn)練需要復(fù)雜的多階段訓(xùn)練管道(通常使用私有數(shù)據(jù)集),難以重現(xiàn)。
許多模型僅針對(duì)視頻任務(wù)優(yōu)化,限制了在圖像的理解,從而降低通用模型的實(shí)用性。
蘋果公司針對(duì)上述 3 個(gè)局限性,首先研究推出了 SlowFast-LLaVA 開源模型,最大的亮點(diǎn)是創(chuàng)新雙流(two-stream)設(shè)置,其中“慢流”選取少量高分辨率幀捕捉場景細(xì)節(jié),“快流”選取更多低分辨率幀追蹤運(yùn)動(dòng)變化。

蘋果進(jìn)一步在開源模型 SlowFast-LLaVA 模型上,通過微調(diào)圖像模型,進(jìn)一步增強(qiáng)視覺推理能力,再聯(lián)合圖像與視頻訓(xùn)練,保留圖像理解優(yōu)勢(shì),推出了 SlowFast-LLaVA-1.5 版本。
在設(shè)計(jì)上,SF-LLaVA-1.5 將輸入視頻幀數(shù)固定為 128,其中快流 96 幀,慢流 32 幀,適配各種時(shí)長視頻。這種方法雖可能漏掉關(guān)鍵幀或影響播放速度判斷,但顯著降低了計(jì)算和顯存需求。研究團(tuán)隊(duì)指出,可通過引入內(nèi)存優(yōu)化技術(shù)(如隨機(jī)反向傳播)進(jìn)一步改進(jìn),但需解決高顯存占用問題。

測(cè)試顯示,該模型在長視頻基準(zhǔn) LongVideoBench、MLVU 上均取得新紀(jì)錄,而且 1B 版本也能領(lǐng)先競爭對(duì)手。同時(shí),它在知識(shí)問答、數(shù)學(xué)推理、OCR 等圖像相關(guān)任務(wù)上表現(xiàn)出色,實(shí)現(xiàn)視頻與圖像的通用理解能力。

該項(xiàng)目完全基于公開數(shù)據(jù)集訓(xùn)練,方便學(xué)術(shù)與產(chǎn)業(yè)復(fù)現(xiàn),并已在 GitHub 與 Hugging Face 開源。


