尤物精品国产第一福利三区,久热精品在线,国产一区二区三区黄

8 月 23 日消息，科技媒體 9to5Mac 今天發(fā)布博文，報(bào)道稱蘋果研究團(tuán)隊(duì)開源 SlowFast-LLaVA-1.5 長視頻多模態(tài)大語言模型，在 1B、3B、7B 參數(shù)規(guī)模下，均刷新 LongVideoBench、MLVU 等 SOTA 基準(zhǔn)紀(jì)錄。

當(dāng)前大語言模型在處理和理解視頻方面，通用做法是在 AI 預(yù)訓(xùn)練中集成視頻感知，但這種做法存在以下 3 重局限性：

現(xiàn)有現(xiàn)有模型往往嚴(yán)重依賴長上下文窗口，而處理時(shí)通常會(huì)遇到大量冗余幀，易超出上下文窗口限制，從而丟失信息。

大多數(shù)訓(xùn)練需要復(fù)雜的多階段訓(xùn)練管道（通常使用私有數(shù)據(jù)集），難以重現(xiàn)。

許多模型僅針對(duì)視頻任務(wù)優(yōu)化，限制了在圖像的理解，從而降低通用模型的實(shí)用性。

蘋果公司針對(duì)上述 3 個(gè)局限性，首先研究推出了 SlowFast-LLaVA 開源模型，最大的亮點(diǎn)是創(chuàng)新雙流（two-stream）設(shè)置，其中“慢流”選取少量高分辨率幀捕捉場景細(xì)節(jié)，“快流”選取更多低分辨率幀追蹤運(yùn)動(dòng)變化。

Image: Apple

蘋果進(jìn)一步在開源模型 SlowFast-LLaVA 模型上，通過微調(diào)圖像模型，進(jìn)一步增強(qiáng)視覺推理能力，再聯(lián)合圖像與視頻訓(xùn)練，保留圖像理解優(yōu)勢(shì)，推出了 SlowFast-LLaVA-1.5 版本。

在設(shè)計(jì)上，SF-LLaVA-1.5 將輸入視頻幀數(shù)固定為 128，其中快流 96 幀，慢流 32 幀，適配各種時(shí)長視頻。這種方法雖可能漏掉關(guān)鍵幀或影響播放速度判斷，但顯著降低了計(jì)算和顯存需求。研究團(tuán)隊(duì)指出，可通過引入內(nèi)存優(yōu)化技術(shù)（如隨機(jī)反向傳播）進(jìn)一步改進(jìn)，但需解決高顯存占用問題。

Image: Apple

測(cè)試顯示，該模型在長視頻基準(zhǔn) LongVideoBench、MLVU 上均取得新紀(jì)錄，而且 1B 版本也能領(lǐng)先競爭對(duì)手。同時(shí)，它在知識(shí)問答、數(shù)學(xué)推理、OCR 等圖像相關(guān)任務(wù)上表現(xiàn)出色，實(shí)現(xiàn)視頻與圖像的通用理解能力。

Image: Apple

該項(xiàng)目完全基于公開數(shù)據(jù)集訓(xùn)練，方便學(xué)術(shù)與產(chǎn)業(yè)復(fù)現(xiàn)，并已在 GitHub 與 Hugging Face 開源。

Image: Apple

亚洲国产成人91精品_99视频热这里只有精品免费_精品国产乱码久久久久久虫虫漫画_日韩精品三区

蘋果新AI模型長視頻理解奪冠，小至1B版本也領(lǐng)先對(duì)手

每日活動(dòng)更多>>