清華大學研發LLM4VG基準：用于評估LLM視頻時序定位性能

發布日期：2023-12-29 21:41:47 瀏覽：

IT之家 12 月 29 日消息，大語言模型（LLM）的觸角已經從單純的自然語言處理，擴展到文本、音頻、視頻等多模態領域，而其中一項關鍵就是視頻時序定位（Video Grounding，VG）。

VG 任務的目的基于給定查詢（一句描述），然后在目標視頻段中定位起始和結束時間，核心挑戰在于時間邊界定位的精度。

清華大學研究團隊近日推出了“LLM4VG”基準，這是一個專門設計用于評估 LLM 在 VG 任務中的性能。

此基準考慮了兩種主要策略：第一種涉及直接在文本視頻數據集（VidLLM）上訓練的視頻 LLM，第二種是結合傳統的 LLM 與預訓練的視覺模型。

在第一種策略中，VidLLM 直接處理視頻內容和 VG 任務指令，根據其對文本視頻的訓練輸出預測。

第二種策略更為復雜，涉及 LLM 和視覺描述模型。這些模型生成與 VG 任務指令集成的視頻內容的文本描述，通過精心設計的提示。

這些提示經過專門設計，可以有效地將 VG 的指令與給定的視覺描述結合起來，從而讓 LLM 能夠處理和理解有關任務的視頻內容。

據觀察，VidLLM 盡管直接在視頻內容上進行訓練，但在實現令人滿意的 VG 性能方面仍然存在很大差距。這一發現強調了在訓練中納入更多與時間相關的視頻任務以提高性能的必要性。

而第二種策略優于 VidLLM，為未來的研究指明了一個有希望的方向。該策略主要限制于視覺模型的局限性和提示詞的設計，因此能夠生成詳細且準確的視頻描述后，更精細的圖形模型可以大幅提高 LLM 的 VG 性能。

總之，該研究對 LLM 在 VG 任務中的應用進行了開創性的評估，強調了在模型訓練和提示設計中需要更復雜的方法。

IT之家附上論文參考地址：https://arxiv.org/pdf/2312.14206.pdf

相關推薦