測量AI模型中的感知

用於評估基於實際視頻,音頻和文本數據的多模式系統的新基準

從圖靈測試到成像網,基准通過幫助定義研究目標並允許研究人員衡量這些目標的進步,在塑造人工智能(AI)方面發揮了工具作用。在過去的10年中,令人難以置信的突破,例如計算機視覺中的Alexnet和蛋白質折疊中的Alphafold,與使用基準數據集有著密切的聯繫,使研究人員可以對模型設計和培訓選擇進行排名,並迭代以改善模型。隨著我們朝著建立人工通用情報(AGI)的目標而努力,開發了擴展AI模型功能的強大而有效的基準,與開發模型本身一樣重要。

感知 – 通過感官體驗世界的過程 – 是智力的重要組成部分。對世界具有人層感知理解的建築代理是一項核心但具有挑戰性的任務,在機器人技術,自動駕駛汽車,個人助理,醫學成像等方面變得越來越重要。所以今天,我們正在介紹 感知測試,一種使用現實世界視頻的多模式基準測試,以幫助評估模型的感知能力。

開發感知基準

當前在AI研究中使用了許多與感知相關的基準,例如用於視頻動作識別的動力學,音頻事件分類的音頻集,對象跟踪的MOT或用於圖像問答的VQA。這些基准在AI模型架構和培訓方法的構建和開發方式上取得了驚人的進步,但是每個基準都只針對受限制的感知方面:圖像基準分配了時間方面;視覺提問傾向於專注於高級語義場景的理解。對象跟踪任務通常捕獲單個對象的較低級別外觀,例如顏色或紋理。很少有基準測試在音頻和視覺方式上定義任務。

多模型,例如感知者,火烈鳥或Beit-3,旨在成為更一般的感知模型。但是他們的評估是基於多個專業數據集的,因為沒有專用的基準測試。這個過程緩慢,昂貴,並且提供了對記憶等一般感知能力的不完整覆蓋,這使得研究人員很難比較方法。

為了解決其中許多問題,我們創建了一個有目的設計的現實活動視頻的數據集,該視頻根據六種不同類型的任務標記:

  1. 對象跟踪: 視頻早期的對象周圍提供一個框,該模型必須在整個視頻中返回完整的軌道(包括通過遮擋)。
  2. 點跟踪: 在視頻中很早就選擇了一個點,該模型必須在整個視頻中(也通過遮擋)跟踪點。
  3. 時間動作本地化: 該模型必須在時間上定位並分類預定義的操作集。
  4. 時間聲音本地化: 該模型必須在時間上定位並分類一組預定義的聲音。
  5. 多項選擇視頻提問: 有關視頻的文字問題,每個問題都有三個選擇可以選擇答案的選擇。
  6. 接地視頻提問: 有關視頻的文本問題,該模型需要返回一個或多個對象軌道。

我們從在發育心理學中評估兒童的看法以及諸如Cater和Clevrer等合成數據集的方式中汲取了靈感,並設計了37個視頻腳本,每個腳本都有不同的變化以確保數據集的平衡數據集。每種變化都是由至少十幾個眾籌的參與者拍攝的(類似於以前的Charades和一些東西),共有100多名參與者,產生了11,609個視頻,平均長達23秒。

這些視頻顯示了簡單的遊戲或日常活動,這將使我們能夠定義需要以下技能來解決的任務:

  • 語義知識: 測試任務完成,識別對象,動作或聲音等方面。
  • 對物理學的理解: 碰撞,運動,阻塞,空間關係。
  • 時間推理或記憶: 事件的時間順序,隨著時間的推移計數,檢測場景中的變化。
  • 抽象能力: 形狀匹配,相同/不同的概念,模式檢測。

眾包參與者用空間和時間註釋標記了視頻(對象邊界框軌道,點軌道,動作片段,聲音段)。我們的研究團隊為多項選擇和紮根的視頻問題回答任務設計了每個腳本類型的問題,以確保經過測試的技能多樣性,例如,探究反作用或為給定情況提供解釋的能力的問題。每個視頻的相應答案再次由人群參與者提供。

通過感知測試評估多模式系統

我們假設模型已在外部數據集和任務上進行了預訓練。感知測試包括一個小的微調集(20%),模型創建者可以選擇使用該集合,將任務的性質傳達給模型。其餘數據(80%)由公共驗證拆分和持有的測試拆分組成,其中只能通過我們的評估服務器評估性能。

在這裡,我們顯示了評估設置的圖:輸入是視頻和音頻序列,以及任務規範。該任務可以以高級文本形式進行視覺問題回答或低級輸入,例如對象跟踪任務的對象邊界框的坐標。

評估結果在幾個維度上進行了詳細介紹,我們測量了六個計算任務的能力。對於視覺提問任務,我們還提供了跨視頻和推理類型中所示的問題的映射,以回答問題以進行更詳細的分析(有關更多詳細信息,請參見我們的論文)。理想的模型將最大化所有雷達圖和所有維度的分數。這是對模型技能的詳細評估,使我們能夠縮小改進領域的範圍。

在開發基準時,確保視頻中顯示的各種參與者和場景是一個關鍵的考慮因素。為此,我們選擇了來自不同種族和性別的不同國家的參與者,並旨在在每種視頻腳本中具有多種代表性。

了解有關感知測試的更多信息

感知測試基准在這裡公開可用,我們的論文提供了更多詳細信息。排行榜和挑戰服務器也將很快提供。

2022年10月23日,我們將在特拉維夫的歐洲計算機視覺會議(ECCV 2022)舉辦有關一般感知模型的研討會,我們將討論我們的方法,以及如何與其他領先的領導者設計和評估一般的感知模型該領域的專家。

我們希望感知測試能夠激發並指導進一步研究一般感知模型。展望未來,我們希望與多模式研究社區合作,向基準介紹其他註釋,任務,指標甚至新語言。

如果您有興趣貢獻,請通過電子郵件發送conception-test@google.com與我取得聯繫!

Source link

Scroll to Top