ImageBind 可以預測六種感官資料之間的連結,未來有機會讓使用者僅需輸入一段文字或影片等,即可生成一個完整且複雜的場景。

Meta 宣布開源 AI 模型 ImageBind ,這是第一個能處理六種不同類型數據,並以接近人類感知環境方式,來預測數據之間關聯的 AI 模型。ImageBind 目前是個在初期階段的框架,尚未有實際應用,但其最終或許有能力讓使用者只需輸入文字、圖像或音檔指令,即可生成完整且複雜的場景。

ImageBind 可被視為將機器學習更推向人類學習模式的一步進展。舉例來說,當人類站在繁忙的街道上,大腦會吸收視覺、聽覺等各種感官體驗,來推斷有關行駛的汽車、行人、高樓大廈、天氣的訊息。當電腦愈來愈擅長模仿動物多種感官間的連結時,即有辦法僅憑有限的數據來生成完整的場景。

目前像 Midjourney 等 AI 圖像生成工具,是在模型訓練階段將文字和圖像兩種數據相互連接,而反觀 ImageBind 則是可進一步連結文字、視覺(包括圖像和影片)、聲音、3D 深度測量、溫度熱像,以及從慣性測量裝置( inertial measuring unit, IMU)所取得的動作數據,這六種感官資料,而且 ImageBind 不需要先針對每種不同數據組合進行訓練。

ImageBind 最終的成果可能是輸入一段描述一隻狗的文字指令後,AI 即能夠生成一段包括了聲音、狗的確切位置、周遭環境細節,以及房間溫度的影片。

這項 AI 進展也與 Meta 的元宇宙計畫息息相關,未來 ImageBind 可應用的場域包括,讓 VR 頭戴式設備可以快速構建完整的 3D 場景;遊戲開發人員可藉 AI 減少開發過程中的繁瑣設計工作;內容創作者則可以創造逼真的動態背景,同時也有機會幫助患有視覺或聽覺障礙的人,以透過各種媒介的描述,助他們感知周圍環境。

Meta 也表示,希望未來可以增加其他感官數據至AI模型中,包括觸覺、語音、嗅覺和腦部 fMRI 訊號等。

資料來源:The Verge、Engadget