臺北醫學大學校級人工智慧醫療研究中心

ImageBind 可以預測六種感官資料之間的連結，未來有機會讓使用者僅需輸入一段文字或影片等，即可生成一個完整且複雜的場景。

Meta 宣布開源 AI 模型 ImageBind ，這是第一個能處理六種不同類型數據，並以接近人類感知環境方式，來預測數據之間關聯的 AI 模型。ImageBind 目前是個在初期階段的框架，尚未有實際應用，但其最終或許有能力讓使用者只需輸入文字、圖像或音檔指令，即可生成完整且複雜的場景。

ImageBind 可被視為將機器學習更推向人類學習模式的一步進展。舉例來說，當人類站在繁忙的街道上，大腦會吸收視覺、聽覺等各種感官體驗，來推斷有關行駛的汽車、行人、高樓大廈、天氣的訊息。當電腦愈來愈擅長模仿動物多種感官間的連結時，即有辦法僅憑有限的數據來生成完整的場景。

目前像 Midjourney 等 AI 圖像生成工具，是在模型訓練階段將文字和圖像兩種數據相互連接，而反觀 ImageBind 則是可進一步連結文字、視覺（包括圖像和影片）、聲音、3D 深度測量、溫度熱像，以及從慣性測量裝置（ inertial measuring unit, IMU）所取得的動作數據，這六種感官資料，而且 ImageBind 不需要先針對每種不同數據組合進行訓練。

ImageBind 最終的成果可能是輸入一段描述一隻狗的文字指令後，AI 即能夠生成一段包括了聲音、狗的確切位置、周遭環境細節，以及房間溫度的影片。

這項 AI 進展也與 Meta 的元宇宙計畫息息相關，未來 ImageBind 可應用的場域包括，讓 VR 頭戴式設備可以快速構建完整的 3D 場景；遊戲開發人員可藉 AI 減少開發過程中的繁瑣設計工作；內容創作者則可以創造逼真的動態背景，同時也有機會幫助患有視覺或聽覺障礙的人，以透過各種媒介的描述，助他們感知周圍環境。

Meta 也表示，希望未來可以增加其他感官數據至AI模型中，包括觸覺、語音、嗅覺和腦部 fMRI 訊號等。

資料來源：The Verge、Engadget

https://www.inside.com.tw/article/31574-meta-opensources-imagebind

台北醫學大學校級人工智慧醫療研究中心

人工智慧醫療發展共識營

Medical AI Brainstorming Monthly Meeting

人工智慧醫療發展共識營

AI 邁向人腦更近一步！Meta 開源 ImageBind 模型，藉 6 種感官數據生完整場景