在美國東北部,緬因州的灣代表了地球上生物學上最多樣化的海洋生態系統之一,這是鯨魚,鯊魚,水母,鯡魚,浮游生物和其他數百種物種的家園。但是,即使這個生態系統支持豐富的生物多樣性,它也正在經歷迅速的環境變化。緬因州的海灣比世界海洋的99%更快,其後果仍在發展。
MIT Sea Grant開發的一項新的研究計劃,稱為Lobstger,這是通過生成代表來學習海洋生物生物學系統的縮寫 – 將人工智能和水下攝影匯集在一起,以記錄海洋生命容易受到這些變化的影響,並以新的視覺方式與公眾共享。該項目由MIT Sea Grant Keith Ellenbogen和MIT Mechanical Engineering Phd學生Andreapoulos共同領導,該項目探討了生成AI如何通過基於現場的攝影數據來擴展科學講故事。
正如19世紀的相機改變了我們記錄和揭示自然世界的能力一樣,以前所未有的細節捕捉生活,並將遙遠或隱藏的環境帶入視圖中 – 生成的AI標誌著視覺講故事的新邊界。像早期攝影一樣,AI開闢了一個創造性和概念的空間,挑戰了我們如何定義真實性以及我們如何交流科學和藝術觀點。
在Lobstger項目中,僅在Ellenbogen的原始水下照片的精選庫中對生成模型進行培訓 – 每張圖像都採用藝術意圖,技術精確,準確的物種識別和清晰的地理環境製成。通過構建以現實世界觀測為基礎的高質量數據集,該項目確保所產生的圖像保持視覺完整性和生態相關性。此外,Lobstger的模型是使用Mentzelopoulos開發的自定義代碼構建的,以保護過程並免受外部數據或模型的任何潛在偏差的輸出。 Lobstger的生成AI建立在真實攝影的基礎上,擴大了研究人員的視覺詞彙,以加深公眾與自然世界的聯繫。
這種海洋人民(Mola Mola)圖像是由Lobstger的無條件模型產生的。
AI生成的圖像:Keith Ellenbogen,Andreas Mentzelopoulos和Lobstger。
Lobstger的核心是在藝術,科學和技術的交集上運作。該項目借鑒了攝影的視覺語言,海洋科學的觀察性嚴謹性以及生成AI的計算能力。通過團結這些學科,團隊不僅正在開發新的方式來可視化海洋生活,而且還在重新構想如何講述環境故事。這種綜合方法使Lobstger既是研究工具又是一個創造性的實驗,這反映了MIT長期以來的跨學科創新傳統。
眾所周知,新英格蘭沿海水域的水下攝影是很困難的。有限的能見度,旋轉的沉積物,氣泡以及海洋生物的不可預測的運動都構成了持續的挑戰。在過去的幾年中,Ellenbogen在這些挑戰中遇到了這些挑戰,並通過該項目“ Space of Sea:可視化新英格蘭的海洋荒野”,為該地區的生物多樣性建立了全面的記錄。這個大型水下圖像數據集為培訓Lobstger的生成AI模型奠定了基礎。這些圖像涵蓋了各種角度,照明條件和動物行為,從而產生了視覺檔案,既具有藝術性的醒目又具有生物學上的精確性。
圖像通過反向擴散構成:此簡短視頻顯示了使用Lobstger的無條件模型從高斯潛在噪聲到逼真的輸出的掉段軌跡。迭代的去噪聲需要通過訓練有素的神經網絡進行1,000個正向通過。
視頻:Keith Ellenbogen和Andreas Mentzelopoulos / MIT Sea Grant
Lobstger的自定義擴散模型經過訓練,不僅複製了生物多樣性Ellenbogen文檔,還可以復制他用來捕獲它的藝術風格。通過從數千個真正的水下圖像中學習,模型將細顆粒的細節內化,例如自然照明梯度,特定於物種的著色,甚至是由懸浮顆粒和折射陽光所產生的大氣紋理。結果是圖像不僅在視覺上看起來很準確,而且感覺沉浸式和動人。
這些模型都可以無條件地生成新的,合成但科學準確的圖像(即,不需要用戶輸入/指導),並有條件地增強真實照片(即,圖像到圖像生成)。通過將AI集成到攝影工作流程中,Ellenbogen將能夠使用這些工具來恢復濁水中的細節,調整照明以強調關鍵主題,甚至模擬在現場幾乎無法捕獲的場景。該團隊還認為,這種方法可能使其他水下攝影師和圖像編輯受益,面臨類似挑戰。這種混合方法旨在加快策展過程,並使講故事的人能夠構建表面下生活的更完整,更連貫的視覺敘事。
左:使用Lobstger的圖像到圖像模型增強了美國龍蝦的圖像。右:原始圖像。
左:AI由Keith Ellenbogen,Andreas Mentzelopoulos和Lobstger創作的圖像。右:Keith Ellenbogen
在一個關鍵系列中,Ellenbogen捕獲了獅子的鬃毛水母,藍鯊,美國龍蝦和海洋人民的高分辨率圖像(mola mola)在沿海水域中自由潛水。 “獲得高質量的數據集並不容易,” Ellenbogen說。 “它需要多次潛水,錯過的機會和不可預測的條件。但是,這些挑戰是使水下文檔變得困難和有意義的一部分。”
Mentzelopoulos開發了原始代碼,用於訓練以Ellenbogen圖像為基礎的Lobstger的潛在擴散模型家族。開發此類模型需要高水平的技術專業知識,而從頭開始的培訓模型是一個複雜的過程,需要數百小時的計算和細緻的超參數調整。
該項目反映了一個並行過程:通過攝影和模型開發通過迭代培訓進行的現場文檔。 Ellenbogen在該領域工作,捕捉了與海洋動物的稀有而短暫的相遇。 Mentzelopoulos在實驗室工作,將這些瞬間轉化為機器學習的環境,可以擴展和重新解釋海洋的視覺語言。
“目標不是取代攝影,” Mentzelopoulos說。 “這是在基礎上建立和補充 – 使無形的可見可見,並以一種在情感和智力上引起共鳴的方式來幫助人們看到環境複雜性。我們的模型不僅旨在捕捉生物學現實主義,而且還可以推動現實世界的參與和行動。”
Lobstger指出了混合未來,將直接觀察與技術解釋融合在一起。該團隊的長期目標是開發一個綜合模型,該模型可以可視化緬因州海灣中廣泛的物種,並最終將類似的方法應用於世界各地的海洋生態系統。
研究人員認為,攝影和生成性AI形成連續性,而不是衝突。攝影捕獲了實際相遇期間的質地,光和動物行為 – 而AI將願景擴展到了基於科學數據和藝術視覺的可以理解,推斷或想像的東西之外的願景。他們共同提供了一個有力的框架,可以通過圖像製作傳達科學。
在生態系統正在迅速變化的地區,可視化的行為不僅僅是文檔。它成為意識,參與以及最終保護的工具。 Lobstger仍處於起步階段,隨著項目的發展,團隊期待分享更多的發現,圖像和見解。
來自領先圖像的答案:使用Lobstger的無條件模型生成左圖,右圖是真實的。
有關更多信息,請聯繫Keith Ellenbogen和Andreas Mentzelopoulos。