任何人都可以使用的異常檢測框架|麻省理工學院新聞

Sarah Alnegheimish的研究興趣位於機器學習與系統工程的交集。她的目標是:使機器學習系統更容易訪問,透明和值得信賴。

Alnegheimish是主要研究科學家Kalyan Veeramachaneni在MIT實驗室的數據與決策系統(LIDS)中的數據與AI小組的博士生。在這裡,她將自己的大部分精力投入開發Orion,這是一個開源,用戶友好的機器學習框架和時間序列庫,該庫能夠在大型工業和運營環境中檢測無主管的異常。

早期影響

她是一位大學教授和教師教育者的女兒,從很小的時候就了解到知識是可以自由分享的。 “我認為在一個高度重視教育的家庭中長大是我想讓機器學習工具訪問的部分原因。” Alnegheimish在開源資源中的個人經歷只會增加她的動力。 “我學會了將可訪問性視為採用的關鍵。要努力為影響而努力,需要由需要它的人訪問和評估新技術。這是進行開源開發的全部目的。”

Alnegheimish在國王沙特大學(KSU)獲得了學士學位。 “我當時是計算機科學專業的第一個隊列。在創建該程序之前,唯一的其他可用專業是IT(信息技術)。”成為第一個隊列的一部分令人興奮,但它帶來了自己獨特的挑戰。 “所有的教師都在教授新材料。成功需要獨立的學習經驗。那是我第一次遇到麻省理工學院的opencourseware:作為自學的資源。”

畢業後不久,阿爾尼格米甚(Alnegheimish)成為沙特阿拉伯國家實驗室的阿卜杜勒齊斯科學技術(KACST)的研究員。通過KACST和MIT的複雜工程系統(CCE)中心,她開始與Veeramachaneni進行研究。當她向麻省理工學院申請研究生院時,他的研究小組是她的最佳選擇。

創建獵戶座

Alnegheimish的主論文的重點是時間序列異常檢測 – 數據中意外行為或模式的識別,這些行為或模式可以為用戶提供重要的信息。例如,網絡流量數據中的異常模式可能是網絡安全威脅的跡象,重型機械中的異常傳感器讀數可以預測潛在的未來故障,監測患者的生命體徵可以幫助減少健康並發症。通過她的碩士研究,阿爾內格米甚(Alnegheimish)首先開始設計獵戶座。

獵戶座使用統計和基於機器學習的模型,這些模型被連續記錄和維護。用戶無需成為機器學習專家即可使用代碼。他們可以分析信號,比較異常檢測方法並研究端到端程序中的異常情況。框架,代碼和數據集都是開源的。

“有了開源,可訪問性和透明度即可直接實現。您對代碼的訪問不受限制,您可以在其中研究模型如何通過理解代碼來工作。我們與Orion提高了透明度:我們將模型中的每個步驟都標記並將其顯示給用戶。” Alnegheimish說,這種透明度有助於使用戶最終自己看到它的可靠性,以便使用戶能夠開始信任該模型。

她說:“我們正在嘗試使用所有這些機器學習算法,並將它們放在一個地方,以便任何人都可以在現場使用我們的模型。” “這不僅是我們在麻省理工學院合作的讚助商。許多公共用戶都使用它。他們來圖書館,安裝並在其數據上運行它。它證明自己是人們找到一些最新方法來檢測異常檢測方法的好來源。”

重新利用用於異常檢測的模型

在她的博士學位上,阿爾內格米甚(Alnegheimish)正在進一步探索使用Orion進行異常檢測的創新方法。她說:“當我剛開始研究時,所有機器學習模型都需要從頭開始培訓您的數據。現在我們可以在一個可以使用預訓練的模型的時候。”使用預訓練的模型可以節省時間和計算成本。不過,挑戰是時間序列異常檢測對他們來說是一項全新的任務。 “從最初的意義上講,這些模型已經接受了預測,但找不到異常,” Alnegheimish說。 “我們通過及時的工程來推動他們的界限,而沒有任何其他培訓。”

由於這些模型已經捕獲了時間序列數據的模式,因此Alnegheimish認為它們已經擁有使它們能夠檢測異常所需的一切。到目前為止,她目前的結果支持這一理論。他們沒有超過對特定數據進行獨立培訓的模型的成功率,但她認為他們有一天會。

可訪問的設計

Alnegheimish詳細談論了她為使Orion更容易獲得的努力。 “在來到麻省理工學院之前,我曾經認為研究的關鍵部分是開發機器學習模型本身或改善其當前狀態。隨著時間的流逝,我意識到,您可以使您的研究易於訪問和適應性的唯一方法是開發使其可訪問的系統。在我的研究生學習過程中,我採取了tandem中我的模型和系統的方法。”

她的系統開發的關鍵要素是找到正確的抽象來與她的模型合作。這些抽象為所有具有簡化組件的模型提供了通用表示。 “任何模型都將具有從原始輸入到所需輸出的一系列步驟。我們已經標準化了輸入和輸出,這使中間可以靈活且流體。到目前為止,我們運行的所有模型都已經能夠將其翻新到我們的抽像中。”在過去的六年中,她使用的抽象穩定且可靠。

同時建立系統和模型的價值可以在阿爾尼格米甚(Alnegheimish)作為導師的工作中看到。她有機會與兩個碩士學生一起贏得了工程學位。 “我向他們展示的只是系統本身和如何使用它的文檔。兩個學生都能夠以我們符合的抽象來開發自己的模型。它重申了我們正在走正確的道路。”

Alnegheimish還研究了大型語言模型(LLM)是否可以用作用戶和系統之間的調解人。她實施的LLM代理可以連接到Orion,而無需用戶了解Orion如何工作的小細節。 “想想chatgpt。您不知道它背後的模型是什麼,但每個人都很容易訪問。”對於她的軟件,用戶只知道兩個命令:適合和檢測。 FIT允許用戶訓練自己的模型,同時檢測使他們能夠檢測異常。

她說:“我試圖做的事情的最終目標是使每個人更容易獲得AI。”到目前為止,獵戶座已達到120,000多次下載,一千多名用戶將存儲庫標記為Github上的最愛之一。 “傳統上,您用來通過引用和紙質出版物來衡量研究的影響。現在,您可以通過開源進行實時採用。”

Source link

Scroll to Top