聽起來不錯。看起來對。這是錯誤的。那就是您的AI幻覺。這個問題不僅僅是當今的生成AI模型幻覺。這是我們感覺到,如果我們建造足夠的護欄,微調它,抹布並以某種方式馴服它,那麼我們將能夠以企業規模採用它。
學習 | 領域 | 幻覺率 | 關鍵發現 |
---|---|---|---|
Stanford Hai&Reglab(2024年1月) | 合法的 | 69%–88% | LLM在回應法律疑問時表現出很高的幻覺率,通常缺乏對錯誤的自我意識,並加強了錯誤的法律假設。 |
JMIR研究(2024) | 學術參考 | GPT-3.5:90.6%,GPT-4:86.6%,Bard:100% | LLM生成的參考通常是無關緊要的,不正確或不支持可用文獻的。 |
英國關於AI生成含量的研究(2025年2月) | 金融 | 未指定 | AI生成的虛假信息增加了銀行運行的風險,其中很大一部分銀行客戶在查看AI生成的虛假內容後正在考慮搬錢。 |
世界經濟論壇全球風險報告(2025) | 全球風險評估 | 未指定 | 被AI放大的錯誤信息和虛假信息被認為是兩年的全球風險。 |
Vectara幻覺排行榜(2025) | AI模型評估 | GPT-4.5-PREVIEW:1.2%,Google Gemini-2.0-Pro-Exp:0.8%,Vectara Mockingbird-2-Echo:0.9% | 評估了各種LLM的幻覺率,揭示了性能和準確性的顯著差異。 |
Arxiv關於事實幻覺的研究(2024) | AI研究 | 未指定 | 引入了Halueval 2.0,以系統地研究和檢測LLM的幻覺,重點是事實上的不准確性。 |
幻覺率從0.8%到88%
是的,這取決於模型,域,用例和上下文,但是這種傳播應嘎嘎作響任何企業決策者。這些不是邊緣案例錯誤。他們是系統的。在企業中採用AI時,如何進行正確的電話?哪裡,如何,有多深,有多寬?
每天都有新聞源的現實後果的例子。 G20的金融穩定委員會已將生成AI標記為虛假信息的媒介,可能導致市場危機,政治動盪和更糟的崩潰,假新聞和欺詐。在最近報導的另一個故事中,律師事務所摩根和摩根向所有律師發出了緊急備忘錄:不要在不進行檢查的情況下提交AI生成的文件。假案例法是“可大火”的罪行。
這可能不是最佳的幻覺率趨向零的最佳時間。尤其是在受管制的行業中,例如法律,生命科學,資本市場或其他行業,其中錯誤成本可能很高,包括出版高等教育。
幻覺不是四捨五入的錯誤
這不是偶爾的錯誤答案。這是關於的 風險:聲譽,法律,運營。
生成的AI不是推理引擎。這是一個統計整理器,隨機鸚鵡。它根據培訓數據最有可能完成您的提示。甚至是 真正聽起來的部分 是猜測。我們將最荒謬的作品稱為“幻覺”,但整個輸出都是幻覺。一個風格良好的人。儘管如此,它還是神奇地奏效的 – 直到沒有。
AI作為基礎架構
然而,重要的是要說,當我們開始像對待基礎設施一樣對待企業,而不是魔術時,AI將為企業範圍的採用做好準備。在需要的情況下,它必須是透明,可以解釋和可追溯的。而且,如果不是這樣,那麼簡單地說,對於這些用例,它還沒有準備好企業範圍的採用。 如果AI做出決定,則應該在您的董事會雷達上。
歐盟的AI法案在這裡領導了指控。諸如正義,醫療保健和基礎設施之類的高風險領域將像關鍵任務系統一樣受到監管。文檔,測試和解釋性將是強制性的。
什麼企業安全AI模型
專門建立企業安全AI模型的公司做出有意識的決定,以不同的方式構建AI。在他們的替代AI架構中,語言模型未經數據進行訓練,因此它們不會“污染”數據中的任何內容,例如偏見,IP侵權或猜測或幻覺的傾向。
這樣的型號沒有“完成您的思想” – 它們是從用戶那裡推理的 內容。他們的知識基礎。他們的文件。他們的數據。如果答案不存在,這些模型是這樣說的。這就是使這樣的AI模型可以解釋,可追溯,確定性的原因,並且在幻覺是不可接受的地方。
AI問責制的5步劇本
- 映射AI景觀 – AI在您的業務中使用在哪裡?他們影響什麼決定?您能夠將這些決定追溯到可靠的原始材料的透明分析時,您將獲得什麼優質?
- 對齊您的組織 – 根據您的AI部署範圍,設置角色,委員會,流程和審計慣例與財務或網絡安全風險一樣嚴格。
- 將AI帶入董事會級別的風險 – 如果您的AI與客戶或監管機構進行了交談,則屬於您的風險報告。治理不是雜耍。
- 將供應商當作共同負債 – 如果您的供應商的AI使事情成了問題,那麼您仍然擁有後果。將您的AI責任原則擴展到他們。要求文檔,審計權利和SLA,以解釋性和幻覺率。
- 火車懷疑 – 您的團隊應該像初級分析師一樣對待AI – 有用,但並非可靠。慶祝當有人確定幻覺時。必須賺取信任。
AI在企業中的未來 不是更大的模型。需要的是更精確,更透明,更多的信任和更多的問責制。