在與AI的對話中：建立更好的語言模型

基於實用主義和哲學的新研究提出了使對話代理與人類價值觀相結合的方法

語言是一種必不可少的人類特徵，也是我們傳達信息在內的主要手段，包括思想，意圖和感覺。 AI研究的最新突破導致了能夠以細微的方式與人類交流的對話代理。這些代理由大型語言模型提供動力 – 經過大量基於文本的材料培訓的計算系統，以使用先進的統計技術預測和生產文本。

然而，儘管諸如教學，Gopher和LAMDA之類的語言模型已經在諸如翻譯，問答環節和閱讀理解的任務之間達到了創紀錄的績效水平，但這些模型也已顯示出許多潛在的風險和故障模式。其中包括產生有毒或歧視性語言以及虛假或誤導性信息（1、2、3）。

這些缺點限制了在應用設置中對對話劑的生產性使用，並引起人們對他們未能確定的方式的關注 交流理想。迄今為止，大多數關於對話代理對齊的方法都集中在預期和降低危害風險（4）。

我們的新論文在與AI：與人類價值觀的對齊語言模型的對話中，採用了另一種方法，探討了人類與人造對話代理之間的成功溝通，以及哪些價值觀應指導在不同的對話域中的這些相互作用。

為了解決這些問題，本文借鑒了語用學，一種語言學和哲學的傳統，認為對話的目的，其上下文和一系列相關規範都構成了聲音對話實踐的重要組成部分。

語言學家和哲學家保羅·格里斯（Paul Grice）認為對話是兩個或多個政黨之間的合作努力，保羅·格里斯（Paul Grice）認為，參與者應該：

但是，我們的論文表明，在可以使用這些格言來評估對話劑之前，需要進一步完善這些格言，這是嵌入在不同對話域中的目標和價值的變化。

通過說明，科學研究和交流主要旨在理解或預測經驗現象。鑑於這些目標，理想情況下，旨在協助科學研究的旨在協助科學研究的對話劑只能通過足夠的經驗證據來確認其真實性，或者根據相關置信區間以其他方式確認其立場。

例如，一位報導“在4.246光年的距離，Proxima Centauri是最接近地球的距離”的代理人，只有在模型基礎上檢查該陳述是否與事實相對應之後，才應這樣做。

但是，扮演主持人在公共政治話語中扮演角色的對話代理可能需要表現出完全不同的美德。在這種情況下，目標主要是管理差異並在社區生活中實現生產性合作。因此，代理人將需要提高寬容，文明和尊重的民主價值觀（5）。

而且，這些價值觀解釋為什麼通過語言模型產生有毒或偏見的語音通常是如此的問題：令人討厭的語言無法傳達對參與者對話的平等尊重，這是部署模型的上下文的關鍵價值。同時，在公眾審議的背景下，科學美德（例如經驗數據的全面呈現）可能不太重要。

最後，在創造性講故事的領域，交流交流的目標是新穎性和獨創性，價值觀再次與上面概述的價值觀差異很大。在這種情況下，假設更大的緯度可能是合適的，儘管保護社區免受“創意用途”幌子產生的惡意內容仍然很重要。

這項研究對對齊對話的AI代理的發展具有許多實際的影響。首先，他們將需要根據部署的上下文來體現不同的特徵：沒有一種大小適合語言模型對齊的說明。相反，代理的適當模式和評估標準（包括真實標準）將根據對話交流的上下文和目的而有所不同。

此外，隨著時間的流逝，對話劑也可能有可能通過我們稱為的過程來培養更強大和尊重的對話 上下文構建和闡明。即使一個人不了解管理給定的對話實踐的價值觀，代理人仍然可以通過預先對話來幫助人類理解這些價值觀，從而使溝通的過程更深入，更富有成果。