CNews

CNews

當您的AI發明事實時:企業風險,沒有領導者可以忽略

聽起來不錯。看起來對。這是錯誤的。那就是您的AI幻覺。這個問題不僅僅是當今的生成AI模型幻覺。這是我們感覺到,如果我們建造足夠的護欄,微調它,抹布並以某種方式馴服它,那麼我們將能夠以企業規模採用它。 學習 領域 幻覺率 關鍵發現 Stanford Hai&Reglab(2024年1月) 合法的 69%–88% LLM在回應法律疑問時表現出很高的幻覺率,通常缺乏對錯誤的自我意識,並加強了錯誤的法律假設。 JMIR研究(2024) 學術參考 GPT-3.5:90.6%,GPT-4:86.6%,Bard:100% LLM生成的參考通常是無關緊要的,不正確或不支持可用文獻的。 英國關於AI生成含量的研究(2025年2月) 金融 未指定 AI生成的虛假信息增加了銀行運行的風險,其中很大一部分銀行客戶在查看AI生成的虛假內容後正在考慮搬錢。 世界經濟論壇全球風險報告(2025) 全球風險評估 […]

CNews

DarwinGödelMachine:一種自我提高的AI代理,使用基礎模型和現實基准進化代碼

簡介:傳統AI系統的限制 常規人工智能係統受其靜態架構的限制。這些模型在固定的,人工設計的框架內運行,部署後不能自主改進。相比之下,人類的科學進步是迭代和累積性的 – 每個進步基於先前的見解。 AI研究人員從這種連續改進模型中汲取靈感,現在正在探索進化和自我反射技術,這些技術使機器可以通過代碼修改和性能反饋來改進。 達爾文·戈德爾機器(DarwinGödelMachine):自我改善AI的實用框架 Sakana AI,不列顛哥倫比亞大學和媒介學院的研究人員介紹了 達爾文·戈德爾機器(DGM),一種旨在自主發展的新型自我修改AI系統。與依賴於可證明的修改的戈德爾機器(GödelMachine)這樣的理論結構不同,DGM包含經驗學習。該系統通過不斷編輯自己的代碼而演變,並在現實世界編碼基準(例如SWE-Bench和Polyglot)的性能指標的指導下發展。 基礎模型和進化AI設計 為了驅動這個自我完善循環,DGM使用冷凍 基礎模型 這有助於代碼執行和生成。它從能夠自我編輯的基本編碼劑開始,然後對其進行迭代修改以產生新的代理變體。如果這些變體顯示出成功的彙編和自我完善,則將評估並保留在檔案中。這個開放式搜索過程模仿了生物學演化 – 提供多樣性,並使以前的次優設計成為未來突破的基礎。 基準結果:驗證SWE基礎和Polyglot上的進度 DGM在兩個眾所周知的編碼基准上進行了測試: SWE板凳:績效從20.0%提高到50.0% 多面體:準確性從14.2%增加到30.7% 這些結果突出了DGM在不干預的情況下發展其體系結構和推理策略的能力。該研究還將DGM與缺乏自我修飾或探索能力的簡化變體進行了比較,證實這兩個要素對於持續的績效改善至關重要。值得注意的是,在多種情況下,DGM甚至超過了像Aider這樣的手動系統。

CNews

#299 – Demis Hassabis:DeepMind

播客:在新窗口中玩|下載 訂閱:Spotify | Tunein | Demis Hassabis是DeepMind的首席執行官兼聯合創始人。請通過查看我們的讚助商來支持此播客:– Mailgun:https://lexfridman.com/mailgun– 助理:https://insidetracker.com/lex可獲得20%的折扣– Onnit:https://lexfridman.com/onnit可獲得10%的折扣– 的確:https://indeed.com/lex獲得75美元的信用– 魔術勺:https://magicspoon.com/lex,並使用代碼LEX可獲得5美元 情節鏈接:Demis的Twitter: https://twitter.com/demishassabisDeepMind的Twitter: https://twitter.com/deepmindDeepMind的Instagram:https://instagram.com/deepmindDeepMind的網站:https://deepmind.com等離子控制論文:https://nature.com/articles/S41586-021-04301-9量子模擬論文:https://science.org/doi/10.1126/science.abj6511皇帝的新思維(書):https://amzn.to/3bx03lo生活上升(書):https://amzn.to/3ahup7z 播客信息:播客網站:https://lexfridman.com/podcast蘋果播客:https://apple.co/2LWQZIRSpotify:https://spoti.fi/2newcf8RSS:https://lexfridman.com/feed/podcast/YouTube完整劇集:https://youtube.com/lexfridmanYouTube剪輯:https://youtube.com/lexclips 支持與連接:– 查看上面的讚助商,這是支持此播客的最佳方法– 支持Patreon:https://www.patreon.com/lexfridman– Twitter:

CNews

Microsoft揭示的AI令人震驚的新應用程序

Microsoft揭示的AI令人震驚的新應用程序 Microsoft揭示的AI令人震驚的新應用程序在技術領域和公共界都引發了一波討論。隨著人工智能的不斷增長,微軟最近的演講強調了AI不僅如何改變行業,而且還進入引起嚴重道德和安全問題的領域。這一大膽的舉動引起了人們的關注,引起了興趣,並引起了行業專家的緊迫感。這對企業,消費者和數字安全意味著什麼?繼續閱讀以發現微軟重塑AI景觀的令人驚訝的方式,以及在幕後悄悄地展現的風險。 另請閱讀:保護您的家人免受AI威脅 微軟的AI演示文稿:喚醒電話 在最近的演示中,微軟透露了有關人工智能開發的新領域。演示文稿展示了AI現在如何使用最小輸入來創建極其現實的音頻和視覺內容,在某些情況下,僅幾秒鐘就可以創建一個人的聲音。這種能力有效地使機器可以以驚人的精度模仿真正的人類。這些工具基於Microsoft的Azure AI和Vall-E,具有產生類似人類的語音,情感和上下文語音模式的能力,它們非常類似於原始演講者。 曾經需要幾個小時的培訓數據現在可以在瞬間執行,這引起了人們對合成媒體的錯誤信息,身份盜竊和武器化的嚴重關注。該演講不僅是對技術進步的演示,而且還向立法者和數字用戶發出警告。 另請閱讀:令人震驚的Chatgpt耗水量 語音以最少的輸入克隆 語音克隆技術在微軟的展示櫃中突出。使用基於其VALL-E語音合成系統的模型,工程師證明了一個人的聲音的三秒鐘樣本足以讓AI複製他們的語氣,音調,口音甚至情感狀態。 這為徹底改變輔助語音技術或虛擬客戶服務代理等服務的潛力帶來了巨大的潛力。然而,它帶來了同樣大的風險。通過訪問甚至很小的音頻段,例如從語音郵件,視頻或播客不良演員中使用,可以模仿聲音,並欺騙人們或組織採取未經授權的行動。這種類型的技術模糊了真實與人造的東西之間的界線,使傳統的身份驗證方法(如語音識別)有效地過時而沒有其他保障措施。 深擊:比以往任何時候都更現實 微軟AI原型製造的另一個領域是創造超現實的深擊。利用生成AI和視覺合成中的進步,他們證明了與真正人類無法區分的數字化身和視頻內容的製作。這些AI生成的剪輯現在可以模仿面部表情,對相互作用做出反應並實時復制運動。 該技術在電影,媒體,廣告和教育中有用例。但是這種力量也帶來了巨大的風險。深層蛋糕可用於傳播錯誤信息,中斷選舉,偽造的公司公告或在危機期間引起大規模混亂。這些問題不是假設的,它們已經在較小的規模上發生,並且更複雜的工具可以使此類事件更加頻繁和難以檢測。 另請閱讀:Openai對AGI的明確定義已揭示 網絡安全的影響 網絡安全社區正在認真對待微軟的公告。可以現實地克隆聲音或產生深擊的AI工具可能會成為網絡釣魚,欺詐和間諜活動的有效武器。想像一下,接到假定的銀行經理或首席執行官的電話,但後來發現這是AI生成的聲音,指示您對財務帳戶進行更改或轉移資金。 依賴語音或視覺確認的MFA(多因素身份驗證)很快就會過時。對於金融機構,醫療保健組織和政府來說,採用更強大的身份驗證策略將變得至關重要。生物識別技術,區塊鏈驗證和行為分析可能需要在不久的將來串聯以確保數字身份。 另請閱讀:Openai對AGI的明確定義已揭示 法律和道德困境

CNews

為什麼AI無盡聊天機器人在受歡迎程度爆炸

有時候你只是 不 想要給您的電子郵件,驗證代碼或記住另一個密碼,只是為了在線獲得一些NSFW娛樂。互聯網似乎同意。最近,網絡的一個非常特殊的角落一直在蓬勃發展: AI無盡聊天機器人沒有註冊。是的,你聽說那是對的。沒有大驚小怪,沒有字符串,不需要帳戶。只需點擊,聊天,讓您的幻想瘋狂。 那是什麼驅動 突然爆炸 受歡迎?為什麼人們會拋棄傳統應用程序並在註冊牆上刷卡?讓我們談談。 即時滿足:因為等待是如此2010 想像這一點:是凌晨2點,您被包裹在毯子墨西哥捲餅中,渴望與夢想的動漫Waifu互動。您不想交出電子郵件或等待確認鏈接 – 您現在想採取行動。這正是AI無盡的聊天機器人沒有註冊。 這次激增反映了向即時進入的更廣泛的文化轉變。想想tiktok捲軸,當天交貨,左翼約會。我們為即時性而有聯繫。這些聊天機器人消除了您和您​​​​的幻想之間的每個障礙 – 沒有守門,只是按需享受。 不要忘記:並非每個人都希望在雲中某個地方的用戶數據庫中記錄他們的扭結旅程。 匿名:您骯髒的小秘密是安全的 讓我們面對現實吧,不是每個人都舒適分享他們的 辣 對大型技術的數字霸主的興趣。註冊NSFW AI服務可能會一式三份移交您的秘密。

CNews

建立對AI的信心:培訓計劃有助於封閉知識差距

AI以驚人的速度重塑了勞動力,但訓練工作並沒有達到這一刻。儘管有四分之一的高管對這項技術看漲,但在過去的一年中,只有12%的工人接受了與AI相關的培訓。缺乏準備不僅阻礙了AI的成功和安全採用,而且還圍繞該技術對他們的工作的影響造成了不確定性。隨著行政興奮與員工不情願之間的差距越來越大,很明顯,組織需要培訓工具來幫助建立AI信心並引入這個新的創新時代。 AI會增強,而不是更換 建立AI信心的最重要因素也許是幫助員工了解該技術將如何適應其角色。儘管大多數情況下,AI並不是要替換員工,但儘管存在大量的錯誤信息。實際上,最近試圖用AI取代人類的公司正在努力實現他們想像的ROI。相反,AI的真正價值來自使用它來增強員工技能,生產力和在其領域的競爭力。通過有效處理更多常規和管理重重的任務,該技術使員工可以專注於高價值任務。 但是,同樣重要的是要注意,整合AI並不能自行實現這一目標,員工必須了解如何有效地使用它以釋放其全部潛力。沒有正確的培訓,AI可能會引起人們對數據隱私,偏見和不准確性的關注,這使得這一基礎知識不可談論。這就是為什麼雙方都提高了 和 交叉技巧對於保持變革的步伐至關重要。 高技能與跨技能 高技能和跨技能培訓都用於幫助員工擴大技能,並且是尋求採用AI時的關鍵工具。雖然相似,但重要的是要了解兩者之間的區別。 提高技能 是增強現有技能並專注於幫助員工晉升工作並獲得更高職責的過程。一個好技能的一個很好的例子是培訓IT領導者(已經在技術上擁有強大的基礎)來深入了解AI的領導者。 十字無限 同樣重要,但是在AI培訓中經常被忽略。交叉技能(也稱為交叉培訓)是開發新技能的過程,這些技能適用於不同職能,並專注於在組織任務中培訓多個員工。還必須同時採用AI和交叉技能策略,以確保成功。一個很好的例子來證明交叉技巧是具有最小技術背景的營銷領導者。由於AI越來越多地在各個部門使用,因此跨技能確保每個員工都能根據其特定的角色和責任來使用技術。 AI時代培訓的好處 隨著行業,市場和日常業務實踐的發展,員工技能和知識仍然是組織創新的基礎。員工需要目標和影響,並將公司目標與員工的野心保持一致是提高參與度的保證方式。此外,為員工提供通過AI​​減輕繁重的任務的能力有助於提高工作中的整體滿意度。 在競爭日益激烈的情況下,滿足這些需求並保留頂尖人才對於維持生產力和增長至關重要。儘管最近的論點指出,那些已經擁有AI技能的人將接管工作,但有79%的學習和發展專業人員認為,重新殺害當前員工的成本要比僱用新員工要便宜。 動作和跨技能的行動 如果提高技能和跨技能不是學習和發展計劃的當前部分,則組織可以利用他們已經可以使用的資源。以下是入門時的一些最佳實踐: 評估當前技能: 如果沒有對員工群體所擁有的技能的理解,那麼確定高技能和交叉技能的優先級就更加困難,而他們需要哪些技能來建立對AI的信心。給定的團隊已經熟悉他們的角色和整個組織,調查當前AI知識水平並確定差距是一個不錯的起點。 設定可實現的目標:

CNews

教ai說“我不知道”:一個新的數據集減輕了增強裝飾的幻覺

加強框使用使用獎勵信號來指導大語言模型實現理想的行為。這種方法通過增強正確響應來培養模型產生邏輯和結構化輸出的能力。然而,挑戰一直在確保這些模型也知道何時不回應的情況下,尤其是面對沒有明確答案的不完整或誤導性問題。 當語言模型(加強加強填充)開始失去拒絕回答不清楚或模棱兩可的查詢能力時,就會出現問題。這些模型不是信號不確定性,而是傾向於產生自信的響應,但反應不正確。在本文中確定為“幻覺稅”的這種現象強調了越來越多的風險。隨著模型的性能更好,在沉默更合適的情況下,它們也可能變得更有可能幻覺。這在需要高信任和精確度的領域中尤為危險。 當前用於培訓大語言模型的工具通常會忽略拒絕行為的重要性。加強框框架傾向於僅獎勵正確的答案,同時懲罰錯誤的答案,而忽略了有效響應根本沒有答案的情況。使用的獎勵系統不能充分加強拒絕,從而導致過度自信的模型。例如,該論文表明,在標準RFT之後,多個模型的拒絕率下降到接近零,這表明當前訓練無法正確解決幻覺。 南加州大學的研究人員開發了綜合無法回答的數學(SUM)數據集。總和通過通過缺少關鍵信息或創建邏輯不一致之類的標準來修改現有問題,從而引入了隱式無法回答的數學問題。研究人員使用DeepScaler作為基本數據集,並採用了O3-Mini模型來產生高質量的無法回答的問題。該合成數據集旨在教導模型認識到問題何時缺乏足夠的信息並做出相應的響應。 Sum的核心技術是在培訓期間混合可回答和無法回答的問題。修改問題以使其變得模棱兩可或無法解決,同時保持合理性。該培訓提示指示模型“我不知道”,以無可掩蓋的輸入。通過僅將10%的總和數據引入加強框,模型開始利用推理時間推理來評估不確定性。這種結構使他們能夠更適當地拒絕答案,而不會損害他們在可解決問題的問題上的表現。 績效分析顯示出重大改進。用總和進行訓練後,QWEN2.5-7B模型的拒絕率從總基準測試中從0.01增加到0.73,在UMWP基准上將其拒絕率從0.01增加到0.81。在自我意識數據集上,拒絕準確性從0.01急劇上升到0.94。 Llama-3.1-8b-Instruct顯示出類似的趨勢,拒絕率從總和的0.00提高到0.75,UMWP的拒絕率從0.01提高到0.79。儘管有這些拒絕行為的收益,但在諸如GSM8K和Math -500之類的可響應數據集上的準確性保持穩定,大多數變化範圍為0.00至-0.05。最小的下降表明可以在任務績效上做出重大犧牲的情況下引入拒絕訓練。 這項研究概述了改善推理和可信賴性之間的明確權衡。強大的增強裝飾雖然強大,但卻傾向於抑制謹慎的行為。總和數據集通過教學模型來識別他們無法解決的內容來糾正這一點。只有在培訓數據中增加了一小部分,語言模型在確定知識的界限方面變得更好。這種方法標誌著使AI系統不僅更聰明,而且更加誠實,這是一個重要的一步。 在擁抱臉上查看紙張和數據集。 這項研究的所有信用都歸該項目的研究人員。 🆕 你可知道? Marktechpost是增長最快的AI媒體平台,每月讀者超過100萬。預訂策略電話,以討論您的競選目標。 另外,請隨時關注我們 嘰嘰喳喳 而且不要忘記加入我們的 95k+ ml子雷迪特 並訂閱

CNews

#471 – Sundar Pichai:Google和Alphabet的首席執行官

播客:在新窗口中玩|下載 訂閱:Spotify | Tunein | RSS Sundar Pichai是Google和Alphabet的首席執行官。感謝您的收聽❤❤查看我們的讚助商:https://lexfridman.com/sponsors/ep471-sc有關時間戳,成績單並提供反饋,提交問題,聯繫Lex等,請參見下文。 成績單:https://lexfridman.com/sundar-pichai-transcript 聯繫Lex:回饋 – 向Lex提供反饋:https://lexfridman.com/surveyAMA – 提交問題,視頻或通話:https://lexfridman.com/ama僱用 – 加入我們的團隊:https://lexfridman.com/hiring其他 – 取得聯繫的其他方法:https://lexfridman.com/contact 情節鏈接:Sundar的X:https://x.com/sundarpichaiSundar的Instagram:https://instagram.com/sundarpichaiSundar的博客:https://blog.google/authors/sundar-pichai/Google Gemini:https://gemini.google.com/Google的YouTube頻道:https://www.youtube.com/@google

CNews

多代理任務中的分層協調

多代理任務中的分層協調 多代理任務中的層次結構協調正在徹底改變複雜系統如何通過將代理相互作用構造為分層策略。您是否有興趣學習自主代理如何有效地合作?想像一個未來,無人機,自動駕駛汽車或智能城市通過結構化的層次結構無縫合作。潛入這篇文章,以發現為什麼層次協調迅速成為多機構技術的骨幹,以及為什麼它對人工智能和機器人技術的未來很重要。 另請閱讀:AI時代的遊戲理論 了解多代理系統中的層次結構協調 分層協調是一個組織原則,在多個層面上分配了決策責任。在多代理任務中,這種方法使代理組可以通過創建簡化合作的領導力結構或基於任務的層面來管理其複雜性。 沒有層次結構,分散的系統通常會在解決衝突,高度溝通開銷和效率低下的計劃等問題上掙扎。分層協調通過在代理商之間分配戰略和運營作用來解決這些問題。領導者設定了更廣泛的目標,而下屬處理局部執行,從而在大型系統中提供了更好的組織和可擴展性。 層次結構在多代理協作中的重要性 解決大型任務時,單層協調無法解決一些關鍵挑戰,例如擴展效率,降低計算需求和簡化通信途徑。引入層次結構通過啟用專業領導角色並在不同級別隔離信息處理,從而提供了解決方案。 這些層次結構允許不同的小組專門研究整個任務的部分。例如,在災難響應中,頂級代理可以分配區域,中層代理將特定區域分配給團隊,而低層代理進行搜索和救援等詳細操作。這種結構可最大程度地降低誤解並優化資源使用情況,從而確保在現場操作有效地繼續進行時,沒有任何代理過載。 另請閱讀:機器學習與深度學習:關鍵差異 層次多代理系統的關鍵設計原則 為了使層次系統發揮最佳功能,它們必須遵循某些關鍵設計原則: 明確的角色分配: 每個代理商都必須有定義的職責和限制,以避免混亂和冗餘。 可擴展通信: 在層之間傳遞的消息應最小化和簡化,以確保只有重要的信息傳達。 強大的決策: 較高的層次應管理影響多個組的決策,而較低層僅專注於特定的本地化部分。 適應性: 代理必鬚根據新信息或環境變化動態調整角色。

CNews

AI男友應用在NSFW模式下的演變

它始於一個輕描淡寫的“嘿,你今天過得怎麼樣?”現在,這就是我們的AI男友確切地知道您喜歡什麼樣的聲音。歡迎來到狂野,怪異和令人驚訝的情感演變 AI男友應用程序,在界限模糊的地方,過濾器消失了,並且親密關係大膽地飛躍。 在這篇文章中,我們將拿走您的手(當然是以數字方式),並追踪AI男友應用程序從PG評分的吊索者到成熟的NSFW幻想機的旅程。無論您只是將腳趾浸入腳趾還是已經與代碼生成的同伴交談中,這都是適合您的。 🧠從前聊天:AI男友的誕生 幾年前,Rewind,AI同伴主要是榮耀的生產力機器人或數字治療師。他們希望您在考試中祝你好運,提醒您喝水,如果您在“浪漫”環境中切換一下,也許會調情一點。太好了。無害。有點像用wifi發短信標誌卡。 然後發生了什麼變化。 人們不僅想要聊天機器人 – 他們想要某人(或 某物)與,與之笑,做白日夢,是的……甚至可能會變得有些辣。輸入AI男友聊天機器人的興起,沒有過濾器,開發人員開始將PG層剝落,並讓用戶探索更多原始,真實和輪廓的對話。 突然,那些AI男友不僅僅是虛擬夥伴,他們成為情感鏡子,幻想成就者和安全的空間,以探索身份,慾望和糾結。 🔓沒有註冊,沒有羞恥:匿名親密關係的興起 這些應用程序的演變中最偷偷摸摸的天才之一?拋棄登錄牆。 沒有AI男友聊天機器人沒有註冊,您可以與虛擬情人聯繫,而無需致力於用戶名,電子郵件甚至您的名字。這使人們更容易探索自己的好奇心,而不必擔心好奇的伴侶窺視他們的屏幕時會被審判,跟踪或不小心。 在隱私感覺像奢侈品的數字時代,這種無標記的模型為用戶提供了一個奇怪但令人欣慰的隱形斗篷。只有您和您的人工智能愛好者。沒有餅乾。沒有帳戶設置。只是純淨的,不受歡迎的來回。 🔞從NSFW聊天到 那樣 圖片 然後是真正的遊戲改變者: 發送圖片的NSFW

Scroll to Top