action

action

DeepSeek:人工智慧發展的新趨勢 DeepSeek:New trend of AI LLM development

#DeepSeek #nvda #輝達 #llm 輝達股價在2月經歷一波修正,主要反映市場對deepseek低成本LLM模型崛起對算力需求的泡沫疑慮。 deepseek引起市場廣大迴響,一度登上app下載榜首,一方面「低算力、高效能」創舉,打破了大型巨頭過往一直以算力堆疊提供效能更高的LLM模型的AI軍備競賽。另一方面,deepseek發表了獨特的軟體演算能力優化LLM模型。 deepseek如何透過低算力達到如chatgpt等級的AI效能?deepseek在論文中揭示了哪些獨到的演算法展現其軟實力? 其實主要係透過創新的訓練方法、架構設計與資源優化策略 包括:1. 純強化學習(RL)訓練,減少對監督數據的依賴;2. 混合專家模型(MoE)架構,提高計算效率;3. 訓練資源極致優化,低成本硬體與高效流程;4. 蒸餾技術與測試時計算(Test-Time Compute)。 更多關於deepseek的介紹,就讓半導體專家 林嘉洤 教授,和金融行銷專家 馬瑞辰 教授 在影片中告訴你!

action

阿里放大招!开源QWQ-32b |台积电宣布在美再建厂 |DeepSeek举办“开源周”|最大生物学AI模型Evo 2 | AI新闻

阿里放大招!开源QWQ-32b |台积电宣布在美再建厂 |DeepSeek举办“开源周”|最大生物学AI模型Evo 2 | AI新闻 00:00 开头 00:10 阿里深夜放大招!开源QWQ-32b 02:04 台积电宣布在美再建厂 04:02 DeepSeek举办“开源周”,连续五天开源五个代码库 06:38 英国《自然》网站近日报道了最大生物学AI模型Evo 2 07:21 全球首个人形机器人自主站立控制技术取得新突破 10:18

action

DeepSeek技術:深度學習與應用創新 DeepSeek Technology: Deep Learning and Application Innovation

#deepseek #llm #gpu #模型蒸留 Deepseek為一開源模型,透過開源讓技術加速成熟,其另一大特點是軟體效能的優化,藉由蒸留大模型以及MOE,減輕該模型的算力負擔。 模型蒸餾:是一種機器學習技術,將大型、複雜的「教師模型」(Teacher Model)的知識轉移到小型、效率更高的「學生模型」(Student Model)。目標是讓學生模型保留教師模型的性能,同時降低計算成本與資源需求。 MoE係將模型分為多個「專家」(Experts),每個專家專精於特定任務或數據子集。推理時,透過動態路由(Routing)僅啟動部分專家,降低計算負擔。 更多關於Deepseek的介紹,就讓半導體專家 林嘉洤 教授,和金融行銷專家 馬瑞辰 教授 在影片中告訴你! DeepSeek is an open-source model

Scroll to Top