中国AI公司DeepSeek发布论文介绍流形约束超连接(mHC)方法,可能为工程师提供低成本构建和扩展大语言模型的新路径。该方法旨在解决神经网络层数增加时信号衰减问题,通过约束模型内超连接性来保持信息复杂性的同时避免内存问题。这一技术框架可能应用于即将发布的R2模型,延续了DeepSeek通过巧妙工程突破而非巨额资本实现AI前沿模型开发的理念。
Deep Cogito公司推出了一系列开放可用的AI模型,这些模型可以在"推理"和非推理模式之间切换。这种混合架构结合了推理和标准非推理元素,能够快速回答简单问题,同时对复杂查询进行更深入的思考。公司声称其模型性能优于同等规模的开放模型,并计划在未来推出更大规模的版本。