深度学习 关键字列表
SambaNova 推出低成本开源深度研究代理框架

SambaNova 推出低成本开源深度研究代理框架

SambaNova Systems 推出新的 AI 深度研究框架,可生成深度报告的速度提高 3 倍,成本大幅降低。该框架与 CrewAI 合作开发,支持企业分析私密数据,使用开源大语言模型和 SambaNova 的 AI 加速器,无需依赖 Nvidia GPU。新框架包含智能路由系统,可根据需求选择最合适的智能体,提供从基础搜索到深度财务分析的全方位研究能力。

15个令人震惊的人工智能统计数据,你现在必须了解

15个令人震惊的人工智能统计数据,你现在必须了解

人工智能正在重塑商业、工作和日常生活。新突破如生成式语言模型和推理能力加速了AI的应用。本文列举了15个重要统计数据,揭示了当前AI革命的真实影响,涵盖了AI图像生成、社交媒体、深度伪造、投资规模、市场前景、企业应用、医疗保健、信任度差异等多个方面,展现了AI技术的巨大潜力和面临的挑战。

这款古怪的 AI 智能手机可以创建你的数字分身

这款古怪的 AI 智能手机可以创建你的数字分身

本周在巴塞罗那的移动世界大会上,一款声称预示着智能手机未来 AI 的新奇移动操作系统亮相。

Hugging Face 首席科学官担忧 AI 正在成为"服务器上的应声虫"

Hugging Face 首席科学官担忧 AI 正在成为"服务器上的应声虫"

Hugging Face 的联合创始人兼首席科学官 Thomas Wolf 表示,当前 AI 发展范式无法产生具有创造性问题解决能力的 AI。他认为,AI 目前主要是填补人类已知之间的空白,而非通过连接不相关事实来产生新知识。Wolf 呼吁 AI 行业转向能够衡量 AI 提出非常规问题和开辟新研究路径能力的评估方法。

AI 公司效仿 DeepSeek,通过"蒸馏"技术打造低成本模型

AI 公司效仿 DeepSeek,通过"蒸馏"技术打造低成本模型

领先的 AI 公司正在采用"蒸馏"技术,以创造更便宜、更易采用的 AI 模型。这种技术在 DeepSeek 成功应用后引起广泛关注,引发了硅谷 AI 领导地位的动摇。蒸馏技术通过将大型语言模型的知识转移到小型模型中,实现了高效且经济的 AI 应用。这一突破为初创公司和开发者提供了更多机会,同时也对现有 AI 公司的商业模式构成了挑战。

物理 AI 如何通过嵌入式智能改变行业格局

物理 AI 如何通过嵌入式智能改变行业格局

物理人工智能代表了人工智能从纯数字系统向能够与现实世界互动的智能机器的演变。与仅依赖软件的人工智能不同,物理人工智能将算法与传感器和执行器结合在机器人、车辆和设备中,使它们能够感知周围环境并实时做出决策。这些系统能够自主运行,适应不断变化的环境,而不是遵循固定的编程。

Sergey Brin 表示:如果谷歌员工每周工作 60 小时,AGI 指日可待

Sergey Brin 表示:如果谷歌员工每周工作 60 小时,AGI 指日可待

Google联合创始人谢尔盖·布林重返公司,呼吁员工每周工作60小时,以赢得人工智能竞赛。他认为Google有望实现通用人工智能(AGI)突破,但需要员工全身心投入。这一呼吁引发了对工作效率和AI发展前景的讨论,同时也反映了科技巨头在AI竞争中的紧迫感。

Tencent 发布新 AI 模型,称速度快于 DeepSeek-R1

Tencent 发布新 AI 模型,称速度快于 DeepSeek-R1

腾讯推出新AI模型"混元Turbo S",定位为"快思考模型",旨在与DeepSeek-R1等"慢思考模型"竞争。该模型通过提高输出速度和减少首字延迟,实现近乎"即时回复"。混元Turbo S融合了直觉式短思考链和理性推理长思考链,在数学、推理和知识等方面表现可比肩主流AI模型。腾讯采用混合Mamba-Transformer架构,提高效率并降低成本,有望成为未来基础模型的核心。

IBM 发布新的 Granite 3.2 系列模型,实现按需推理能力

IBM 发布新的 Granite 3.2 系列模型,实现按需推理能力

IBM 公司今天推出了新的 Granite AI 模型系列,具备实验性推理、视觉和预测能力,旨在在企业人工智能市场中占据一席之地。所有 Granite 模型均在 Apache 2.0 开源许可证下开放,现已在 Hugging Face 和 IBM watson.ai 等平台上提供。新系列的旗舰产品是 Granite 3.2 Instruct 变体,支持文本处理,能够执行摘要、问题解决和代码生成等任务,并设计为遵循指令。

Anthropic 的 Claude 3.7 Sonnet 推理模型可以按需延长思考时间

Anthropic 的 Claude 3.7 Sonnet 推理模型可以按需延长思考时间

Anthropic 发布全新前沿 AI 模型 Claude 3.7 Sonnet,这是首个混合推理模型,能够实时回答问题,也可根据用户需求延长思考时间以提供更深入的答案。该模型在多项基准测试中表现优异,并推出了专注于代码开发的 Claude Code 版本。

DeepSeek 超越"开放权重"AI,计划发布源代码

DeepSeek 超越"开放权重"AI,计划发布源代码

DeepSeek 在上个月发布了一个开放权重的 AI 模型后,现在计划进一步开源其底层代码。公司将从下周开始发布五个开源仓库,涵盖其在线服务中的关键组件。这一举措将使 DeepSeek 的技术更加透明,有助于推动 AI 领域的集体进步,同时也与 OpenAI 等保持专有模型的公司形成对比。

iPhone 16E 证明苹果急切希望用户使用其 AI 功能

iPhone 16E 证明苹果急切希望用户使用其 AI 功能

苹果推出售价599美元的iPhone 16E,搭载与高端机型相同的A18芯片,支持全套Apple Intelligence功能。这款平价iPhone的推出表明苹果正努力将AI技术普及到更多用户手中,降低了用户体验AI的门槛。此举不仅扩大了AI技术的可及性,还有助于苹果收集更多用户反馈,进一步完善其AI功能。

测试时扩展如何释放小型语言模型的隐藏推理能力 (并让它们超越大语言模型的表现)

测试时扩展如何释放小型语言模型的隐藏推理能力 (并让它们超越大语言模型的表现)

上海人工智能实验室的一项新研究表明,通过适当的工具和测试时扩展技术,参数仅有10亿的小型语言模型在复杂数学基准测试中可以超越4050亿参数的大型语言模型。这一发现为企业在不同环境和应用中部署小型语言模型进行复杂推理任务提供了新的可能性。

DeepTempo 任命首位销售副总裁推广 AI 日志安全业务

DeepTempo 任命首位销售副总裁推广 AI 日志安全业务

深度节奏是一家专注于日志数据的AI安全初创公司,成立16个月后聘请了首位销售副总裁。该公司由Evan Powell于2023年11月创立,去年11月首次公开。新任销售副总裁Chris Bowen曾在Hammerspace担任销售高级副总裁。深度节奏开发的日志语言模型(LLGM)能够识别日志数据中的攻击事件,并将检测到的事件转发至安全信息和事件管理(SIEM)资源。该软件在Snowflake环境中运行,能够在任何数据湖中识别异常活动并发送警报。通过聘请Bowen,深度节奏表明其有产品可售,并可能将销售重点放在Snowflake渠道上。

马斯克发布了一款比 ChatGPT 更智能的 AI — 这意味着什么

马斯克发布了一款比 ChatGPT 更智能的 AI — 这意味着什么

马斯克的 AI 公司 xAI 推出了 Grok 3 模型,号称在多项技术指标上超越竞争对手。这款 AI 在数学、科学推理和编程等方面表现出色,并在用户测试中领先 GPT-4 等模型。Grok 3 的发布标志着 AI 领域竞争加剧,也凸显了马斯克与 OpenAI 之间的紧张关系。

是什么在改变 IT 领导者采用企业级 AI 的规则

是什么在改变 IT 领导者采用企业级 AI 的规则

DeepSeek于1月推出的R-1 AI模型显著改变了企业AI的格局,导致美国科技股市损失超过1万亿美元。该公司声称其推理模型在性能上可与OpenAI的o1相媲美,速度是其两倍,成本仅为10%。尽管模型开发存在争议,DeepSeek加速了AI模型的商品化,为CIO提供了更多选择和更低的内部构建AI能力的门槛。随着模型成本下降,企业在商业解决方案上将有更大选择,内部开发应用变得更为现实。

Perplexity 颠覆 AI 研究成本,对行业意味着什么

Perplexity 颠覆 AI 研究成本,对行业意味着什么

Perplexity 通过推出 Deep Research 工具,颠覆了 AI 市场的现状。该工具能够在几分钟内生成全面的研究报告,并以极低的企业成本向用户开放先进的 AI 能力。Perplexity 的 CEO Aravind Srinivas 强调,知识应该是普遍可获取和有用的,而不是被高昂的订阅计划所限制。Deep Research 的推出揭示了 AI 定价的痛苦真相:昂贵的企业订阅可能是多余的。Perplexity 提供的服务在价格上具有竞争力,可能迫使大型 AI 公司重新审视其定价结构。

研究发现:训练大语言模型进行推理任务并不需要海量数据

研究发现:训练大语言模型进行推理任务并不需要海量数据

{一项来自上海交通大学的研究表明,大型语言模型(LLMs)可以在不依赖大数据集的情况下学习复杂的推理任务。研究结果显示,仅需少量精心挑选的示例,就能训练LLM完成原本认为需要数万个训练实例的任务。这种高效性源于现代LLM在预训练阶段获得的内在知识。随着新的训练方法变得更加数据和计算高效,企业可能能够在不需要大型AI实验室资源的情况下创建定制模型。}

Transformer:AI 模型进化背后的驱动引擎探秘

Transformer:AI 模型进化背后的驱动引擎探秘

{如今,几乎所有前沿的 AI 产品和模型都采用变压器架构。大型语言模型(LLMs)如 GPT-4o、LLaMA、Gemini 和 Claude 都是基于变压器的,其他 AI 应用如文本转语音、自动语音识别、图像生成和文本到视频模型也以变压器作为其基础技术。随着 AI 热潮的持续,了解变压器的工作原理及其在可扩展解决方案增长中的重要性显得尤为重要。变压器不仅仅是表面现象,它们是处理数据序列的神经网络架构,适用于语言翻译、句子补全和自动语音识别等任务。}

AI 发展提速:Anthropic CEO 警告 2026 年 AI 将达到"天才国度"水平

AI 发展提速:Anthropic CEO 警告 2026 年 AI 将达到"天才国度"水平

Anthropic CEO Dario Amodei警告,人工智能将在两年内达到"天才国家"的集体智能水平。他批评巴黎AI峰会错失良机,呼吁加快AI治理进程。Amodei强调民主国家在AI发展中的领导地位,并提出了关于安全风险和经济影响的担忧。这一警告凸显了AI快速发展与有效监管之间的紧迫挑战。