通用人工智能(AGI)备受关注,但实现时间仍存争议。专家预测AGI将在5-20年内实现,但面临数据质量、安全性和组织准备等挑战。IT领导者需要建立AI就绪的数据基础,制定治理框架,通过低风险试点项目逐步推进。AGI将重塑组织结构和工作方式,要求企业在技术能力提升的同时注重道德责任和风险管控。
谷歌发布Gemini 2.5 Flash Image升级版,支持语音和文本提示生成图像,可替换照片中的人物、更改服装或合并真实图像与新背景。该工具目前仅在Gemini移动应用中提供。测试显示其处理速度极快,能在几秒内完成复杂的图像编辑任务,包括自动补全缺失的身体部位和衣物细节。谷歌集成了SynthID水印技术识别AI生成图像,并设置了内容安全防护措施。
英伟达作为美国最大科技公司,正推进光学数据传输系统计划。其Quantum-X和Spectrum-X光学网络交换机将于明年发布,单端口速度达1.6Tbps,功耗更低、延迟更小。该技术采用光信号替代电信号传输,配合台积电COUPE计划,性能有望达到12.8Tbps。博通、IBM、AMD等公司也在布局光子学技术,预计将在AI计算、光通信、自动驾驶等领域产生变革性影响。
文章分析了2035年可能改变游戏规则的十大产业:包括量子计算和神经形态计算等新一代计算机技术、太空商业化、个性化基因医疗、空间计算与脑机接口、城市农业、空中交通管理、海水淡化技术、沉浸式娱乐、器官按需制造和人形机器人。作者强调这些不是小众领域,而是将成为全球重要的大规模应用技术,需要各国在基础设施、应用研究和人才培养方面提前布局。
微软在其AI化产品战略中,现已将Copilot AI功能直接集成到Excel单元格内。该功能于周一向Microsoft 365 Copilot测试用户开放,新增的COPILOT函数允许用户在特定单元格中执行AI生成任务。用户可通过等号操作符调用该函数,在括号内输入提示语并指定上下文单元格地址。该功能支持情感分析、数据分类、外部信息查询等多种应用场景,还可与其他Excel函数嵌套使用。目前需要Microsoft 365 Copilot订阅和测试版权限才能使用。
随着ChatGPT等AI聊天机器人成为"互联网入口",传统SEO面临颠覆。企业开始关注如何在AI生成的答案中获得更好展示。Evertune等初创公司应运而生,通过每月运行数百万次提示来帮助企业监测品牌在AI回答中的表现。同时,Perplexity出价345亿美元收购Chrome浏览器,OpenAI发布GPT-5模型,显示AI搜索领域竞争加剧。
三家AI巨头同时发布重磅新模型。OpenAI推出首批开放权重模型OSS 120b和OSS 20b,具备Apache许可证,大模型推理能力与o4-mini相当,小模型可在智能手机运行。Anthropic发布Claude Opus 4.1,在代码编程和推理任务上显著提升。Google DeepMind推出Genie 3世界模型,可实时生成可交互的720p游戏世界,被视为通向AGI的重要步骤。
谷歌正式推出其最强大的Gemini 2.5深度思考AI模型,但仅向每月250美元的AI Ultra订阅用户开放。该模型基于Gemini 2.5 Pro,通过增加"思考时间"和并行分析来处理复杂查询。深度思考模型在多个基准测试中表现优异,在人类最终考试中得分34.8%,远超其他模型的20-25%。该模型特别擅长数学推理、科学分析和编程,响应时间需要数分钟,每日使用次数有限制。
最新调查显示,32%的受访者表示有兴趣使用AI进行心理治疗而非人类治疗师。专家认为,AI聊天机器人具有超强耐心,在快节奏社会中颇具吸引力。年轻人因习惯单向网络关系而更易接受AI治疗。研究表明AI在预测自杀倾向方面准确率达70%,但也存在风险,包括过度肯定和缺乏真实人际连接。专家建议应谨慎整合AI与传统心理治疗,既发挥技术优势又保持人性化关怀。
谷歌正在将其基于人工智能的图片转视频技术推广到更多应用程序中。这项技术能够将静态图片转换为动态视频内容,利用先进的AI算法分析图片内容并生成流畅的视频效果。此举标志着谷歌在AI视觉处理领域的进一步布局,预计将为用户提供更丰富的多媒体创作体验。
谷歌Gemini嵌入模型正式发布并在权威MTEB基准测试中排名第一,现已集成到Gemini API和Vertex AI中。该模型支持语义搜索和检索增强生成等应用,采用Matryoshka表示学习技术,支持100多种语言。阿里巴巴开源的Qwen3-Embedding模型紧随其后,为企业提供了专有模型与开源替代方案之间的新选择。
OpenAI推出ChatGPT Agent,标志着人工智能进入数字劳动力时代。与传统AI不同,智能体AI具备真正的"自主性",能够设定目标、做出决策并执行复杂任务。市场规模将从2024年的50亿美元增长至2030年的500亿美元。目前已涌现七类数字工作者:业务任务、对话服务、研究分析、开发编程等智能体,它们正在重塑消费者体验和企业运营模式。
以色列魏茨曼科学研究所、英特尔实验室和d-Matrix研究人员开发出新算法,能显著降低大语言模型服务成本。该算法基于投机解码技术,无需专门的草稿模型即可将令牌生成速度提升2.8倍。研究提出三种方法:令牌级交集、字符串级精确匹配和字符串级拒绝采样,解决了不同模型词汇表匹配问题。算法已集成到Hugging Face框架中,开发者仅需一行代码即可使用。
语音AI解决方案提供商Krisp发布了VIVA语音隔离AI模型和软件开发工具包,专为语音AI智能体设计。VIVA每月处理超过10亿分钟的语音音频,能在20毫秒内处理音频,将对话轮转准确性提升3.5倍,减少50%的通话中断。该工具可过滤背景噪音和笑声,避免AI误判,提升转录准确性和用户体验。
AI第四代生成式AI标志着技术范式转变,正在用户体验、应用自动化和平台三个层面为企业带来重大价值和颠覆。企业应关注商业价值而非技术本身,需要从业务问题出发量化价值。未来五年将在认知任务处理上取得巨大进展,但需要创新思维应对劳动力转型。六大颠覆性支柱包括下一代AI能力、数据平台、机器人技术、量子计算、企业用户体验和云架构等。
本文分析了AI向AGI发展的七大路径中的S曲线路径,该路径预测AI发展将经历三个阶段:2025-2030年AI多模态模型和智能体技术快速发展;2030-2035年进入停滞平台期,引发AI寒冬担忧;2035-2040年技术突破重新启动,自改进AI系统和混合认知架构推动AGI最终实现。
谷歌周四宣布,通过Gemini应用为其Veo 3 AI视频生成器增加图像生成视频功能。该功能此前已在5月I/O开发者大会上推出的AI视频工具Flow中提供。目前Veo 3视频生成功能已在150多个国家推出,仅限Google AI Ultra和Pro用户使用,每日限制生成3个视频。用户可上传照片并添加音频描述来生成视频。发布7周来,用户已创建超过4000万个视频,所有视频都带有可见和不可见的数字水印。
微软研究团队提出"AI绿色推理"新模式,将AI计算集群直接部署在风电场等可再生能源站点,绕过电网瓶颈直接利用绿色能源。该方案通过Heron软件路由器动态管理工作负载,根据实时电力供应情况智能分配计算任务。研究显示,目前可在风电场部署超过600万个高端GPU。这种模块化数据中心架构不仅缓解传统电网压力,还能有效利用未充分使用的可再生能源,为云计算提供商提供可持续发展的新路径。
文章介绍了AI大语言模型中最新的深度研究功能,这是目前最令人印象深刻的新功能之一。作者详细解析了ChatGPT、Claude和Gemini等主流模型的使用方法,并重点展示了深度研究功能的实际应用。通过实际测试,作者用ChatGPT 4.5的深度研究功能生成了一份关于1990-2025年最令人厌烦歌曲的详细报告,展示了AI如何通过思维链进行深度研究和分析。文章还提到了语音交互模式将进一步改变用户与AI的交互体验。
随着AI引发投资热潮,越来越多初创企业获得独角兽地位。TechCrunch追踪了今年迄今为止成为独角兽的风投支持初创企业。虽然大多数与AI相关,但令人惊讶的是许多企业专注于其他行业,如卫星公司Loft Orbital和区块链交易网站Kalshi。名单涵盖软件开发、机器人技术、企业网络基础设施、体育软件、客服AI代理等多个领域,估值从10亿美元到100亿美元不等。