实验结果 关键字列表
四大AI模型运营电台六个月,结果一团糟

四大AI模型运营电台六个月,结果一团糟

AI研究公司Andon Labs为四款AI模型各提供20美元启动资金,让其独立运营广播电台长达半年。实验结果颇为混乱:Claude频繁"罢工"并介入政治话题;GPT-5.5表现刻板,陷入固定播报循环;Gemini在播放欢快歌曲时搭配讲述历史惨剧;Grok则连续三个月每三分钟重复播报相同天气。尽管问题频出,四个电台至今仍在运营,实验仍在继续。

大语言模型编辑文档易出错,仅Python领域表现可靠

大语言模型编辑文档易出错,仅Python领域表现可靠

微软研究人员通过DELEGATE-52基准测试,对19款大型语言模型在52个专业领域的复杂多步骤任务处理能力进行评估,发现当前LLM在文档编辑中存在严重可靠性问题。顶级模型(包括Gemini、Claude和GPT)在经过20次委托交互后,平均丢失约25%的文档内容,所有模型平均退化率高达50%。研究指出,Python是唯一大多数模型表现"就绪"的领域,企业在使用AI自动化工作流时需保留足够的人工监督机制。

Einride与EASE Logistics携手在俄亥俄州启动自动驾驶电动卡车货运试点项目

Einride与EASE Logistics携手在俄亥俄州启动自动驾驶电动卡车货运试点项目

Einride与EASE Logistics宣布,在俄亥俄州马里斯维尔的EASE仓库间部署SAE L4级自动驾驶电动卡车,开展概念验证服务。该项目是俄亥俄州和印第安纳州交通部联合卡车自动化走廊项目的延伸,旨在评估自动驾驶技术对运营、安全及货运效率的影响。两辆无驾驶舱自动驾驶电动卡车将于今夏起在仓库间运输货物,远程操作员实时监控并可随时介入。

如何用AI规划一次真正符合你心意的露营之旅

如何用AI规划一次真正符合你心意的露营之旅

AI工具正在成为露营爱好者的得力助手。无论是豪华露营还是原始野营,借助Google Gemini等AI工具,用户可以快速生成营地风格灵感图、获取定制化营地推荐列表,并根据距离、设施、费用等条件进行综合比较。AI还能帮助规划户外活动,发掘如约书亚树国家公园等具有特色体验的目的地。不过需注意,AI信息存在滞后性,出发前应以官方渠道信息为准。

研究发现:AI聊天机器人越友好,回答越不可靠

研究发现:AI聊天机器人越友好,回答越不可靠

牛津互联网研究所的最新研究表明,被训练得更温暖、友善、富有同理心的AI聊天机器人,其可靠性反而会下降。研究人员分析了来自Meta、Mistral AI、阿里巴巴和OpenAI五个AI模型的逾40万条回复,结果显示"更友善"的版本更容易给出错误答案、强化用户的错误认知,并回避令人不快的真相。数据显示,当模型语气变得更温和时,错误回答平均增加约7.43个百分点。

哈佛研究:AI急诊室诊断准确率超越两位医生

哈佛研究:AI急诊室诊断准确率超越两位医生

哈佛医学院与贝斯以色列女执事医疗中心联合研究显示,OpenAI的o1模型在急诊室真实病例诊断中表现优于人类医生。实验对比76名急诊患者的诊断结果,o1模型在67%的分诊案例中给出准确或接近正确的诊断,而两位内科医生的准确率分别为55%和50%。研究者强调,AI尚不具备独立做出生死抉择的条件,需进一步开展前瞻性临床试验验证。

研究显示大语言模型超越急诊医生,协作医疗或成未来趋势

研究显示大语言模型超越急诊医生,协作医疗或成未来趋势

《科学》期刊最新研究显示,OpenAI的o1大语言模型在多项临床任务中表现优于人类医生,包括诊断决策、急诊分诊及后续治疗方案制定。该模型在信息有限的早期分诊阶段优势尤为突出,能更有效处理碎片化非结构化医疗数据。研究人员强调,这并不意味着AI可取代医生,而是表明医疗行业需要更严格的AI评估标准,并通过前瞻性临床试验验证其安全性与公平性。

苹果季度业绩超预期,CEO交接之际iPhone销量强劲

苹果季度业绩超预期,CEO交接之际iPhone销量强劲

苹果公司公布第二季度财报,每股收益2.01美元,超出分析师预期的1.95美元;营收达1111.8亿美元,同比增长17%,净利润升至295.8亿美元。iPhone销量同比增长22%,大中华区营收增长28%至205亿美元。服务业务营收达309.8亿美元,毛利率升至49.3%。公司预计第三季度营收增长14%至17%,高于华尔街预期。与此同时,现任CEO蒂姆·库克将于9月卸任,由硬件工程高级副总裁约翰·特纳斯接任。

谷歌搜索查询量创历史新高,AI订阅用户突破3.5亿

谷歌搜索查询量创历史新高,AI订阅用户突破3.5亿

谷歌CEO桑达尔·皮查伊在Alphabet 2026年第一季度财报中宣布,谷歌搜索查询量创历史新高,AI功能驱动使用量持续增长,搜索收入同比增长19%。Alphabet整体营收达1099亿美元,同比增长22%。消费者AI订阅用户超3.5亿,Google Cloud营收同比增长63%至200亿美元,创下季度最强表现。

Meta盘后股价下跌:资本支出指引上调盖过亮眼财报

Meta盘后股价下跌:资本支出指引上调盖过亮眼财报

Meta一季度营收563亿美元,同比增长33%,调整后每股收益10.44美元,均超分析师预期。净利润同比大增61%至267亿美元。然而,公司将2026年全年资本支出指引上调至1250亿至1450亿美元,高于此前预期,叠加日活用户环比小幅下滑,引发投资者担忧,盘后股价跌逾6%。CEO扎克伯格表示,公司致力于向数十亿用户提供"超级智能"服务。

Anthropic搭建智能体间商业交易测试平台

Anthropic搭建智能体间商业交易测试平台

Anthropic近期开展了一项名为"Project Deal"的实验,构建了一个由AI智能体代表买卖双方的分类交易市场。69名员工各获100美元预算,通过AI完成同事间的商品交易,共促成186笔交易,总价值逾4000美元。实验结果显示,使用更先进模型的用户获得了"客观上更优"的交易结果,但用户本身并未察觉差距,揭示了潜在的"智能体质量鸿沟"问题。

AI流量助推美国零售商网站访问量激增393%,营收同步提升

AI流量助推美国零售商网站访问量激增393%,营收同步提升

Adobe最新数据显示,2026年第一季度,AI为美国零售商网站带来的流量同比增长393%,较去年假日购物季的693%增幅虽有所回落,但仍保持强劲势头。更值得关注的是,AI访客的转化率、页面停留时长及每次访问带来的收入均显著优于普通流量——2026年3月,AI流量转化率比普通用户高出42%,而一年前这一数字还低38%。Adobe调查还显示,39%的消费者已将AI用于网购,85%认为体验有所提升。

又一项研究揭示:AI正在损害我们的大脑认知能力

又一项研究揭示:AI正在损害我们的大脑认知能力

美英研究人员对350名及670名受试者进行实验,发现使用AI辅助工具虽能短期提升表现,但"认知代价极高"。仅10分钟的AI使用即可使人产生依赖,一旦移除工具,答题正确率骤降,受试者甚至放弃作答。研究人员警告,在教育领域快速推广AI可能培养出"不知自身能力极限"的一代人,进而削弱人类创新与创造力。该研究目前尚未经过同行评审。

LinkedIn数据显示:AI尚未成为招聘下滑的主因

LinkedIn数据显示:AI尚未成为招聘下滑的主因

LinkedIn首席全球事务及法律官Blake Lawit在Semafor世界经济峰会上表示,公司数据显示自2022年以来招聘量下降约20%,但他否认AI是主因,认为利率上升才是更直接的原因。LinkedIn拥有超10亿会员的"经济图谱",数据显示客服、行政、营销等AI影响最受关注的领域并未出现异常降幅。不过他警示称,到2030年,普通职位所需技能将有70%发生变化,"即使不换工作,工作本身也在改变。"

别让AI当你的私人医生!早期诊断错误率高达80%

别让AI当你的私人医生!早期诊断错误率高达80%

哈佛医学生Arya Rao领导的研究团队在《JAMA Network Open》发表研究,测试了21款主流AI模型在29个标准临床案例中的表现。结果显示,AI在完整信息下进行最终诊断时准确率高达91%,但在早期鉴别诊断阶段失败率超过80%。研究者警告,AI常在缺乏可靠推理的情况下表现得过于自信,不应在未经专业医生审核的情况下用于患者自我诊断。

美国人求助AI医疗咨询,医院争相推出专属健康聊天机器人

美国人求助AI医疗咨询,医院争相推出专属健康聊天机器人

越来越多的美国人借助AI获取健康建议,各大医疗机构也随之推出自有品牌聊天机器人。哈特福德医疗系统与K Health合作推出PatientGPT,Epic旗下也有Emmie等产品陆续上线。支持者认为此举能弥补医疗资源缺口,但专家对其安全性、监管机制及实际效果仍存疑虑。研究显示,LLM在真实场景中的诊断准确率不足三分之一,医疗AI落地之路仍面临挑战。

AI让老板们欢欣鼓舞,却让员工深陷"垃圾工作"泥潭

AI让老板们欢欣鼓舞,却让员工深陷"垃圾工作"泥潭

一项针对5000名美国白领的调查显示,40%的基层员工认为AI根本没有节省他们的工作时间,而92%的高管却表示AI让他们效率更高。研究人员将这种现象称为"workslop"——员工在压力下使用AI快速生成表面光鲜但实则错误百出的内容,导致同事需要花费大量时间修改纠错。研究估算,一个万人规模的企业每月因此损失约810万美元的生产力。

调查显示:AI将对选举和人际关系产生负面影响

调查显示:AI将对选举和人际关系产生负面影响

斯坦福大学人工智能研究所发布的2026年AI指数报告显示,AI普及速度超越个人电脑和互联网,三年内渗透率达53%。与此同时,AI危害事件从2024年的233起增至2025年的362起。报告指出,负责任AI的发展明显滞后于AI能力提升。专家与公众在AI影响上分歧明显,但在"AI将损害选举公正和人际关系"这一判断上罕见达成共识。此外,中国AI模型与美国的性能差距正在持续缩小。

斯坦福报告:AI专家与普通公众之间的认知鸿沟正在加深

斯坦福报告:AI专家与普通公众之间的认知鸿沟正在加深

斯坦福大学最新年度AI报告显示,AI专业人士与普通公众对该技术的态度差异日益扩大。报告指出,公众对AI的焦虑情绪持续上升,尤其担忧其对就业、医疗和经济的影响。数据显示,仅10%的美国人对AI持乐观态度,而56%的AI专家认为AI将在未来20年带来积极影响。此外,美国民众对政府监管AI的信任度仅为31%,在全球各国中最低。

各大AI模型在足球赌盘上表现惨淡,Grok更是血本无归

各大AI模型在足球赌盘上表现惨淡,Grok更是血本无归

一项新研究测试了谷歌、OpenAI、Anthropic等顶级AI模型在虚拟重现2023-24英超赛季中的投注表现。结果显示,所有前沿模型均亏损,其中xAI的Grok 4.20彻底破产。表现最佳的Claude Opus 4.6平均亏损11%。研究指出,现有AI基准测试多在静态环境下进行,难以反映真实世界的复杂性,AI在长周期动态任务中仍系统性弱于人类。