据报道,OpenAI正在开发一款专为音频生成任务优化的新AI模型,预计3月底前发布。该模型将产生比现有模型更自然的语音,并在与用户实时交互方面表现更佳。新模型基于全新架构,由前Character.AI研究员领导开发。这款音频模型是OpenAI进军消费电子市场更广泛计划的一部分,公司还计划明年推出音频优先个人设备。
Fizz正押注Z世代已厌倦在Instagram和TikTok上表演生活。这款起源于疫情期间群聊困扰的应用,现已成为美国大学校园的主导社交平台,专注于那99%不会出现在精彩瞬间中的真实生活。该应用采用混合匿名模式和超本地化定位,成功吸引了通常沉迷于Instagram和TikTok的用户群体。CEO所罗门称其为"自Facebook以来最大的校园社交应用"。
苹果健康应用通过与Apple Watch、智能手环、血压计、体重秤等设备集成,可全面记录健康数据。用户可自定义界面布局,优先显示重要指标,管理数据源权限,设置医疗ID用于紧急情况,并与医生或家人共享健康信息,打造个人健康数据中心。
VSCO今日更新VSCO Capture应用,新增视频拍摄功能。用户现可在拍摄照片和视频时应用并调整VSCO的50多种滤镜预设,包括经典胶片到现代创作风格。新版本还推出胶片颗粒滤镜,可动态控制纹理强度、大小和色彩。用户能将颗粒滤镜叠加到Film X滤镜上,结合柯达、富士和爱克发胶片风格,保存个性化胶片配方。
Instagram负责人Adam Mosseri表示,AI生成内容已经占据社交媒体主导地位,预计将超越非AI内容。他认为识别AI内容的技术效果不佳,建议转而为真实媒体建立指纹识别系统,由相机制造商在拍摄时进行加密签名。Mosseri还指出,创作者应优先发布"不完美"的原始图像来证明真实性,因为精美方形图片的时代已经结束。
尽管乔布斯、盖茨和扎克伯格等知名创始人都未完成大学学业,但研究显示大多数成功初创企业创始人拥有学士或研究生学位。然而,辍学创始人的吸引力依然存在,这一趋势在AI热潮中尤为明显。在Y Combinator路演日,越来越多创始人在一分钟推介中强调自己的辍学身份。一些年轻企业家担心完成学业会错过AI发展的关键窗口期,甚至有学生在最后一学期选择辍学创业。投资人对此态度不一,有人认为辍学是深度信念的体现,也有投资人更看重创始人的智慧和经验积累。
微软前工程师陈雷蒙透露,当客户在技术支持电话中要求与比尔·盖茨对话时,微软有一套特殊的处理流程。支持人员会将客户转接至内部特殊号码,接线员会以"比尔·盖茨办公室"身份接听,声称盖茨不在并记录客户投诉。随后技术支持团队会回电客户,声称"比尔·盖茨让我联系您跟进问题"。这种做法体现了微软早期重视客户服务的理念,与当今AI时代的支持模式形成鲜明对比。
路创Aurora调光器是一款巧妙的配件,专门解决智能灯泡被物理开关断电后失去响应的问题。该产品安装简单,直接套在现有的拨动开关上,通过飞利浦Hue应用程序进行配置。Aurora支持按压开关和旋转调光功能,可同时控制多个Hue灯具。虽然仅兼容飞利浦Hue产品且限于美式拨动开关,但对租房用户特别友好,售价约50美元。
Fizz是一款专注于大学校园的匿名社交应用,其CEO认为Z世代已厌倦在Instagram和TikTok上表演生活。该应用采用混合匿名模式和超本地化策略,专注于展现不会出现在精彩集锦中的99%真实生活。通过7000名学生志愿者版主和AI技术维护平台安全,Fizz已成为美国各大学校园的主导社交平台,被称为"自Facebook以来最大的大学社交应用"。
在TechCrunch Disrupt大会上,在线学校Campus创始人Tade Oyerinde和大学社交应用Fizz联合创始人Teddy Solomon分享了构建持久社群的策略。Campus提供信息技术、工商管理等副学士学位课程,拥有超过3000名学生。Fizz运营于200多个大学校园,已融资超过4000万美元,正开发Global Fizz产品拓展海外市场,并探索广告变现模式。
戴姆勒卡车在2021年从奔驰集团分离时,面临1500多个IT系统需要拆分的复杂挑战。公司采用Neo4j图数据库技术,结合ExtraHop网络遥测数据,构建了应用系统依赖关系的动态图谱。该方案成功识别隐藏依赖关系,用3.5年完成分离,应用数量减少40%。图技术不仅解决了分离难题,还为公司提供了全面的IT可观测性平台,结合大语言模型实现智能运维,能快速诊断故障原因并识别安全风险。
SwitchBot在CES展会上发布AI MindClip音频记录器,这款重18克的夹式设备可记录日常对话和工作会议,支持超过100种语言。设备能将语音转换为摘要、待办事项和个人音频记忆数据库,用户可搜索和检索之前可能遗忘的讨论内容。AI驱动的总结、任务创建和信息回忆功能需要订阅云服务才能使用,但具体价格和发布时间尚未公布。
瑞士ETH苏黎世联邦理工学院等机构联合开发的WUSH技术,首次从数学理论层面推导出AI大模型量化压缩的最优解。该技术能根据数据特征自适应调整压缩策略,相比传统方法减少60-70%的压缩损失,实现接近零损失的模型压缩,为大模型在普通设备上的高效部署开辟了新路径。
弗吉尼亚大学团队创建了Refer360数据集,这是首个大规模记录真实环境中人机多模态交互的数据库,涵盖室内外场景,包含1400万交互样本。同时开发的MuRes智能模块能让机器人像人类一样理解语言、手势和眼神的组合信息,显著提升了现有AI模型的理解准确度,为未来智能机器人的广泛应用奠定了重要基础。
清华大学研究团队提出高斯量化(GQ)方法,实现从高斯变分自编码器到矢量量化变分自编码器的无训练转换。该方法通过随机生成高斯噪声作为代码本,并寻找最接近后验均值的噪声点来完成量化。研究团队还提出目标散度约束(TDC)训练策略,确保各维度KL散度接近目标值。实验表明,GQ在图像重建和生成任务上均优于现有VQ-VAE方法,为AI图像处理提供了更简单高效的解决方案。
Adobe与阿德莱德大学联合研究团队提出SAR技术,解决AI绘画中的训练与实际使用不匹配问题。该方法让AI学会基于自己的作品继续改进,而非仅依赖标准答案训练。通过交错尺度展开和对比学生强迫损失两项创新,SAR在仅增加一倍计算成本的情况下,使AI绘画质量提升5.2%,为AI创作的自我纠错能力提供了新的解决方案。
微软亚洲研究院联合西安交通大学开发了VideoVLA系统,首次让机器人具备"脑内预演"能力。该系统将视频生成模型转化为机器人控制器,采用双重预测机制同时预测动作和视觉结果。实验显示其在处理陌生物体时成功率达65.2%,远超现有系统,并能跨平台学习其他机器人技能。这一突破为通用机器人助手的实现奠定了技术基础。
清华大学等机构联合提出GRAPE框架,用群论统一了RoPE和ALiBi等位置编码方法。该框架包含乘法和加法两大类,不仅完全恢复现有方法,还支持学习型基底和动态调整,在语言建模实验中表现出更好的训练稳定性和性能优势。
卡内基梅隆大学研究团队通过可控实验框架,首次系统揭示了AI训练中预训练、中期训练和强化学习三阶段的协同机制。研究发现强化学习需在AI能力边缘发挥作用,跨域迁移需要最小但充分的预训练"种子",中期训练架起关键过渡桥梁,过程监督确保推理真实性。这一发现为AI推理能力训练提供了科学指导,有望显著提升AI在决策、教育、科研等领域的应用效果。
清华大学团队首次提出"工具精炼化指称推理"概念,开发出VG-Refiner系统,让AI学会质疑和修正外部工具的错误输出。该系统采用"思考-再思考"双阶段机制,结合精心设计的奖励机制,在工具出错时展现强大纠错能力,准确率可从40%提升至85%以上,同时保持通用能力不受损失。这项技术为AI系统从工具被动使用者向主动管理者转变提供了重要突破。