最新文章
快手推出Kling-Omni:一个AI模型搞定所有视频制作需求

快手推出Kling-Omni:一个AI模型搞定所有视频制作需求

快手推出的Kling-Omni是首个真正统一的AI视频制作系统,能够理解文字、图像、视频等多种输入方式,不仅可以生成视频,还能进行复杂编辑和推理。该系统通过三个核心模块的协作,实现了从创意理解到最终输出的全流程自动化,让普通用户也能制作专业水准的视频内容,代表了AI视频技术的重要突破。

蚂蚁集团新突破:100B参数扩散语言模型重塑AI文本生成

蚂蚁集团新突破:100B参数扩散语言模型重塑AI文本生成

蚂蚁集团联合多所知名大学成功开发LLaDA2.0扩散语言模型系列,最大版本拥有1000亿参数。该研究突破了传统语言模型的串行生成限制,采用并行生成方式,在保持高质量输出的同时显著提升推理速度。通过创新的三阶段转换策略,成功将现有自回归模型转化为扩散模型,避免了从零训练的高昂成本。

这个"预测游戏"竟然让机器拥有了像人一样看懂图片的能力——密歇根大学NEPA技术突破

这个"预测游戏"竟然让机器拥有了像人一样看懂图片的能力——密歇根大学NEPA技术突破

密歇根大学等机构研究者提出NEPA技术,通过简单的"预测下一块"游戏让机器学会看懂图片。该技术将图像切分为片段,让AI按序预测下一片段内容,无需复杂解码器。在ImageNet分类上达到85.3%准确率,同时在语义分割任务表现出色,为视觉AI提供了更简洁高效的训练方案。

香港理工大学发布DeContext:首个阻挡AI恶意换脸的"隐身衣"

香港理工大学发布DeContext:首个阻挡AI恶意换脸的"隐身衣"

香港理工大学研究团队发布DeContext技术,这是首个专门针对新型AI图像编辑模型的防护系统。该技术通过精准干扰AI模型的注意力机制,能有效阻止恶意用户利用个人照片制作虚假内容或进行身份冒充,同时保持图像的视觉质量几乎不变。实验显示身份相似度可降低至0.12,为AI时代的图像隐私保护提供了重要解决方案。

联想问天 WR5220 G5服务器
2025-12-22

联想问天 WR5220 G5服务器

技术引领奖技术引擎

联想问天 WA7880a G3服务器
2025-12-22

联想问天 WA7880a G3服务器

基础引擎

2025-12-23

阿里云云原生数据库PolarDB

技术引领奖技术引擎

苹果注重隐私的年龄验证方案可解决两大难题

苹果注重隐私的年龄验证方案可解决两大难题

美国多州和部分国家要求特定应用进行年龄验证,澳大利亚已禁止16岁以下用户使用社交媒体。新提案《应用商店问责法案》建议由苹果和谷歌负责统一验证用户年龄,而非各开发者单独验证。这将提升用户体验,用户只需向苹果或谷歌验证一次身份。凭借苹果在隐私保护方面的优势,该方案可扩展至Safari浏览器,为需要年龄验证的网站提供确认信息,而无需透露用户个人数据。

Cursor通过收购Graphite继续扩张之路

Cursor通过收购Graphite继续扩张之路

AI编程助手Cursor背后的公司Anysphere宣布收购AI代码审查工具初创公司Graphite。据报道收购价远超Graphite今年早些时候B轮融资时2.9亿美元的估值。此次收购具有战略意义,将AI代码生成与AI代码审查工具相结合,可大幅提升从编写到交付的整体效率。Anysphere估值已达290亿美元,近期频繁收购,上月收购技术招聘公司,今年7月还收购AI客户关系管理初创公司Koala的团队。

ChatGPT新增个性化设置功能,用户可自定义聊天体验

ChatGPT新增个性化设置功能,用户可自定义聊天体验

OpenAI为ChatGPT推出个性化设置功能,用户可自主调节AI的温暖度和热情程度,选择"更多"或"更少"个性特征。新功能还支持调整表情符号、标题和列表使用频率,并可选择古怪、专业、友好、愤世嫉俗等不同性格特点。同时优化了邮件编写体验,支持直接在对话中更新和格式化文本,用户可高亮特定文字段落并要求ChatGPT进行针对性修改。

Kuxiu S3固态电池充电宝替代多款充电器的全能解决方案

Kuxiu S3固态电池充电宝替代多款充电器的全能解决方案

这款MagSafe固态电池移动电源采用先进的固态电池技术,具备Qi2.2 25W无线充电和35W有线充电功能。支持iPhone快速充电,内置高质量编织线缆可为iPad等设备充电,还配备智能显示屏显示电量百分比。多功能设计让用户可同时为多设备充电,售价约70美元,适合移动办公用户使用。

Waymo自动驾驶出租车遭遇交通灯故障停摆事件分析

Waymo自动驾驶出租车遭遇交通灯故障停摆事件分析

由于电力中断导致交通信号灯失效,谷歌旗下Waymo公司的无人驾驶出租车在旧金山全面停运。停电影响超过13万户家庭,主要路口交通灯熄灭,自动驾驶车辆面对失效信号灯时无法正常运行,只能紧急停车。Waymo已暂停湾区叫车服务,等待交通灯恢复正常。此次停电由太平洋燃气电力公司变电站火灾引起,截至周日上午,约四分之三受影响居民已恢复供电。

智启未来,共筑开发者生态  AMD携手DataWhale、魔搭社区,共建ROCm开发者生态
2025-12-22

智启未来,共筑开发者生态 AMD携手DataWhale、魔搭社区,共建ROCm开发者生态

2025年12月21日,在魔搭社区(杭州)开发者中心,AMD携手DataWhale和魔搭社区共同举办了“智启未来,共筑开发者生态”的发布会,来自全国的AI开发者与爱好者齐聚杭州,共同见证了三方携手共建的“ROCm开发者专区”正式发布 和“ROCm开发者学习中心“挂牌成立。

训练AI画画,一半数据就够了?港大团队发明"炼金术师"让AI挑食变聪明

训练AI画画,一半数据就够了?港大团队发明"炼金术师"让AI挑食变聪明

香港大学团队开发的"炼金术师"数据筛选系统,能从海量图片中精选一半高价值数据,训练出比使用全量数据更优秀的AI图像生成模型。该方法通过观察模型学习反应判断数据价值,发现适度复杂的图片比简单图片更有训练效果,实现了5倍训练加速和显著性能提升。

AI语言模型训练的"激励难题":哥伦比亚大学揭示强化学习的探索与利用悖论

AI语言模型训练的"激励难题":哥伦比亚大学揭示强化学习的探索与利用悖论

哥伦比亚大学等机构研究团队发现,在AI模型的强化学习训练中存在一个悖论现象:阻碍探索和阻碍利用竟然都能提升性能。研究揭示了裁剪技术实际是熵调节器而非学习信号,策略熵与性能无直接因果关系,并提出奖励错配理论解释随机奖励的积极效果,为AI训练方法设计提供了新的理论基础。

百度飞桨团队突破:0.9B超轻量级模型如何让文档识别变得又快又准

百度飞桨团队突破:0.9B超轻量级模型如何让文档识别变得又快又准

百度飞桨团队推出PaddleOCR-VL,一个仅有9亿参数的超轻量级视觉-语言模型,在文档解析任务中达到业界最先进水平。该模型采用混合架构,结合专门的布局分析模块和高效的视觉-语言识别模块,能够准确识别文字、表格、公式和图表,支持109种语言,处理速度比同类模型快50%以上,为资源受限环境下的文档处理提供了实用解决方案。

机器人如何像小孩一样学会抓东西:伯克利大学的突破性发现

机器人如何像小孩一样学会抓东西:伯克利大学的突破性发现

由加州大学伯克利分校研究团队开发的LEGO框架通过让机器人在由四个基本几何形状组成的随机玩具上训练,实现了对真实物体的零样本抓取。核心创新是检测池化机制,它强制视觉系统专注于物体本身而非背景。仅用1500个演示,该方法在YCB数据集上达到67%的成功率,超越了参数量大百倍的预训练模型,证明了正确的架构设计比数据规模更重要。

秒级生成精美3D场景:来自腾讯和厦门大学的突破性技术

秒级生成精美3D场景:来自腾讯和厦门大学的突破性技术

FlashWorld是由厦门大学、腾讯和复旦大学联合开发的突破性3D场景生成模型。它通过创新的双模式预训练和跨模式蒸馏策略,在保持高图像质量的同时确保3D一致性,生成速度比现有方法快10-100倍,仅需9秒即可生成一个完整的高质量3D场景。该研究在图像到3D、文本到3D等多个任务上都展现了优异性能。

自动驾驶的"眼睛"学会了看懂世界:港科大和商汤的AI如何同时生成视频和重建3D场景

自动驾驶的"眼睛"学会了看懂世界:港科大和商汤的AI如何同时生成视频和重建3D场景

本研究由香港科技大学和商汤科技联合完成,提出CVD-STORM框架,通过创新的STORM-VAE模块实现了自动驾驶场景的多视角长视频生成与4D场景重建的统一。该方法在FID和FVD指标上分别相比最优基线提升34%和61%,并首次实现了从生成视频中直接提取准确的绝对深度信息,为自动驾驶世界模型的发展开辟了新方向。

北京大学团队突破:让AI学会"看病",一个模型搞定所有图片问题

北京大学团队突破:让AI学会"看病",一个模型搞定所有图片问题

北京大学研究团队提出了一种名为MaskDCPT的新型图像修复预训练方法,通过让神经网络同时学习识别图像问题类型和修复图像,实现了显著的性能提升。研究团队还发布了包含250万张图像的UIR-2.5M数据集,涵盖19种图像问题。实验表明,该方法在五维全能修复任务上相比基础模型平均提升3.77分贝,在真实世界场景中也表现出色,具有强大的泛化能力。