Google近期为Gemini推出新功能,将AI图像生成模型与Google Photos打通。用户开启"个人智能"选项后,Gemini可访问用户相册及相关标签,从而简化提示词并生成更精准的AI图像。例如,用户只需输入"我和家人",Gemini便能自动识别相关照片。该功能默认关闭,目前仅对付费用户开放。Google强调,相册图片不会用于AI模型训练。
谷歌宣布将"个人智能"功能扩展至Gemini的图像生成模块,支持调用用户的Google Photos、Gmail、YouTube等账户数据作为参考。用户无需手动提供个人信息,只需简单指令,Gemini便能基于用户数据生成贴合个人偏好的图像。若结果不满意,可通过追加提示或手动选取参考图片进行优化,并可查看AI所引用的图片来源。该功能目前面向AI Pro及AI Ultra订阅用户开放。
传统的专业头像拍摄既昂贵又费时,现在可以通过谷歌的Nano Banana 2 AI工具免费制作专业级头像照片。文章详细演示了如何通过精确的提示词指令,将普通照片转换为高质量的企业级肖像照片,包括调整背景、灯光、服装和表情等元素。作者使用三部分提示词模板,成功为测试对象生成了媲美专业摄影师拍摄效果的头像照片。
Adobe推出可定制AI图像生成器Firefly自定义模型,现已开放公测。该工具可根据用户自有素材进行训练,模拟特定艺术风格和角色设计,确保生成图像保持一致的美学风格。自定义模型默认私有,训练素材不会用于Adobe通用模型训练。系统可保持笔触粗细、调色板、光照和角色特征等细节一致性,为品牌和创作者提供高效内容生产解决方案。
AI演示文稿和网站创建平台Gamma发布新的图像生成产品Gamma Imagine,通过文本提示创建品牌特定的营销资产,包括交互式图表、营销材料、社交图形和信息图表。该平台集成ChatGPT、Claude等工具,提供超过100个模板。CEO Grant Lee表示,Gamma定位于专业工具Adobe、Figma与传统工具PowerPoint之间,服务需要视觉沟通的知识工作者。去年11月Gamma完成6800万美元B轮融资,估值21亿美元,目前用户接近1亿。
谷歌发布全新AI图像生成模型Nano Banana 2,正式名称为Gemini 3.1 Flash。该模型在世界知识理解、图像一致性、文本渲染、指令遵循、生成速度、图像保真度和专业品质等七个方面实现重大提升。新模型能更准确创建信息图表、保持多个角色和物体的一致性、生成清晰可读的文本内容,并支持从512px到4K分辨率的高质量图像输出,现已成为Gemini网站、应用程序和API的默认模型。
谷歌正式向免费用户开放其更强大的Nano Banana 2 AI图像模型。该模型具备实时信息获取、可读文本生成和本地化翻译等功能,此前这些功能仅限于付费订阅用户使用。新模型在图像质量方面显著提升,包括更鲜明的光照效果、更丰富的纹理和更清晰的细节。用户还可获得更强的创作控制能力,支持512px至4K分辨率范围,并能在单个工作流程中保持多个角色和物体的一致性。
谷歌发布最新图像生成模型Nano Banana 2,基于Gemini 3.1 Flash技术,兼具Nano Banana Pro的高级智能和原版的超快速度。新模型提供先进的世界知识库、精准文本渲染翻译、主体一致性控制等功能,支持512px到4K分辨率输出。目前已在Gemini应用、搜索、AI Studio等谷歌产品中推出,并集成SynthID和C2PA内容溯源技术。
谷歌今日发布最新图像生成模型Nano Banana 2,该模型基于Gemini 3.1 Flash Image技术,相比前代产品可生成更逼真的图像。新模型将成为Gemini应用中快速、思考和专业模式的默认选择。Nano Banana 2保留了Pro版本的高保真特性但生成速度更快,支持512px至4K分辨率,可保持最多5个角色的一致性和14个物体的保真度。该模型已在141个国家的搜索结果中默认启用,所有生成图像都带有SynthID水印。
Google Photos新增"Me Meme"功能,利用生成式AI技术让用户将自己的照片与模板结合制作个性化表情包。该实验性功能首先面向美国用户推出,建议上传光线充足、清晰的正面照片以获得最佳效果。功能基于Gemini AI技术开发,用户可在"创建"选项卡中找到此功能,通过选择模板、添加照片并生成来制作表情包,还可保存、分享或重新生成图片。
微软为Windows系统的画图和记事本应用推出新的AI功能。画图应用新增"填色书"功能,用户可通过文本描述生成空白填色模板,如输入"甜甜圈上的可爱小猫"即可获得四种设计方案。该功能仅限Copilot Plus PC使用。记事本则升级了AI写作、改写和摘要功能,支持流式显示结果预览。新版本还增加了填充容差滑块和更多Markdown语法支持。
作者通过AI技术将自拍照片转换为3D打印手办。首先使用ChatGPT的GPT 5.2 Images工具对照片进行背景移除、腿部补全等处理,然后利用Bambu Lab的MakerLab服务将2D图像转换为3D模型。整个过程涉及AI图像处理、照片转3D模型、多色3D打印等技术环节。虽然这个项目没有实用价值,但展示了AI在创意应用方面的潜力,为用户提供了有趣的技术体验。
中国智谱AI公司成功使用华为昇腾处理器训练出图像生成模型GLM-Image,这是首个完全在中国芯片上完成训练的先进多模态模型。该模型在文本准确性基准测试中表现优异,采用混合架构结合90亿参数自回归模型和70亿参数扩散解码器。智谱AI通过API以每张0.1元提供服务,证明了中国企业在无法获得西方先进芯片情况下仍能构建具有竞争力的AI系统。
中国智谱AI公司成功使用华为昇腾芯片训练出图像生成模型GLM-Image,这是首个完全在国产芯片上完成训练的先进多模态模型。该模型在文字渲染准确性测试中表现优异,在CVTG-2K基准测试中获得开源模型第一名。智谱AI通过API提供服务,每张图片收费0.1元,并在多个平台开源。这证明了中国企业在受限条件下仍能开发出竞争力强的AI系统。
中国智谱AI公司完全基于华为处理器训练出图像生成模型,证明中国企业无需依赖西方先进芯片即可构建具有竞争力的AI系统。该模型在华为昇腾Atlas 800T A2设备上使用MindSpore框架完成训练,这是首个在中国芯片上完成全流程训练的顶尖多模态模型。智谱AI开发了针对昇腾架构的优化技术,模型在多项基准测试中表现优异,为中国AI基础设施发展提供了重要验证。
中国智谱AI公司宣布完全使用华为硬件训练出新模型GLM-Image,声称这是首家完全基于中国硬件构建先进模型的公司。该模型采用自主研发的"自回归+扩散解码器"混合架构,能够联合生成图像和语言。训练过程使用华为昇腾Atlas 800T A2服务器和昇腾910 AI处理器。尽管华为最新910C芯片算力约为英伟达H100的80%,但智谱AI未透露具体使用的服务器数量和训练速度,因此难以评估中国硬件的真实竞争力。
X平台试图通过付费限制Grok图像编辑功能,但存在明显漏洞。虽然Grok提示用户需付费8美元使用该功能,但未订阅用户仍可通过桌面网站和独立应用免费编辑图像。此举是为回应Grok被用于生成大量非同意性化图像的报道。英国等监管机构威胁对X实施禁令或罚款,美国参议员要求应用商店下架相关应用。专家认为Grok安全指导方针存在问题,付费限制难以解决根本问题。
DoorDash确认了一起司机使用AI生成图片伪造配送记录的事件。奥斯汀居民Byrne Hobart在社交媒体上曝光,称司机接单后立即标记为已配送,并提交了一张AI生成的配送照片。该司机疑似使用破解账户,通过DoorDash的历史配送照片功能获取了客户门前的图片。DoorDash发言人表示,经调查后已永久封禁该司机账户,并对客户进行了赔偿,强调公司对欺诈行为零容忍。
OpenAI推出全新旗舰图像生成模型GPT Image 1.5,具备更强的指令理解能力、精准图片编辑功能,生成速度提升四倍。新模型在修改现有照片方面表现出色,支持实用的照片编辑、逼真的服装发型试穿效果,以及保持原图精髓的风格滤镜和概念转换。ChatGPT侧边栏新增专用图像标签页,提供预设滤镜和热门提示。OpenAI将此定位为企业级实用工具,从新奇图像生成转向实用高保真视觉创作。
OpenAI推出ChatGPT Images新版本GPT Image 1.5,承诺更好的指令遵循、更精确的编辑功能和高达4倍的图像生成速度。该模型面向所有ChatGPT用户和API开放。这是OpenAI在CEO奥特曼宣布"红色警报"后与谷歌Gemini竞争的最新升级。新模型提供后期制作功能,支持更精细的编辑控制,能在编辑过程中保持面部相似度、光照、构图和色调的视觉一致性,解决了传统AI图像工具迭代编辑时缺乏一致性的问题。