谷歌研究团队提出Simula框架,将合成数据生成重新定义为数据集层面的机制设计问题。该框架采用"推理优先"方法,通过递归扩展分类体系、局部多样化、复杂度调节和双重质量审核四个步骤,实现对覆盖范围、复杂度和质量的独立控制。Simula已应用于Gemma生态系统、Gemini安全分类器及Android诈骗检测等多个谷歌核心产品中。
总部位于纽约的Mantis Biotech公司正在开发人体"数字孪生"技术,旨在解决生物医学研究中的数据可用性问题。该平台整合来自教科书、动作捕捉摄像头、生物传感器、医学影像等多种数据源,通过大语言模型系统进行数据路由、验证和合成,然后利用物理引擎创建高保真数据集,用于构建基于物理的人体解剖学、生理学和行为预测模型。这项技术可用于研究罕见疾病、训练手术机器人、预测医疗问题等领域,目前已在职业体育领域取得成功。