开放数据集 关键字列表
哈佛与谷歌联手发布百万公版书AI训练数据集

哈佛与谷歌联手发布百万公版书AI训练数据集

哈佛大学与谷歌宣布将联合发布一个包含约100万册公版书籍的AI训练数据集,涵盖狄更斯、但丁、莎士比亚等经典作家作品,横跨多种语言与文学体裁。该数据集源自谷歌长期以来的图书扫描项目Google Books。哈佛早在今年3月便透露了"机构数据倡议"(IDI)计划,旨在为AI提供合法可信的训练数据,并获得微软与OpenAI的资金支持。IDI执行总监表示,此举旨在让更多研究机构和AI初创企业平等获取高质量训练数据。

谷歌研究院:以开放科学与全球合作推动科学突破

谷歌研究院:以开放科学与全球合作推动科学突破

谷歌研究院通过开放源代码软件与开放获取数据集,构建负责任、包容性的科研生态。其开放工具已服务全球逾25万名研究人员与开发者,合作机构涵盖基因组学、医学、气候等多个领域。从非洲能源需求分析到印度医疗分诊应用,开放科学理念正推动全球各地的科研突破。随着AI技术深入科研场景,谷歌将持续构建支持新一代科学发现的工具与基础设施。

WAXAL:面向非洲语言语音技术的大规模开放资源

WAXAL:面向非洲语言语音技术的大规模开放资源

WAXAL为非洲语音技术提供重要开放资源基础,包含27种本土语言的大规模ASR和TTS数据集,采用高度宽松许可证。该数据集由谷歌研究团队与非洲学术和社区组织合作开发,包含约1846小时转录自然语音和565小时高保真录音,旨在支撑非洲AI生态系统构建反映地区语言多样性的语音系统。