2024年7月6日上午,2024世界人工智能大会语料主题论坛在上海市世博中心成功举办。上海市各相关部门代表、上海人工智能实验室、人民网、上海报业、上海图书馆、上海信投、上海算法创新研究院、中国信通院、复旦大学、华东师范大学、国家开放大学、以及科大讯飞股份有限公司、广州视睿电子科技有限公司(希沃)等近1000家大模型语料生态企业参会。本次论坛以“语料筑基,智生时代”为主题,由上海库帕思科技有限公司联合大模型语料数据联盟等单位共同承办,围绕高质量语料数据如何高效供给赋能大模型产业发展,向市场传递专业化、链接型、前瞻性的语料生态设计理念。
高质量语料库是人工智能赋能新质生产力的关键。大模型赋能千行百业,需要构建与场景适配的语料体系,需要规则与实践的“并跑”。论坛发布了教育、金融、生命健康三项行业技术白皮书,为行业未来的技术发展提供标准及参考。
图1 教育、金融、生命健康三项行业技术白皮书联合发布
人工智能技术的迅猛发展,作为新质生产力的AI及大模型在教育领域的应用日益广泛,为教育领域的数字化转型带来了巨大的潜力和机遇。基于此,在教育部教育信息化技术标准委员会暨全国信息技术标准化技术委员会教育技术分技术委员会指导下,“教育通用人工智能大模型”系列标准工作组协调,华东师范大学牵头,联合上海交通大学、北京邮电大学、国家开放大学以及库帕思、华为、阿里、百度、讯飞、新华三、广州视睿(希沃)等企事业单位共同编撰了《教育人工智能大模型数据治理与共享技术标准白皮书》,并在论坛上正式发布。白皮书的发布旨在推动各行各业加强教育人工智能大模型数据治理与共享,为教育人工智能大模型提供高质量的预训练数据和测评数据,通过科学的策略,最大化挖掘教育数据价值,助力教育的创新。
图2 《教育人工智能大模型数据治理与共享技术标准白皮书》发布
白皮书的内容涵盖了行业分析、标准分析,以及案例分析。首先,本白皮书重点分析了教育AI大模型数据治理与共享技术的重要性及当前面临的挑战。同时,白皮书梳理了国内外教育AI大模型发展情况及教育数据治理与共享的政策、标准和相关机构,并详细介绍了教育AI大模型的系列标准,包括已发布标准和在研标准。
图3 《教育人工智能大模型数据治理与共享技术标准白皮书》封面
本白皮书提出,“建设一套合规有效、高质量的数据治理与共享技术标准,供教育机构和技术开发者参考借鉴。”
白皮书内容建议,“构建教育AI大模型数据治理与共享体系的整体架构、建设数据治理与共享联盟、完善标准体系,同时需要考虑应对数据安全与伦理问题等。”
白皮书还展开介绍了相关的案例应用,涵盖区域、学校、企业层面。以上海市宝山区为例,宝山区通过搭建开放共享、技术集成、交互可视的技术架构,统筹建设区域教育管理及教学基础应用服务平台,打造一个惠及区域内所有学校的数字基座。
白皮书倡导,“应促进可控、可信、安全、绿色、好用、高效的教育通用人工智能大模型构建,实现有教育温度、育人为本的人工智能及智能教育环境建设,探索数字教育新范式,实现教育的高质量发展。 ”