头条广大

当前位置: 首页 · 头条广大 · 正文

头条广大

粤语语料库建设与大模型评测重点实验室发布自研数据集,为数字文娱注入新动能
来源:科学研究院 作者: 编辑:张芳 审核:吴谦 发布日期:2025/12/12

12月18日,2025年中国数字文娱大会在广州羊城创意产业园举行。在“新技术-智慧文娱解锁消费密码”分论坛上,广州市哲学社会科学重点实验室——“粤语语料库建设与大模型评测重点实验室”重磅发布6个支持人工智能应用的岭南文化数据集。其中5个自主研发的数据集包含岭南建筑图像标注数据集、粤语内容安全检测关键词库数据集、粤鉴-粤语大模型安全评测数据集、面向影视剧AI配音的细粒度标注粤语数据集、面向大模型训练的粤语大模型数据集,同时还发布与羊城晚报岭南文化大模型团队联合研制的粤语文化思维链语料数据集。

会上,我校网络空间安全学院教授、粤语语料库建设与大模型评测重点实验室主任齐佳音教授介绍AI-DimSum粤语语料库平台的建设情况。她强调该平台秉持“文化忠实、安全可信、AI友好、持续成长”的原则,致力于构建活态语料库。

随后,齐佳音教授重点逐一介绍了重点实验室5个自主研发的数据集

“岭南建筑图像标注数据集”:该数据集对碉楼、骑楼、祠堂等岭南典型建筑的外观特征进行标注,涵盖建筑类型、构件、装饰工艺、材质、颜色等多维度信息,构建了面向岭南建筑文化的多模态基础资源,为数字化保护与文化大模型应用提供数据支撑,对于活化和传承岭南文化具有重要意义。

“粤语内容安全检测关键词库数据集”:该数据集围绕粤语整合多源语料,针对三大核心领域,采用“分级+标签”的动态词库管理方式,构建了粤语内容安全检测关键词库数据集,旨在填补大模型对粤语内容安全检测缺乏关键词库的缺口,保障大模型粤语内容安全与粤语网络内容安全治理。

“粤鉴-粤语大模型安全评测语料集”:该数据集是面向粤语内容安全的高质量多模态评测数据集,规模约20万条(含10万文本、10万音频、3000图片),依据《生成式人工智能服务安全基本要求》,覆盖政治、伦理、隐私等5大类31小类,深度融合粤语俚语、谐音等特色,可用于大模型安全对齐、合规评估和多方言内容治理,助力粤港澳大湾区AI安全发展。

“面向影视剧AI配音的细粒度标注粤语语料数据集”:该数据集通过多渠道语料收集与细粒度编码,构建了涵盖超过30个影视剧人物、13种情绪、超过1000分钟的音频语料库,有效解决粤语影视剧人工配音成本高、智能配音缺乏高质量标注语料的实际产业痛点。

“面向大模型训练的粤语大模型语料数据集”:该数据集是面向大模型小语种能力训练的高质量多模态数据集,覆盖多种生活场景,超过5000个问答对,成功将普通话等通用语言数据转为粤语语料,为粤语大模型的数据训练和微调等后续泛化能力提供支持。

此外,岭南文化大模型实验室主任邓立邦发布了全国首个方言文化思维链训练语料集——“粤语思维链语料数据集”。该数据集由岭南文化大模型实验室与粤语语料库建设与大模型评测重点实验室两家联合研制,搭建了3层结构,涵盖17个文化类别、360余个核心文化概念,并配套逾1万多组高质量标注语料,可直接服务于大模型的精调训练。邓立邦主任指出:“粤语是岭南文化的灵魂,开源这套数据,就是为了让大模型真正‘懂’岭南。”

据悉,目前除两个安全的数据集外,其他四个数据集都已经在重点实验室官网(https://search.aidimsum.com/library)及Hugging Face、GitHub、Gitee平台开源。

粤语语料库建设与大模型评测重点实验室由广州市社科联与广州大学共建,由中国工程院院士方滨兴教授、国家语言服务与粤港澳大湾区语言研究中心主任屈哨兵教授担任双首席科学家,齐佳音教授担任实验室主任,致力于通过“粤语+人工智能”的融合创新,推动粤语传承与传播。



上一条:我校举办“数字中国梦:为人民建设智慧城市”专题讲座
下一条:【学习贯彻党的二十届四中全会精神】乘势而上,全面发力,谱写高水平大学建设新篇章——校党委书记欧阳谦作学习贯彻党的二十届四中全会精神宣讲报告

广州大学版权所有  COPYRIGHT©1999-2016,   GUANGZHOU  UNIVERSITY   -联系我们-网站地图  粤ICP备 05008855号