要闻 | 中译语通出席2023中国算力大会,发布西部AI语料库与大模型
2023年8月18日至19日,由工业和信息化部、宁夏回族自治区人民政府联合举办的2023中国算力大会在宁夏银川举行,主题为“算领新产业潮流、力赋高质量发展”。中译语通科技股份有限公司(简称“中译语通”)副总裁张晓丹受邀出席大会,在大模型时代下的AI算力新基建分论坛发表演讲,发布中译语通“西部AI语料库与大模型”,并代表公司出席中国联通宁夏分公司“东数西算”生态伙伴签约仪式。
“从去年11月OpenAI发布ChatGPT大模型以来,行业内外非常关注AIGC正在带来的变革,以大模型为代表的AIGC产业已经成为算力资源需求的增长引擎。”报告伊始,张晓丹结合中译语通作为人工智能、自然语言处理行业的重要参与者身份,分享了新技术的发展与应用现状。
谈到当下热议的基于可信资源的多语言大模型技术,她介绍说,中译语通在2021年启动研发多语言、多模态大模型技术,并于2022年11月发布“格物”大模型。它涵盖了多语言预训练模型、多语言机器翻译超大模型、多模态预训练模型和多语言生成式对话大模型等四个模型,已在政务、外宣、文旅和安全等垂直领域实现了落地应用。
当前多模型、多语言相互融合技术已经在诸多行业大展身手,中译语通正积极探索在更多领域发挥我们的赋能价值,为促进我国西部地区数字经济快速发展贡献力量。张晓丹表示,未来期望与更多同道者携手推进大模型产业链发展,助力我国AIGC行业相较国外先进技术的追赶与应用落地。
在分论坛上,张晓丹代表中译语通发布了“西部AI语料库与大模型”,宁夏回族自治区发改委二级巡视员李汶鑫与宁夏回族自治区工业和信息化厅信息化推进处处长黄彦平出席见证。
“西部AI语料库”由100多种语言、PB级多语言多模态高质量数据、“一带一路”沿线国家与地区的近80亿句对的高质量平行语料以及百亿级知识三元组条目构成,覆盖新闻、农业、水利、科技、金融、工业等领域,旨在支持面向西部地区与周边国家和地区应用的多语言自然语言处理和多模态大模型训练。
“西部AI大模型”以中译语通自主研发的“格物”大模型和多语言AI语料库为数据基础,构建了多模态、多场景、多语言感知世界、认知世界的通用能力,涉及西部多语言生成式对话大模型、西部多语言机器翻译超大模型、西部多语言预训练模型和多模态预训练模型四个子模型。其中,西部多语言生成式对话大模型融合上下文理解、个性化、思维链等高达亿级规模的高质量业务化指令,并引入领域专家对齐和社交对抗反馈的混合强化学习技术,旨在打造时效性较高、千人千面的生成式大模型。
“西部AI语料库与大模型”的成果将落地位于宁夏中卫的中国联通智算中心训推一体枢纽节点,立足于宁夏作为“一带一路”和中阿合作重要窗口的政策优势,支持西部政务、商贸、文旅等行业应用。
会中,张晓丹代表公司与中国联通宁夏分公司签署了“东数西算”战略合作协议。中译语通由此作为重要参与者加入“东数西算”产业生态圈,进一步助力提升宁夏算力产业发展的加速度,共筑大模型产业链、创新链、生态链,赋能千行百业数字化、智能化转型升级。