Medcom.id 美都新闻网 10 月 28 日电 : 东南亚拥有1000多种语言,是世界上语言最多样化的地区之一。人工智能(AI)能否在不丢失6亿多元化人口中文化差异的情况下弥合语言差距?这就是“Project SEALD”项目应运而生的原因。
“Project SEALD”项(东南亚语言一网数据)是一项与新加坡全国人工智能核心(AI Singapore)和其他AI组织(包括印尼人工智能产业研究与创新合作组织)合作的研究计划,旨在利用语言数据集来训练和改进专门针对东南亚的大型语言模型。
该项目标志着改善整个地区大型语言模型的文化背景和语言能力重要一步,有望带来广泛的社会效益。
“我们遇到的主要问题是,大语言模型刚出现的时候,我尝试了Gemini,我问:我在新加坡,请帮我点咖啡。而且我还要求推荐新加坡好喝的咖啡。结果并不好,令人失望”,Google Project SEALD 的 Gen AI 和 SEA 研究合作伙伴关系亚太区负责人普拉秋莎(Pratyusha Mukherjee)在2024年Google Cloud Let's Talk AI活动上说道。
普拉秋莎补充说,她问Gemini提问的问题甚至是用英语,这是最流行的语言之一。这意味着当其他语言的用户,特别是东南亚,对于许多人来说英语不是他们的母语时,会变得更加难以理解。
“当处理这些问题并根据当地情况进行定制时,人工智能将更准确地回答它们。今天,我让Gemini给我买咖啡。它可以做得很好,甚至有一个功能,我可以通过语音提问,”普拉秋莎说道。
Project SEALD项目的目标是开发多样化、高质量的数据语料库,从五种主要语言开始:印尼语、泰语、泰米尔语、菲律宾语和缅甸语。这项工作是新加坡全国人工智能核心的Sea-Lion模型(东南亚语言网络)一部分,该计划重点是开发经过精心定制的大型语言模型,以反映东南亚独特的文化背景和语言细微差别。
此次合作包括开发本地化和翻译模型、建立数据集指令调整的最佳实践以及创建可扩展的本地化工具。不仅仅是文本,Google Cloud 还以图像形式开发。
“我们还有其他几个要求,以确保我们能够捕捉到雅加达某人所说的印尼语与二线城市或村庄中的人所说印尼语不同的情况。这些都可以根据所呈现的图像提示而发生巨大变化,”普拉秋莎说。
仍处于开发阶段,Project SEALD的数据收集和输出将以开源形式提供。该倡议的主要目的是改善与新加坡代表性不足的移民工人群体的沟通,他们的地方语言往往比英语更流利。
普拉秋莎表示,这一发展历程还很漫长,仅印尼就有约700种地方语言。
Cek Berita dan Artikel yang lain di Google News