自从 ChatGPT 等生成式 AI 诞生以来,它已经显示出它的影响力,并且可以显着处理语言数据。因此,整个世界都在迅速变化,无数语言的 Gen AI 诞生了以使用该服务。
然而,所有 AI 世代在用英语工作时似乎都特别流利,但对于包括泰语在内的其他语言,他们并没有达到应有的效果。许多人都在等待何时会出现专门研究每个国家/地区当地语言的 Gen AI。为了能够在实践中使用它。

2024 年 3 月 8 日,SCBX 和 SCB 10X 联合举办了 SCBX 解锁 AI:EP6 揭幕 SCB 10X 的台风研讨会,深入探讨台风的背景。针对泰语优化的大型语言模型


根据对其能力的评估,Typhoon LLM 的性能与 GPT-3.5 相似,处理或分析泰语文本和单词的效率是 GPT-4 的 2.62 倍。了解泰语的词汇和文化。
来自SCBX的研发和创新实验室的负责人Kaweewut Temphuwapat和来自SCB 10X的人工智能战略负责人Kasima Tharnpipitchai解释了为什么开发这个LLM,以及它如何能有效地帮助改善泰国。

不仅使用技术,而且开发技术。
Kwewut 先生解释说,过去,有许多组织创造了许多新的创新。这些创新是有助于提升组织的优势。但这正是泰国所缺乏的,因为它只对收养感兴趣,而不是发展本身。
如果你想看到导致未来生存的发展,组织只考虑用户。不SCBX 坚持这一原则,不断努力创新,其中之一就是名为 Typhoon 的生成式 AI。
SCB 是一个已经熟悉 Gen AI 使用的组织。目前,Microsoft Co-Pilot 被用于许多工作领域,包括研究、会议总结等,它发现了一个痛点,即即使国外的 Gen AI 不错,但它根本不精通泰语。因此,这是组织开发新 AI 来解决这个问题的机会。
重要的是,它将是开源的,每个人都可以访问和利用这项技术,而不仅仅是 SCB 的人。
Gen AI Open Source เพื่อชาติ
同时,Kasima 先生表示,他是最初共同推动创造台风等 AI 风暴波的人之一,他越是继续发展,他发现让这个台风吹过泰国会更好。不仅在 SCB 的部门。
“目前,有用的技术应该更加开源,因为 AI 竞赛是一项全球性竞赛。如果我们要与主要使用英语的外国人竞争。封闭的人工智能开发将无法让泰国与其他任何人竞争。除了互相打架。
“因此,我们应该共同努力,进一步发展,形成一个社区,创造一个生态系统,以和谐的方式一起工作。”
Kwewut 先生补充说,泰国有很多才华横溢的开发人员,但这并不意味着 SCB 能够与全国各地的每个人合作。开源是帮助 Typhoon 更快发展并扩展其使用模型以实现更高性能的最佳方式。
数据访问难题
让 Gen AI 发展。重要的是要拥有大量的数据是逐渐的逐渐将其提供给人工智能。但 Kasima 先生遇到的主要问题是从哪里获取信息,以便 Typhoon 能够很好地学习。
“用泰语搜索信息与英语搜索信息不同,英语更容易找到,因此需要更多的投资来查找信息。此外,当我们知道在哪里可以找到信息时,我们将不得不去医院。我们还必须筛选和清理这些信息,只留下良好和高质量的信息。
Kasima 先生表示,在开发台风 7B 模型时,将通过 ONET、TGAT、TPAT 和许多其他测试形式的数据进行教学。词汇表泰语的背景或文化,以及世界各地出现的一般知识。
而学习的结果,比他想象的还要惊讶很多倍!
台风 vs ChatGPT,拳打脚踢,谁更了解泰国文化?
除了在今天的活动中分享了开发 Typhoon 的概念外,Kasima 先生和 Kwewut 先生还尝试了这个新的 Gen AI 模型,让参与者看到经过 7-8 个多月的开发后的结果如何,以及如何用泰语提供特定于泰国文化的具体信息。

本次活动中透露的一个例子是填写提示,向 Typhoon 索取“烤鸡”的食谱。可以确认该食谱是泰国食谱的是烤米等原材料的使用。
同时如果你向 ChatGPT 询问制作“烤鸡”的食谱。虽然所得到的信息比较系统,但并没有什么可以表明它实际上是泰国版的烤鸡食谱,有可能是更国际化的烤鸡食谱,这说明台风相当了解独特的泰国文化。
对于下一个计划。 SCBX 和 SCB 10X 旨在发展 Typhoon,以提高泰国人工智能行业的竞争力,使其在未来更加高效和先进。
有兴趣帮助 Typhoon 共同成长的开发人员可以注册试用 API 形式的 Instruction-tuned 模型的初始版本,以开发更高效、更先进的大规模泰式模型。 https://opentyphoon.ai
