SCBX 解锁 AI EP 9:推进 ThaiLLM 开发和应用

SCBX Unlocking AI EP 9: Advancing ThaiLLM Development and Applications

第一节:泰国的ACL和LLM路线图

SCBX 解锁 AI 又回到了第 9 集,主题为“推进泰国 LLM 开发和应用”,展示了自 ChatGPT 诞生以来一直受到世界各地人们关注的人工智能和 LLM 的故事。

本次活动有很多有趣的讨论话题。AiAT副总裁兼国家电子和计算机技术中心(NECTEC)的人工智能研究主任Thepchai Sapnithi博士在泰国做了关于ACL和LLM路线图的讲座。

但在解释 LLM 之前,Thepchai 博士首先介绍了所谓的 ACL 以及它对 AI 和 LLM 世界的重要性。

ACL 有 2 个含义如下:

  1. 计算语言学年会是计算机语言学家的学术会议,自 1962 年以来一直举办,但最初称为机器翻译和计算语言学协会。
  2. Association of Computational Linguistics 或监督和组织本次会议的人员。如果本次活动和主办方缺席,可能会导致 AI 领域的觉醒由手前转向手背。

Thepchai 博士补充说,ACL 会议一直在美国举行,直到 1996 年才开始在其他国家举行,例如加拿大和西班牙,然后于 2000 年在香港举行第一届亚洲会议。

2024 年 8 月,泰国也将主办该会议。他本人也将参加此次活动。自 2009 年以来参加 ACL 后。

原因是几年内 ChatGPT 的出现也催生了来自 Google、Microsoft、Meta、Apple 和 OpenAI 的多语言 LLM,它们专注于英语。

泰国也有泰国的 LLM,如 OpenThaiGPT 和 Typhoon 等。

Thepchai 博士还表示,泰国已经制定了包含五个人工智能行动计划的路线图,LLM 战略也在第二个方面,这表明泰国非常重视这个问题,应该对商业使用或未来研究有用。

到现在为止。他和 NECTEC 团队收到了许多来自政府和私人机构的请求,以帮助创建具有特定领域的 LLM,以帮助每个组织完成特定任务。我们必须继续监测它将如何开发和使用。

另一项重要任务是与国家研究机构 (NRA) 携手合作。高等教育、科学、研究和创新部以及数字经济与社会部创建 3 个 LLM 模式:

  1. 预训练 LLM 是一种通用的泰语基础模型,每个人都可以共享。
  2. 微调模型以支持旅游业医疗与环境
  3. 一种开源模型,私人组织可以使用它来开发和扩展到他们工作的其他行业。

正在做的另一件事是 Chatbot Arena 或让每个聊天机器人相互交谈以了解哪个机器人的信息是正确的。易于使用更实用?

Thepchai 博士强调的另一件事是,AI 的使用必须安全可靠,因此 Trustworthy AI Framework 开发项目诞生了。是否违法、淫秽、是否对心理健康友好、是否对泰国社会和文化有好处等。

最后Thepchai 博士还列出了 NECTEC 粗略规划的路线图,在未来 5 年内,将开发更多的 OpenThaiGPT,并在 2028 年开发 OpenThaiLLM 和多模型 OpenThaiLLM 3.0.0 版,用于 3D 世界教学工作。

如果一切按计划进行,我们肯定会在泰国看到更多的挑战、新奇事物和令人兴奋的事情发生。

第二节:在东南亚推进LLM研发:桥接创新和合作

这个世界上有语言障碍的地方。与外国人交流需要长期的知识和经验。但生成式 AI 的到来和 LLM 的快速发展打破了语言障碍。

到目前为止,不仅在美国或欧洲,智能和尖端的 LLM 正在开发中,而且在亚洲,尤其是东南亚,它们也在发展。

ศ.ดร.สรณะ นุชอนงค์ VISTEC-depa 主任 หนึ่งในผู้บุกเบิกด้าน LLM ในไทย มาบรรรฐายเรื่อง 推进东南亚的LLM研发:桥接创新和合作 ในงาน SCBX  解锁 AI EP 9:推进泰国 LLM 开发和应用,解释东南亚的 LLM 教育、研究和开发现在的进展情况。

最著名的项目之一在新加坡。该项目称为 SEALD(一个网络数据中的东南亚语言),或简称为 AI Singapore,是一个邀请邻国研究人员合作创建在亚洲当地语言中脱颖而出的 LLM 的项目。

这是因为所有东南亚国家都已经有了他们的主要语言。不仅如此,还有数千种方言或第二语言。该项目旨在发展包含该地区不同语言信息的 LLM 被认为是对多样性的良好利用。

然而如果研究人员要有效地研发和开发LLM,他们也必须有好的测量方法,但是今天LLM发展的问题在于它仍然难以测量。不仅在亚洲,甚至英国的 LLM 本身也仍然存在这个问题。

Sarana 博士教授解释说,测量结果有 4 个主要障碍,如下所示:

  1. 稀疏评估数据 - AI 开发和训练的语言不到 10 种。
  2. 资源缺口 - 在东南亚的 1,308 种语言中,有 700 种语言只有 1-2 个数据集可以准确测量。
  3. 资源质量 互联网上的信息质量尚未得到证实,不够准确,无法进一步使用。
  4. 文化相关性 从英语翻译而来的有关多种次要语言的信息或术语可能与该地区的实际文化或背景不符。

新加坡政府很了解这个问题,因此开发了 SEACrowd 项目,正式收集来自东南亚国家的数据集,Vistec 的研究人员也参与了该项目。

Sarana 教授博士希望 SEACrowd 将成为一个很好的基准,有助于确保获得的数据能够真正呈现东南亚地区,而不仅仅是考虑它或从西方来源翻译它。

因为不要忘记 LLM 开发是用正确的基准来衡量的。实际。它将有助于指导研究人员实现他们的目标,并让他们知道需要解决哪些问题。任何问题都不需要解决。什么将有助于未来发展 LLM 变得更好,等等。

但也有预防措施需要衡量。Sorana 教授博士举了一篇名为 Don't Make Your LLM a Evaluation Benchmark Cheater 的论文的例子,该论文得出的结论是,您应该小心谨慎地故意衡量结果以产生好看的数字。它看起来最漂亮,但在实际工作中不能用于实践,因为它与打算读书以在考试中取得好成绩但无法利用所获得的知识的学生没有什么不同。

至于未来。Sorana 教授博士肯定地说,泰国将继续与 SEACrowd 项目合作,将泰语引入中央数据库,让全世界了解更多。

第 3 节:了解文本嵌入:检索和推荐中的应用

有没有想过像 JobTopGun 这样的招聘网站如何帮助求职者找到合适的工作?答案就在 SCBX 解锁 AI EP 9:推进 ThaiLLM 开发和应用!

朱拉隆功大学工程学院计算机工程系的 Ekpol Songsuwanich 博士发表了题为“理解文本嵌入:检索和推荐中的应用”的讲座,并分享了他实践和开发 LLM 的经验。

Ekpol 博士说,我们人类有解释的能力,我们知道哪些句子与哪些句子具有相同的含义或接近哪些句子,例如 A Little Girl Seems to Be Very Sad,它与 The Little Child is Far Than Being Happy 的含义相似。

但是,在开发 LLM 时,输入信息以使计算机能够理解不同书写方式的句子的含义也是一个挑战。但含义相同或相似。

Ekpol 博士举了一个例子,说明他过去如何训练 JobTopGun 的系统,这是一个允许人们将简历上传到网站的求职网站。他的工作是不惜一切代价找到一种方法来匹配简历以找到合适的工作职位。

因此,他训练人工智能阅读求职者的简历和每个组织的每项工作的职位描述,直到它知道每个人的适当工作特征。

对于教授人工智能的学习技术,有 2 种类型:稀疏嵌入和密集嵌入。

  1. 稀疏嵌入是指让机器学习读取一本书并计算这些书有多少个关键字,例如威廉·莎士比亚的书。Battle 有多少字,或者 Soiler 有多少字,等等,然后分析好用的 Sparse Embeddings 的优点结果。例如,在某些情况下,它可能找不到你想要计数的单词,并且计算机通常会忽略具有相同含义但不是同一单词的单词。因此,可能需要从计算次数改为计算百分比或频率,而不是您遇到这个词的频率。
  2. 密集嵌入:深度学习的输入,然后将内容转换为数字。如果任何数字相同或相似。Ekpol 博士分享说,这就是他教 JobTopGun 的机器学习来学习如何阅读求职者的简历的方式。它表明求职者的简历适合公开申请的工作。

稀疏嵌入和密集嵌入都有其自身的优点和缺点。在使用它之前,您需要查看哪些情况应该使用 Sparse,哪些情况应该使用 Dense,或者是否应该一起使用它们以发挥这两种方法的最佳效果。

只需了解概念及其工作原理即可。Ekpol 博士有信心,我们将能够开发出许多有趣的东西。不断完善自身和组织的工作。

Session 4: 投资洞察释放:AI 驱动的数字 RM 和客户服务

将成为成功投资者的人时刻跟上新闻是必不可少的,但是因为这个时代的信息来得太快了,很难跟上。错过一点重要信息可能会在眨眼间导致巨大损失,而不是获利。

但是,如果投资者可以更轻松地获得投资所需的信息呢?InnovestX 的 AI 转型负责人 Veerint Itroj 先生在 SCBX Unlocking AI EP 9:推进 ThaiLLM 开发和应用题为“投资洞察释放:AI 驱动的数字 RM 和客户服务”的讲座中投影了这张图片。

Veerint 先生表示,InnovestX 目前拥有约 100 万人的客户群,但其中大多数(约 98%)是普通客户,他们投资的时间相对较少,因为他们必须全职工作,没有人建议他们购买哪些股票,出售哪些股票。您必须分配时间工作以关注来自各种来源的新闻。

而且因为目前投资的不仅是泰国股票,还有外国股票。有共同基金、债券和债券可供选择,还有加密货币等风险资产可供选择。它对我们自己的投资组合有多大影响?

另一个挑战是,客户经常通过多种渠道联系 InnovestX 查询投资信息,这使得客服不得不特别努力地接收客户的信息。

同时,很难培养人力投资专业人才。努力跟上不断增长的客户数量。

基于积累的案例,通过名为 Typhoon 的 LLM 开发了 AI 驱动的数字 RM,以帮助 InnovestX 员工开展工作,并帮助平台的客户获取最符合他们需求的投资信息。

在客户服务方面,InnovestX 使用 AI 来帮助客户服务,这是一个聊天机器人,提供开户服务或回答基本的投资问题,减少了信息过载的问题,减少了工作时间,让人类专家只处理重大案件。副产品还可以减少人为错误,帮助员工不会感到压力太大或太累。

InnovestX 的 LLM 使用的数据将取自 InnovestX 分析团队准备的分析,每篇论文都会引用所用数据的来源,以便投资者有时间可以阅读更多内容,这将有助于提高可信度并让投资者放心,分析师不会在没有原则或证据的情况下自行计算。

不仅如此,与使用 GPT4o 等其他模型相比,使用 Typhoon 的模型还帮助 InnovestX 节省了 10% 以上的预算,并且员工可以更快地响应客户。节省更多时间,让您更有信心快速为客户提供优质的投资建议。

在活动中,SCBX Unlocking AI 还实时演示了 AI 驱动的数字 RM 的使用,展示了 InnovestX 的 AI 的工作原理。如何响应客户实际输入的信息,为使用该服务的客户创造良好的感觉,以便他们能够继续愉快和成功地进行投资。

如果有人有兴趣,我想知道 InnovestX 的投资信息是否真的可靠和可靠。您可以尝试与 InnovestX 聊天。

Session 5:推进泰国 LLM 及其应用

งาน SCBX Unlocking AI EP 9: Advancing ThaiLLM Development and Applications นอกจากอัดแน่นไปด้วยการบรรร฼ายถึง LLM ในแง่มุมที่น่าสน่ ��จ ยังมีการเสวนาปิดท้ายด้วย ชื่อเดียวกับธีมงานเลยนั่นคือ 推进泰国LLM及其应用

该活动受到了在国家和全球层面学习和发展 LLM 经验的专业人士的表彰。AiAT副总裁兼NECTEC人工智能研究主任Thepchai Sapnithi博士,VISTEC-depa主任Sarana Nuchonong教授,朱拉隆功大学工程学院计算机工程系的Ekpol Songsuwanit博士,以及InnovestX的AI转型负责人Veerin Itroj女士。

跟Thitipat Achakulvisut 博士玛希隆大学工程学院生物医学工程系讲师担任司仪。

这次讨论的有趣之处是什么?Insiderly AI 总结如下:

  1. Veerint 先生说,LLM 可以应用于许多金融领域。除了处理信息以帮助投资。它还可以用于帮助解决消费者的坏账、降低成本、降低风险、帮助改善客户体验等。
  2. Ekpol 博士说,LLM 可以用于许多学术领域,以更好地照顾学生,并举了一个例子,即教师人数增加了许多倍,但讲师人数却没有以相同的比例增加。因此,他尝试使用 LLM 来帮助完成工作,例如检查考试。
  3. 然而,当我尝试检查测试时,我发现与人类的自我检查相比,LLM 并没有给出非常准确的答案。如果使用,可能会导致学生的成绩放错地方。因此,需要对其进行监控,以了解将来如何开发一个精确的系统来帮助工作并减轻教师的负担。
  4. Thepchai 博士补充说,NECTEC 也使用 LLM,但它用于简单的任务,例如将其用作聊天机器人来回答有关公司法规的问题,例如假期、休假和员工福利。复杂场景可以作为变量包括在内,以测试他们回答与所学内容不同的问题的能力。
  5. Sarana 博士教授补充说,他目前正在协助法政大学法学院培训 LLM 担任法律助理,但他之所以没有接受律师培训,是因为他还没有信心并完全依赖其比人类案件诊断更准确或等于的答案。因此,LLM 作为法律助理的角色现在仅限于帮助查找信息。预计到 9 月,将发布其使用的演示演示供大家观看。
  6. Sarana 教授强调的另一件事是:人们仍然有一个误解,认为我们可以用 LLM 作为数据库来搜索信息,这并不是因为我们没有忘记获得的信息仍然不准确,与事实相去甚远是错误的。如果有人想把它当作数据库使用,他们必须非常熟练,他们必须知道他们提供的信息是对还是错,并且他们必须经常检查它的信息。
  7. Thepchai 博士说,拥有一个提供准确信息的良好 LLM 很重要。还需要学习良好的基本信息。不过,他坦言,目前能够实践 LLM 并按预期微调答案的人屈指可数,因此如果我们想看到 AI 领域进一步发展,就需要加快人才发展,帮助提升行业。
  8. 就 InnovestX 而言,很难找到人来补充 AI Engineer 团队。与其他处于上升趋势中的国家相比。这使得人们对泰国股票的信息不太感兴趣。支持行业发展的资金量也较少。它不能有效地发展。
  9. 人的问题也导致 AI 开发行业的人们社区没有达到应有的强大程度。Ekpol 博士说,他遇到了许多组织的人,他们试图自学和开发 LLM,但当他们必须自己学习时,成本很高,并且必须支付非常昂贵的试错费。这让他看到了像 SCBX Unlocking AI 这样的讨论的重要性,它可以将对相同事物感兴趣的人聚集在一起,同时带来更好的事物。我们应该有更多这样的空间。如果你真的想让 AI 领域发展,你需要改变它。
伟大!接下来,完成结帐以获得对 The Insiderly AI 的完全访问权限。
欢迎回来!您已成功登录。
您已成功订阅 The Insiderly AI。
成功!您的帐户已完全激活,您现在可以访问所有内容。
成功!您的账单信息已更新。
您的账单未更新。