超越聊天机器人:嵌入的广阔世界

超越聊天机器人:嵌入的广阔世界

大型语言模型 (LLM) 的日益普及也引起了人们对嵌入模型的兴趣,深度学习系统将不同数据类型的特征压缩为数值表示。

嵌入模型是检索增强生成(RAG)的关键组成部分之一,是LLM在企业中的重要应用之一。 但嵌入模型的潜力超出了当前的 RAG 应用。 在过去的一年里,嵌入式应用取得了令人瞩目的进展,2024 年有望有更多的库存。

嵌入的工作原理

嵌入的基本思想是将一段数据(如图像或文本文档)转换为表示其最重要特征的数字列表。 嵌入模型在大型数据集上进行训练,以学习最相关的特征,这些特征可以区分不同类型的数据。

例如,在计算机视觉中,嵌入可以表示重要特征,例如某些对象、形状、颜色或其他视觉模式的存在。 在文本应用程序中,嵌入可以对语义信息进行编码,例如概念、地理位置、人员、公司、对象等。

在 RAG 应用程序中,嵌入模型用于对公司文档的特征进行编码。 然后,每个文档的嵌入都存储在向量存储中,这是一个专门用于记录和比较嵌入的数据库。 在推理时,应用程序计算新提示的嵌入,并将其发送到向量数据库,以检索嵌入值最接近提示值的文档。 然后将相关文档的内容插入到提示中,并指示 LLM 根据这些文档生成响应。

这种简单的机制在定制 LLM 以根据其训练数据中未包含的专有文档或信息进行响应方面发挥着重要作用。 它还有助于解决幻觉等问题,其中 LLM 由于缺乏适当的信息而产生虚假事实。

 

超越基本的 RAG

虽然 RAG 一直是 LLM 的重要补充,但检索和嵌入的好处不仅仅是将提示与文档匹配。

“嵌入主要用于检索(也许用于概念的良好可视化),”LlamaIndex首席执行官Jerry Liu告诉VentureBeat。 “但检索本身实际上非常广泛,并且超出了简单的聊天机器人的问答范围。

Liu说,检索可以成为任何LLM用例的核心步骤。 LlamaIndex 一直在创建工具和框架,允许用户将 LLM 提示与其他类型的任务和数据相匹配,例如向 SQL 数据库发送命令、从结构化数据中提取信息、长格式生成或可以自动化工作流的代理。

“[检索]是向LLM增加相关上下文的核心一步,我认为大多数企业LLM用例都需要至少以某种形式进行检索,”Liu说。

嵌入还可用于简单文档检索以外的应用程序。 例如,在最近的一项研究中,伊利诺伊大学厄巴纳-香槟分校和清华大学的研究人员使用嵌入模型来降低训练编码LLM的成本。 他们开发了一种技术,该技术使用嵌入来选择数据集的最小子集,该子集也是多样化的,并且代表了LLM必须完成的不同类型的任务。 这使他们能够用更少的示例来训练高质量的模型。

企业应用程序的嵌入

“向量嵌入引入了处理任何非结构化和半结构化数据的可能性。 语义搜索 – 老实说,RAG是一种语义搜索应用程序 – 只是一个用例,“Qdrant首席执行官Andre Zayarni告诉VentureBeat。 “处理文本以外的数据(图像、音频、视频)是一个大话题,而新的多模态转换器将实现这一目标。”

Qdrant 已经为在不同应用程序中使用嵌入提供了服务,包括异常检测、推荐和时间序列处理。

“总的来说,有很多未开发的用例,随着即将到来的嵌入模型,这个数字还会增长,”Zayarni说。

越来越多的公司正在探索使用嵌入模型来检查他们生成的大量非结构化数据。 例如,嵌入可以帮助公司对数百万条客户反馈消息或社交媒体帖子进行分类,以检测趋势、常见主题和情绪变化。

“对于希望对大量数据进行分类以识别趋势和开发见解的企业来说,嵌入是理想的选择,”Cohere 的嵌入负责人 Nils Reimers 告诉 VentureBeat。

微调嵌入

2023 年,在使用自定义数据集微调 LLM 方面取得了很大进展。 然而,微调仍然是一个挑战,到目前为止,很少有拥有大量数据和专业知识的公司这样做。

“我认为从RAG到微调总会有一个漏斗; 人们会从最容易使用的东西(RAG)开始,然后将微调作为优化步骤,“刘说。 “我预计今年会有更多人对LLM/嵌入进行微调,因为开源模型本身也在改进,但这个数字将小于做RAG的人数,除非我们以某种方式在使微调变得超级易于使用方面做出重大改变。

微调嵌入也有其挑战。 例如,嵌入对数据转移很敏感。 如果你在短搜索查询上训练他们,他们在长查询上的表现就不好了,反之亦然。 同样,如果你在“什么”问题上训练他们,他们在“为什么”问题上的表现也不会那么好。

“目前,企业需要非常强大的内部ML团队来使嵌入微调有效,因此与LLM用例的其他方面相比,通常最好使用开箱即用的选项,”Reimers说。

尽管如此,在提高嵌入模型的训练过程效率方面还是取得了进展。例如,Microsoft最近的一项研究表明,预训练的LLM(如Mistral-7B)可以进行微调,以使用由强LLM生成的小型数据集嵌入任务。这比传统的多步骤过程要简单得多,后者需要大量的体力劳动和昂贵的数据采集。

LLM和嵌入模型的发展速度,我们可以期待未来几个月有更多令人兴奋的发展。

© 版权声明
THE END
喜欢就支持一下吧
点赞8 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情代码图片

    暂无评论内容