DataStax 首席执行官说:“Cassandra 是最适合 gen AI 的数据库”-DG城市

DataStax是一家提供基于开源Apache Cassandra的云数据库的公司，该公司的首席执行官切特·卡普尔（Chet Kapoor）昨天在硅谷的一次会议上吹嘘说，Cassandra是“最好的人工智能数据库”。

卡普尔的这番话是在Linux基金会活动上发表演讲时发表的，AI.Dev 有700人出席。他发表上述声明之际，新成立的初创公司和现有企业正在展开一场全面竞争，以抢占快速增长的人工智能领域的领导地位。这也是许多使用该技术的企业品牌决定他们将使用哪些技术提供商的时候。

大型语言模型（LLM）提供商之间的竞争引起了很多关注，如OpenAI、Anthropic、谷歌（Gemini）和Meta（Llama）。另一个竞争激烈的领域是最终用户公司将用于存储和检索用于 LLM 应用程序的数据的数据库。

在他的主题演讲中，Kapoor给出了DataStax Cassandra数据库与其他数据库相比表现良好的几个原因。Cassandra 已经是企业公司广泛使用的最可靠的运营数据库之一。Kapoor表示，它拥有一些公司大规模部署生成式AI的早期客户案例，其在与生成式AI相关的关键领域的技术实力继续使其在与MongoDB和Pinecone等主要竞争对手的竞争中占据优势。

以下是卡普尔看涨背后的原因：

原因 1：Cassandra 已经是使用最广泛、最可靠的操作数据库之一
卡普尔发表评论之际，Microsoft和亚马逊等大型云计算公司一直声称，他们的云产品（包括与自己的数据库集成）最适合执行生成式人工智能任务。他们一直在鼓励用户在他们的平台上进行整合，并积极消除过去阻止用户这样做的障碍，包括使数据孤立的复杂提取、转换和加载（ETL）工作。

然而，在过去的十年中，这些云公司向用户提供了太多的单个数据库，无法为客户提供专门的解决方案，卡普尔说。“早上去洗手间，”卡普尔开玩笑说，“下午去洗手间，晚上去洗手间。但生成式人工智能让这些云公司措手不及。Kapoor说，企业首席信息官现在希望将他们的数据集成到一个数据库中，以使Gen AI应用程序能够更轻松、更高效地查询数据。

在这里，Cassandra 有一个优势，因为它是更流行的“操作”数据库之一。与此同时，Microsoft和Amazon的大多数数据库都专注于分析工作负载，主要用于商业智能应用程序。虽然它们可以用于生成式 AI 应用程序的操作工作负载，但它们会变得非常昂贵，因为它们没有为此进行优化。

DataStax花了很多时间关注性价比，例如，Kapoor和首席产品官Ed Anuff在接受VentureBeat的后续采访时解释说。因此，Cassandra 最受财富 500 强公司欢迎，这些公司可以大规模提供数据。Anuff说，Cassandra拥有90%的公司作为客户。例如，Netflix 将其用于电影元数据，FedEx 将其用于跟踪包裹，Apple 将其用于其 iTunes、iMessage 和 iCloud 应用程序数据，而 Home Depot 等零售商将其用于其网站。

Anuff说，随着这些大公司开发新的人工智能应用程序，他们对Cassandra的业绩记录感到满意，因此可能会继续围绕这一点进行整合。此外，Microsoft和亚马逊已经意识到他们需要为客户提供选择。例如，亚马逊提供了一个有竞争力的运营数据库 DynamoDB，但它也为用户提供了在其云星座中轻松使用 Cassandra 的能力。通过这种方式，Cassandra还为客户提供了一种避免锁定特定云供应商的方法.

卡普尔列举了九家公司，这些公司已经在DataStax的Astra DB数据库上部署了生成式AI，这是基于Cassandra的云数据库即服务。虽然许多企业公司正在疯狂地尝试生成式人工智能，但出于对安全性和可靠性等问题的担忧，很少有企业大规模转向实际生产。事实上，该行业的紧张局势已经明显加剧。生成式人工智能的潜力可能是巨大的，但该技术的大多数供应商都同意，他们正在等待客户开始支付实际收入。这可能会在明年公司认真转向生产时到来。

部署了 LLM 的 DataStax 客户包括：

Physics Wallah 是一个印度在线教育平台，为 6 万用户提供多模态（文本、图像和音频）LLM 驱动的机器人。卡普尔说，该公司在55天内就开始部署。
Skypoint 是一家位于波特兰的 Gen AI 医疗保健提供商，面向老年人和护理提供者，使用 LLM 提供个性化的治疗和互动。卡普尔说，Astra DB正在帮助医生每周腾出10 +小时，专注于患者护理。
其他包括 Hey You、Reel Star、Arre、Hornet、Restworld、Sourcetable 和 Concide。
卡普尔说，这些公司是快速发展的中小型企业（SMB）的一部分，可以更快地发展，而企业公司则因必须遵守更多法规并避免生成式人工智能的安全问题（包括其幻觉倾向）而放慢速度。

原因 3：DataStax 的 Cassandra 技术实力在关键的 LLM 基准测试中击败了其他公司
卡普尔说，DataStax的Astra的向量搜索产品比竞争对手的向量搜索产品表现更好，相关性更高。矢量搜索是生成式 AI 数据库的关键要求，因为这是 AI 应用程序以自然语言翻译用户查询的方式，以搜索公司数据库中与该查询相关的文本或其他数据。DataStax 将其 JVector 矢量搜索技术与领先的矢量数据库竞争对手 Pinecone 进行了基准测试，发现 JVector 结果的相关性比 Pinecone 高 16%。卡普尔说，考虑到获得正确答案的重要性，这是一个巨大的差异。卡普尔说，第三方供应商将在几天内发布完整的性能基准测试报告，但他展示了一些结果的幻灯片（如下图）。基准测试还显示，与 Pinecone 和 MongoDB 相比，Datastax 具有更高的吞吐量，或者说每单位时间处理更多交易请求的能力。

20231214184238983-image

他说，Astra DB是唯一能够以零延迟提供矢量化数据的数据库，包括索引、摄取和查询。

20231214184324356-image

20231214184343900-image

卡普尔：“这一代人工智能浪潮将比我们见过的任何令人毛骨悚然的事情都要快”

卡普尔表示，人工智能的采用将比以前的技术革命快得多，因为它建立在已经存在的重要基础之上，例如网络、移动和云技术。

他说，“真正的乐趣”将从明年开始，从更具变革性和以收入为导向的用例开始，包括使用LLM作为“代理”的人。他说，这些代理允许LLM做更多的事情，而不仅仅是回答问题和提出建议，因为他们可以协调更复杂的任务。Anuff表示，生成式人工智能部署的实质性收入将在明年第二季度出现，到今年年底，零售和旅游等领域的用例将增加，“更可观”的数字将达到。

虽然 Kapor 和 Anuff 急于指出 Cassandra 的优势，但他们承认，更广泛的数据库领域将看到生成式 AI 的提升。Anuff 说，与其他数据库工作负载相比，生成 AI 应用程序执行的矢量数据库搜索使用的存储量是其他数据库工作负载的 8 倍，计算量约为 10 倍。“这就是为什么你看到所有的云提供商和所有数据库提供商都想要这项业务的部分原因，”他说。“如果人工智能应用成为一件大事，它们将成为未来五年私人和公共数据库公司的主要增长动力。

文章版权归作者所有，未经允许请勿转载。

THE END