科技
业界 互联网 行业 通信 科学 创业

Zilliz 创始人星爵亮相 GAIR 2023!向量数据库成大模型开发者关注焦点

来源:今日热点网 2023-08-16 15:40:24
A+ A-

日,由 GAIR 研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主办的第七届 GAIR 全球人工智能与机器人大会,在新加坡乌节大酒店拉开帷幕。

此次大会是在大模型技术爆炸时代,国内首个出海的 AI 顶级论坛,也是中国人工智能影响力的一次跨境溢出。本届大会共开设 10 个主题论坛,聚焦大模型时代下的 AIGC、Infra、生命科学、教育、SaaS、web3.0、跨境电商等热门领域的变革创新。

其中,“大模型时代超级基建”的主题引发业内的激烈讨论。过去数年间,AI 领域应用落地曾一度乏善可陈。但在刚刚过去的几个月,ChatGPT 引爆了大模型的浪潮。尽管如此,当前的大语言模型的训练然面临诸多挑战。“大模型时代的超级基建”旨在与行业头部公司共同探讨 AI 底层基础设施相关话题。Zilliz 创始人兼 CEO 星爵在“大模型时代超级基建”环节进行了主题演讲,并参与圆桌论坛的讨论。

星爵指出,过去十年,受限于研发成本和开发难度,全球仅有 1% 的开发者专注于 AI 领域的研发工作。但如今,有了大模型和向量数据库作为能力基座,一个 AI 应用的开发仅仅需要两三个工程师一个周末的时间便可完成。正可谓“忽如一夜春风来,千树万树梨花开。”

此外,星爵还强调了向量数据库之于大模型的重要。他认为,向量数据库承担着大模型数据片外存储的重任,不管是图片、视频语言还是生物学中蛋白质的三维结构,都可以用向量的方式表征它的语义。

针对数据实时和私域专有数据的问题,星爵表示,学术界和工业界存在两种解决方案,一是通过Fine tuning方式迭代演进,让大模型学到更多知识;二是通过 Vector search方法,把最新的或私域知识存到向量数据库中,需要时再在向量数据库中做基于语义的向量检索。上述两种方法都能为大模型提供更加精准的答案。

不过,星爵也坦言,从成本角度出发,向量数据库的成本是 Fine tuning的1/ 1000。所以大模型厂商都无一例外地推荐开发者使用向量检索的方式做知识库管理,以便和模型有一个更好交互,降低落地使用成本的同时,提升在业务中的实际效果

在演讲过后的圆桌论坛环节,星爵与云启资本合伙人陈昱、潞晨科技创始人尤洋、UCloud 季昕华共同讨论了当下备受关注的热门话题,包括大模型基础设施建设面临的挑战、如何降低大模型训练成本等。

在被问及大模型基础设施建设面临的挑战时,星爵强调了数据方面的问题。他表示,世界上有 80% 以上的数据都是非结构化的数据。过去十多年,非结构化数据的管理能力主要由谷歌、软等大公司掌握。星爵表示,新 AI 时代对数据管理的要求也会变得更大,如何更好地做好数据基建,对各行业各公司而言都是不小的挑战。

针对业内非常关心的成本问题,星爵表示,就降低成本而言,从向量数据库角度来看,主要包括三方面:第一,要有更好的算法;第二,要更聪明地利用个体存储;第三,要比以往有更强的有效利用硬件的能力。

 

责任编辑:kj005
文章投诉热线:156 0057 2229  投诉邮箱:29132 36@qq.com

相关新闻

精彩推荐