您的位置:  首页 > 技术杂谈 > 正文

一个技术人“误入歧途”,做了个向量数据库新物种

2022-09-15 16:00 https://my.oschina.net/oscpyaqxylk/blog/5578009 OSCHINA编辑部 次阅读 条评论

【创造者说】 

Created in the name of FOSS.


向量数据库公司 Zilliz 近日宣布完成一笔 6000 万美元的 B+ 轮融资,累计融资 1.13 亿美元。这在长于本土的开源创企中,无疑是非常耀眼的一笔。

而时间回到 6 年前,当 Zilliz 的创始人星爵带着 Oracle 出身的背景寻找投资人,说出自己想要造一个新物种而非跟随传统时,却不似当下这番光景,更多时候面对的是投资人的不解:

“怎么误入歧途呢?”

“你带着 Oracle 的背景,做个传统的数据库公司是小菜一碟,我肯定给你投钱啊。”

这些声音会让星爵开始审视要做的事情本质上对不对?自己和投资人的沟通方式需要如何改进?但有一点非常明确——敢为天下先,要做就要做这个世界上还不存在的东西,即便在短期内不被理解。

所幸,在 2017 年,星爵和他的团队成功拿到了一笔天使轮融资,开始了对“新物种”的研究。回顾公司发展,星爵将 2017 年的天使轮融资作为第一个里程碑;2019 年将第一款真正意义上的产品 Milvus 开源视作第二个;第三个里程碑则发生在 2020 年下半年至 2021 年上半年,Zilliz 确立了接下来的“五年规划”,即,把全球化作为核心发展目标。 

在过去的 6 年创业时间里,星爵关注的重点一直只有技术创新,从用户需求中摸索新的方向,然后实现它,并做到极致。商业化、资本市场的认可等要素尚未进入星爵的重点关注地带,但也因为对技术的追求,让 Zilliz 正成为下一个基础软件市场新星。

“不做”产品做技术

“在我们刚成立的那段时间里,我们觉得自己做的产品,但现在回头去看,我们当时做的是技术。”

Zilliz 的成立,来自于星爵对新技术的兴趣和自身事业转型的规划。

读华中科技大学研究生时,身在中国武汉的星爵跟随老师参与“网格计算”技术相关的研究,这一技术后来被认为是云计算的前身。机缘巧合之下,星爵所在的小组和由芝加哥大学教授主导的网格计算项目 Globus 取得联系,星爵也加入到 Globus 项目中去,学习和研究代码,并且和 Globus 合作,最终建立起中国教育科研网格——中国最大的网格计算项目之一。

这是星爵第一次通过开源协作的模式,深度参与到开源软件的建设,“如果不是开源,我很难想象到,一端是在中国武汉,另一端在美国芝加哥大学,相隔这么远的实验室科研人员能够连接起来,这对我来说非常陌生,同时也是打开了去学习全球最新技术的大门。”

硕士毕业后,星爵到了美国数据库专业数一数二的威斯康星大学麦迪逊分校就读,2009 年博士毕业进入硅谷 Oracle 工作,参与当时 Oracle 的云数据库研发。2013 年,Oracle 12c 版本发布,主题是为云计算重新设计的数据库,星爵正是核心开发人员之一。到了 2015 年,12c 已经趋向于稳定,星爵萌生了回国创业的想法。

一方面,此时的星爵在技术上有过数据处理和分布式项目经历,也见识到了一个大型数据库软件该怎么去做,希望能在不同维度拓宽自身能力。加之受到硅谷创业文化的影响,星爵想要通过技术创业,完成从工程师到技术创业者的升华。

另一方面,在星爵看来,当时的数据分析走到了一个交叉路口,AI 模型、算法的研究如火如荼。基于 AI 研究,对各种非结构化数据,包括图片、视频、自然语言等的研究也到了一个新的高度,并且取得了一些很好的结果。计算机视觉领域的图片分类水平也首次超过了人类平均水平。在这种 AI 研究与非结构化数据研究的发展之中,星爵的心中隐隐浮现一个念头:在数据处理的基础软件领域,将会有新的技术出现,新的机会正在诞生。

带着对新技术的热情,星爵开始了创业之旅,“我们选择了 AI 应用中的数据处理赛道,过去 5- 10 年间,中国的 AI 应用,以及非结构化数据处理是走在全球前列的,无论是数据的总量还是使用场景都领先于世界。”秉持着靠近需求源泉的原则,Zilliz 的故事从中国启程。2017 年,Zilliz 拿到天使轮融资,正式出发。 

成立之后,Ziliiz 最初的定位是将数据库搬到 GPU 上,基于 GPU 硬件加速做新一代 OLAP 数据库系统,进而希望将性能提高 100 倍。星爵认为,AI 时代出现了一些 GPU、异构计算等新技术,那么便可以尝试将分布式计算和异构计算、数据处理等结合起来。Zilliz 先是做了一个通过 GPU 高效并行算法加速各种数据处理的引擎,将这一想法落地。

“我们没有想清楚把这个引擎用到什么地方去,只觉得这个东西性能很好,很创新,很酷!所以要先把它做出来。”

接下来,便是拿着这个引擎不断地和用户交流,接收反馈。最终,Zilliz 发现这套技术可以很好地帮用户去加速 AI 应用中向量数据的分析和处理,并且此类用户需求是广泛存在和飞速增长的。在这样边做技术边摸索的过程中,Zilliz 逐渐将向量数据库作为核心产品方向,并坚持到了今天。

开源 + 从用户需求出发

埋头“很酷”的技术 2 年后,Zilliz 在 2019 年迎来了“技术产品化”的关键转折点。

在做数据分析处理引擎期间,Zilliz 陆续接到了用户反馈,看到了向量数据分析与处理的强劲需求。以此需求为依托,2018 年下半年开始,Zilliz 启动了新项目的调研、开发工作,并在 2019 年将成果一口气开源,这个成果便是向量数据库——Milvus。

Milvus 架构图

“对我们来说,是带着自身积累的,对大规模数据的处理能力、分布式计算能力、异构计算等能力,跨越了从技术到产品的鸿沟,找到了明确的产品方向,即向量数据库。”但对于 Milvus 之后的发展,当时的星爵心里也没底:“我们看到了用户需求,看到了市场机会,但我们不知道自己提供的产品是不是真的能够完美满足市场需求?”

出于这个“痛点”,再加上团队开放的工程师文化,Milvus 从发布之日起开源,采用 Apache 许可证。“开源开放是我们公司长期以来的基本原则,这是一群工程师很质朴的想法,我们希望好的技术可以更快传播出去,帮行业的人取得更好地成功,也通过开源把技术开放出去,获得更广泛地支持。”

对于这款开源产品成功与否的考量,标准只有一条:“它能不能取得很好的早期用户增长。”这个结果直观反映出产品是否真正解决了用户的痛点,是否真的为其他开发者创造了价值。最终,Milvus 在开源的半年内,拥有了约 60 家企业级用户。“我记得从有了第一个用户之后,基本上每周都会有捷报,最初是每周一个用户,然后第二周增加了三四个,第三周又增加了七八个。”

Milvus 用户图 

事实上,Milvus 瞄准的价值市场,在过去基本是一篇空白。

在星爵看来,数据库行业在过去 20 年经历了一场巨大的“分化”,关系型数据库、分布式数据库、图数据库、文档数据库、时间序列数据库……未来,在 AI 时代,会有更多数据库类型出现,“比如我们现在提到量子计算,那很有可能接下来会出现一个面向量子计算的数据库。”整体上,这个行业在不断的分工与分化,类似汽车行业,在过去 100 年间,发展出几十上百个细分品类,在数据库领域也是同样,并且有两点是不变的:

第一,人类的需求是不断增加的,第二,人类社会的数字信息化程度在不断提高,那么人们对数据分析和处理的需求必然也是在上升的,因此便会催生出更多数据的应用场景,而在每个新兴的应用场景之下,都会出现一些更加具体、分工更加明确的数据库产品。

那么,再看回 Milvus,它并不需要和其他种类的数据库做比较,而是专注于为 AI 应用处理非结构化数据,比如为金融应用做欺诈分析等等,满足新兴的非结构化数据处理需求即可。

不仅仅是 Milvus,对于所有项目,Zilliz 的判断标准只有“需求”。

2021 年 9 月,Zilliz 发布 Milvus 的上游软件 Towhee。

“我们推出新项目只考虑一个问题,那就是解决用户需求。”Zilliz 会从用户需求中提炼出该做一个怎样的产品给到用户。具体到 Towhee,本质是用户在使用 Millvus 的过程中,虽然能很好地解决数据分析问题,但是对于一些中小型公司来说,从各种不同的非结构化数据中提取向量数据本身需要投入很多资源。因此,为了解决这部分用户需求,Zilliz 推出开源的 embedding 框架 Towhee,包含丰富的数据处理算法与神经网络模型,可以帮助用户完成原始数据到向量的转换。

在评估需求方面,Zilliz 的方法非常“朴实”,通常是在用户群中主动收集或接收需求,然后将用户反馈做汇总、归类、排序,筛选出高频需求,归纳趋同的需求。然后将数据结果放到研发社区做进一步讨论,最终根据讨论结果规划产品的设计与迭代排期。

只在云上挣钱

对于做技术该怎么挣钱的问题,星爵和他的团队很早就有一个标准:在公有云上通过服务赚钱。

落实到具体在什么时候实现商业价值的转换,就变得非常“随缘”。

2019 年 Milvus 产品开源之后,很长一段时间内,这只队伍都沉浸在“如何打造一个全球技术领先的产品”的目标之中。回看当时的想法,星爵是抱着“如果这个技术和产品能够解决用户的痛点,同时技术上又是全球领先的,那么一定能为公司创造价值,所以前些年我们并没有太去考虑商业模式,而是专注的把产品做好。”

对于 Milvus 团队来说,2020 年底,产品开始迈入成熟阶段,Milvus 已经拥有 500 多家企业级用户,产品趋于稳定。他们发现了新的用户核心需求:用户希望能在云上使用。对用户来说,云服务可以省去安装部署的步骤,直接通过 API 调用,那么开发和维护成本也会降低。就这样,Zilliz 启动了公有云产品的研发。

日前,Zilliz Cloud 的测试版本正式上线。Zilliz Cloud 定位于依托公有云的全托管数据库即服务,旨在为向量数据处理、⾮结构化数据分析和企业 AI 应⽤开发提供⼀站式解决⽅案。 

Zilliz Cloud 架构图

Zilliz Cloud 本质是 Database as a service,是将 Zilliz 向量数据库的能力以云上全托管的方式提供给用户,免去用户部署和运维的工作。同时,也帮用户解决云上数据安全的问题,包括数据合规、高可用、容灾等等,为各类在开发 AI 应用的企业,在其开发过程中,极大地简化非结构化数据管理的过程。

在云产品之前,Milvus 开源社区的用户想向 Zilliz 购买服务的,都会遭到拒绝,“很早之前我们就决定,云才是我们商业产品的形态,除此之外,不会收用户的钱。”

事实上,许多开源的基础软件都和 Milvus 一样,在走一条开源+长时间免费的道路。在星爵看来,基础软件的第一个特质就是技术门槛高,那么在研发阶段,就是一个慢工出细活的活动,需要长期投入,不断总结用户需求,将其做成通用产品。另一大特质则是一旦做出了个全球领先的技术和产品,就会出现“赢者通吃”的格局。而这也是 Zilliz 长期坚持以技术主导,开源开放的重要原因之一。

谈谈当下

当下,Zilliz 正沿着一年多前定下的策略,走全球化的路子。具体到刚刚起步的云服务业务,北美市场将是接下来一两年关注的重点。

“如果我们看全球市场的估量,在基础软件领域,美国市场占全球市场的 30%-40% 左右,是全球第一大单一市场。”因此,将全球化作为目标的 Zilliz 将国际化的主战场放到了北美。目前 Zilliz Cloud 已在 7 月支持 AWS,接下来将会进一步扩展能力,形成多云方案,包括支持谷歌云计算平台 GCP,微软的 Azure,实现北美三大公有云的跨云方案。

对于 Zilliz 来说,其与大型公有云厂商之间是竞合关系,一方面 Zilliz Cloud 依托于公有云平台,另一方面,在星爵看来,同台竞技也更能催生技术创新,“我们的信心是源于我们是一个创业公司,可以更快速地迭代产品,实现技术创新,所以在和公有云厂商同态竞技的时候,我们会坚持开源开放,唯有产品和技术能保持核心竞争力,才能最终与大象共舞。”

谈及 Zilliz Cloud 未来的发展,星爵并没有做过多预测:“我不做预测,我们公司也很少做预测,预测容易打脸”。而商业化和营收,也依旧不是当下星爵关注的重点。面对在资本市场取得的成绩,星爵将其归因为团队以技术为导向,敢为天下先地去创造了新技术,并将其做到极致,“大家都知道稀缺性很重要,但往往在亲身实践的过程中,会发现追求稀缺性是一件很奢侈的事情,稀缺性是孤独的,相当不确定的,高风险的。”

同时,在星爵看来,将产品和技术做到极致之后再谈商业化,也会更加容易实现,“我们要先打造一个优异的产品,这个产品如果不做到全球领先,我们认为就不应该推向市场,更不应该拿去卖。”


【创造者说】

OSCHINA 全新开源创企访谈栏目【创造者说】。

开源社区需要创造者,他可以是个人,也可以是由个人组成的公司。开源软件发展 20 余年,来自公司的开源贡献者已经成为中坚力量,更是有一批公司围绕开源软件而创办。本栏目将聚焦开源创企和他们的创始人,探讨当下的开源现状,分享开源商业故事,为开源社区添砖加瓦。

【创造者说】专栏面向所有开源创企,欢迎填写下方问卷,向我们推荐那些有创造力的公司:https://www.wjx.cn/vj/P2FFev2.aspx

往期回顾:

支流科技:社区是杠杆,让付费用户主动找来

张亮:为发展 ShardingSphere 创办 SphereEx,看好云上订阅制

成立两年不谈营收,这家公司在想什么?

老同事拉我创业,做一家开源存储公司

Jina AI:定义开源神经搜索,A 轮融资 2 个亿

展开阅读全文
  • 0
    感动
  • 0
    路过
  • 0
    高兴
  • 0
    难过
  • 0
    搞笑
  • 0
    无聊
  • 0
    愤怒
  • 0
    同情
热度排行
友情链接