您的位置:  首页 > 技术杂谈 > 正文

Kyligence 韩卿:改变人类使用数据的习惯,从智能数据云开始

2021-08-06 18:32 https://my.oschina.net/u/4518120/blog/5167055 冰拿铁 次阅读 条评论

7月30日,Kyligence 在上海成功举办 Data & Cloud Summit 2021 行业峰会,本次峰会以"云 · 数据 · 智能"为主题,聚焦数据服务与管理领域的前沿趋势、领先技术及最佳实践。峰会现场,中国通信学会副秘书长文剑,以及经济学博士、亚洲金融合作协会创始秘书长杨再平进行了开场致辞来自Gartner、招商银行、微软、联合利华等企业嘉宾进行了精彩的主题演讲,同时各领域合作伙伴也带来了金融科技、云上创新、数字化转型、开源有道四场近 30 个专业的主题分享,总计超过 1000 位嘉宾齐聚现场并进行了热烈讨论。

Kyligence 联合创始人兼 CEO 韩卿在现场正式对外宣布了企业全新"智能数据云"战略、Kyligence 最新产品以及一系列合作伙伴计划。以下是韩卿在峰会现场的演讲实录,他从专业的视角分析了目前企业数据管理面临的痛点,以及进一步详细地阐述了"智能数据云"战略,希望可以给您带来一些启发

以下是演讲正文:

大家早上好!

非常高兴在今天举办 Kyligence 行业峰会。非常遗憾去年的疫情让我们缺失了一届,不过此刻的我们也非常幸运,“烟花”台风刚刚过去,今天早上黄浦江畔晴空万里。

Kyligence 已经成立五年了,五年来离不开大家的支持,在这里我仅代表中国和美国三百多位小伙伴向客户、合作伙伴、投资人,以及各行各业关心 Kyligence 成长的关注者们表示衷心的感谢,感谢各位在过去对我们的支持、信任,尤其重要的是鞭策!过去五年,Kyligence 有非常多的总结和相应的业务实践,所以今天非常荣幸能够基于过去对中国、美国以及亚太市场的业务实践和对未来技术趋势的观察和了解做一些探讨,此外,接下来我也会向大家汇报一下 Kyligence 未来战略的改变和产品的趋势。

行业假设发生变化

大家知道从上世纪70年代 AC 尼尔森公司介绍了数据集市开始,数据仓库这个技术成为一个必不可少的基础架构。尤其是 Bill Inmon 、Ralph Kimball 两位大拿奠定了数据仓库的理论基础,在这之后数据仓库在 Bill 的自顶向下模式和 Kimball 的自底向上模式之间引起了很多争论,大家相爱相杀了很多年。在当年构建数据仓库的时候有一些假设,例如数据相对比较少,计算、存储比较有限,网络处于低速时期等。

那么问题来了,三四十年之后,在云的时代,数据仓库的行业假设跟以前是不是一样呢?做任何的技术架构,如果它的行业假设有一些变化,那随之采取技术的选择、架构一定是不一样的。那我们今天认为,在云的时代这些行业的假设已经有了巨大的、根本性的改变。今天我非常荣幸可以跟大家分享一些我们在这方面的思考以及总结。

首先,过去数据仓库的构建模式是集中式的,刚才举例介绍到,因为以前人没有非常集中,我们认为把数据集中起来就好了,所以解决了数据烟囱(信息孤岛)问题。但今天数据是天然分布的,数据不仅在不同的系统里面,它们甚至在多个云上,更甚者在一个云、多个数据库里面。

其次,数据量已经大到不可能集中起来,几十个 PB 数据只是一个“起步价”。这么大的数据量,让特别是在云环境下的数据传输变得不再现实。

再看,随着 GDPR 数据隐私法案的来临,企业不可能把所有数据都进行汇总。

所以整个数据仓库构建模式从“Collect”——把所有数据收集起来,到“Connect”——所有数据有机地连接起来,这是第一个改变。

第二,使用数据的人发生了根本性改变。以前都是决策者、专家去使用这些数据,或者有一个专业化的团队,包含项目经理、各种工程师等,经过三个月、六个月给出一个决策方案。而今天使用数据的人已经发生了根本性改变,他们是一线工作者,他们是非技术或者分析岗位的职场人。我们发现企业不可能为每一个业务人员配备一支庞大的分析团队,而且整个数据 IT 构建模式也发生了巨大的变化,没有那么多人去服务它,所以对企业来说,要么投入更多人力、物力赋能数据管理,要么就用技术去改变它。

第三,数据的消费方式发生了变化。以前是从已知问题找已知答案,现在需要从未知问题找未知的答案。早前有一个客户来和我沟通,他说:“假设我是一个数据分析师,我想要分析…"。我说:“停,不对。”现在的业务人员无法了解这么详细,他们希望的是你告诉我有什么,企业可以基于已知的一些数据、文化、能力,并沉淀之后自动推荐给需要的人。例如我们服务平安银行的时候,当工作人员去看一些指标,对方怎么知道现在存款指标非常重要呢?这些应该是系统自动告知,而不是工作人员自己想出来的。同时,现在大家习惯用两样东西,一是手机,二是搜索。所以,市场必须降低整个数据使用的门槛,用技术迭代来帮助客户推送更具价值的数据。

随着数据越来越多,使用端越来越多,数据的搜集与管理变得难上加难;另一方面,企业又希望数据能够多面化,顾及到、赋能到每一个业务人员,这就导致了两者之间不可调和的矛盾愈加明显,越来越混乱。现在的 CIO 已经相当焦虑,我们发现他们找数据的时间远远超过使用数据的时间。“用1个月时间找数据,分析一下只要2分钟”。现状是企业根本不知道有价值的数据在哪里,以前是没有数据,所以企业希望 IT 把数据全部收集起来;而今天是数据太多、信息过载,企业已经不知道该要什么类型的数据。

所以,基于我们过去对业务的一些实践以及与客户的探讨,我们将未来的战略定义在以云技术为核心,以人工智能为推动来解决所有的技术和数据的问题。所以我们全新的战略将变成“智能数据云”。

智能数据云应运而生

我们认为,未来使用数据应该像使用云计算一样简单和方便。今天你需要一个算力的时候,根本不需要知道这些算力是来自英特尔、戴尔,还是惠普,只需要向底层云厂商灵活申请内存、带宽、使用时间即可。现在行业需要的是平台向数据申请人直接给出客户数据、订单数据、实时部署数据等。平台应该要帮企业解决这个问题,这就是一个新的理念或战略——智能数据云,我们可以帮助企业解决这个问题。

Kyligence 在不断增强分析能力之外,会向数据管理转移,将人工智能逐步引入到平台里来。我们会逐步去掉 Hadoop ,平台也会更加智能化和自动化。虽然今天 Hadoop 依然是极具优势的大数据平台,但五年以后、十年以后,随着下一代云技术的发展,数据服务与管理会有新的不一样,我们也相信技术会往云这个方向进行转移。

上面这张图很好阐述了 Kyligence 智能数据云平台——我们不希望这个平台把客户所有的数据汇总到这里来,我们要帮客户 connect 所有的数据源,平台能够自动识别最有价值的数据,希望用最简单的方式去让业务人员使用我们的数据,去赋能数字化转型。

我展开来讲一下:

第一,我们会以一个受治理的数据集市的概念做这个事情,用统一的指标口径,统一的语义标准,统一的数据服务进行管理;

第二,我们会专注做 AI 增强的数据管理,AI 增强让数据分析与管理的效率大大提高,机器代替人可以做很多表格的工作,把人解放出来做更有价值的事情,比如数据的审计等等;

第三,我们会采用敏捷的云原生架构,支撑业务敏捷化,尤其疫情以后,整个平台不能变成云平台的话,在剧烈变化中是很难适应的。

Kyligence v4.5 新品发布

基于上述理念,我们也更新了自身的产品,Kyligence v4.5 将会更加满足市场和客户的需求,这个产品会以企业版以及公有云版本为主,接下来具体展开介绍一下相关特性:

这是我们整体的架构。中间是刚才介绍过的受治理的数据集市,企业不需要把所有数据都放到我这里来,我可以通过各种各样的方式连接起来,甚至铺装到原始的数据当中去。这样的好处是我的平台可以变成你的统一的访问入口,在这个过程中我知道你想要什么数据之后,就可以自动化地去帮你去管理数据集市了,这就是 AI 增强带来的核心能力。同时看到底层,在最早基于 Apache Kylin 的能力上,我们引入了 Clickhouse,更好地支撑全场景 OLAP 。

今天来说,在整个消费端,我们已经从支撑大量的企业内部分析应用转换到支撑的是应用本身,已经有美国和中国的客户基于我们的技术在互联网上提供这样的能力,甚至提供数据产品重新卖给了客户。未来所有的软件公司都将成为一个 SaaS 公司,每个 SaaS 公司都会是一个数据公司,你的数据怎么去变现?你的数据怎么去做更好的服务?我们在服务了很多客户之后有了一些经验。

另外,我们在美国的客户也有非常好的应用,它用 APP 做了一个市场风控模型,整个底层的服务平台来自我们,部署在整个 Kyligence 的云平台上,带来非常大的效率和能力的提升,目前智能数据云平台已经对接到了各大公有云平台,后面我也会介绍私有云的目标。

总之,通过我们新的产品,用 AI 增强的数据服务和管理等能力,打造全场景的OLAP,可以更好帮助企业提升数据服务与管理的能力。下面,我想重点强调几点:

01 ClickHouse 的整合

Clickhouse 过去一两年在中国特别地火,这是一个很好的技术,不过它有它的优势,也有劣势。其实 Apache Kylin 一直在整个聚合查询上做的不错,我们的客户说要不要把 Kylin 和 Clickhouse 一起合并尝试一下?这个需求提出后,我们看到了一些可能。通过 Kyligence 智能分层存储(Smart Tiered Storage™️)技术,将 ClickHouse 有机融合在 Kyligence 产品的基座中,在原有聚合分析的高性能之上,更有效提升了明细分析、Ad-Hoc 查询等场景的性能和优势。

02正式支持批流一体能力

全场景的OLAP 还有一个很重要的方面就是正式支持批流一体能力,进一步扩宽了全场景 OLAP 的能力,仅通过一个数据模型、一个 SQL 语句,就能同时接入批数据和流数据,对数据应用提供统一的查询接口,助力企业极简化数据应用架构,使用同一个系统和架构来同时满足不同需求,以更快地响应业务敏捷性。

03持续对 AI 增强引擎的投入

另一方面,我们也会持续在 AI 增强引擎上不断地投入和突破。基于 AI 增强引擎,Kyligence 能够根据业务分析行为自动推荐数据模型,帮助企业从海量的分析负载中识别和沉淀数据资产,并根据业务变化智能更新模型,实现自动化构建和管理。

除此之外,AI 增强引擎还能够自动清理低效存储,不断优化 TCO。大量的数据被分析,数据仓库拼命地做项目,但是清理这件事情很少发生。有银行的客户跟我说有 10 万张报表,平均每张访问量非常低,访问量低浪费了大量的计算资源、存储资源,浪费了大量的人工去做这些工作。今天 Kyligence 可以告诉你不再被使用或者使用率很低的数据,可以挪到历史存储区。

结合前面说的,通过不同的数据源让我们这个数据服务和管理平台成为统一访问数据入口之后,我们有能力告诉你最有价值的数据是什么,数据资产应该如何被管理、并驱动业务决策产生价值。

04 统一的语义层

此外,我们希望通过统一的业务语义来支撑不同的业务场景,例如 Kyligence 对电子表格的百亿级业务支撑是全球独步天下的,这点在中美两国都有很多客户实践。当然这其中还有很多挑战,例如电子表格连在后台还是面临一些压力,但是可以告诉大家的是,我们的创新取得了新进展,通过专利技术的突破,可以直接赋能到一线的电子表格用户。

通过不断地服务客户,我们发现一个令人惊讶的事实,某一个客户全国大概有上万家门店,只有八九个人的 IT 团队,负责人需要每天下班之前导出数据让他们第一时间拿到数据做分析,这是中国真正的现状。这就带来几个问题:

  1. 安全问题,数据满天飞的时候,安全面临着严峻的考验;
  2. 业务的定义其实永远不在管控的范围内,散落在各个地方;
  3. 整个后台没有业务的积累,永远只是在导出数据。

我们希望构建统一的业务语义,可以在不同 BI 之间使用,以及中央管控整个安全,其实会带来非常好的价值。最重要的是,在这个过程中业务使用的痕迹被留了下来。往往我们业务跟 IT 的挑战是,业务很难告诉你他想要什么或者如何分析的,他们没有办法用 IT 语言告诉后端。但是如果后台转化的时候就可以通过机器学习的方式推荐给需要的人。

05 提供企业级运维管理服务

产品新版本会提供企业级的运维管理能力,把所有的集群管理起来,甚至可以做到多租户的管理,通过指标监控、告警等实现自动化生产运维,以满足银行、保险等行业严格的 IT 合规要求。我们有非常好的监控统计,甚至这些能力可以被开放出来,通过 API 接口组合到客户自己的运维和管控系统里去。关于信息安全和合规,目前我们已经拿到了 SOC 2 Type 1、ISO27001 信息安全管理体系和 ISO9001 质量管理体系。

目前,Kyligence 产品已经支持多个公有云平台,包括微软 Azure 、亚马逊 AWS ,今年六月份刚刚支持了华为云,这个合作也帮我们拿下了泰国的单子。后续还会登陆谷歌云、阿里云、腾讯云。我们将在整个公有云的平台上不断地投入,去支持更多的应用场景。未来我们也希望能保证我们的客户在多个云的不同架构和平台上,业务的使用方式、体验和接口都是一致的,即使你迁移到一个云平台,上层应用不用改变。在公有云上,我们完全没有了 Hadoop 的依赖,只依赖了云的对象存储和计算资源,可以做到自动缩容,自动监控。

不过,我们仍需考虑到还在使用私有云的客户,他们该怎么办?随着企业对私有云架构的需求高涨,Kyligence 也正式推出玄武计划,加速下一代基于 Kubernetes 及分布式对象存储等架构的私有云产品落地的进程,Kyligence 将为大型企业级客户提供私有云环境运行 AI 增强数据服务与管理的能力, 目前实验室已经完成了对接和测试。

我很喜欢玄武计划这张图,这张图是龟和蛇的合体。为什么选这个?第一这代表,如果公有云在天上,那我们想找一个地上的海。第二叫,玄武带来的稳定,对业务架构很重要。第三叫做长寿,我们希望技术架构或者平台对市场的影响时间可以更加长久,我们也希望以此为机会,鼓励我们的客户、合作伙伴可以加入到我们的共创计划中,用业界的能力一起去打造基于私有云的业务架构。

另外,我也很高兴宣布今年我们升级了业务合作伙伴体系 Kyligence Partner Network,联合全球的合作伙伴去构建数字生态能力,对于我们公司的定位来说,我们是专注在整个产品和技术的研发上,希望在这个点上做到更深、更强,跟更多的合作伙伴做更多的联合。

数据越来越多,数据越来越重要。我们希望数据能够更好地服务人类,而不是让我们成为它的奴隶。所以今天非常高兴跟大家宣布 Kyligence 未来的新愿景——改变人类使用数据的习惯。我们希望用更大的能力去赋能到从一线业务人员到高层决策者,能够去改变整个数据的使用方式和方法。非常感谢大家对 Kyligence 的认可和支持,Kyligence 将继续秉持专业的态度服务客户,也感谢各位合作伙伴参与其中,一起创造数据服务与管理的新未来。

关于我们

Kyligence 由 Apache Kylin 创始团队创建,致力于打造下一代智能数据云平台,为企业实现自动化的数据服务和管理。基于机器学习和 AI 技术,Kyligence 从多云的数据存储中识别和管理最有价值数据,并提供高性能、高并发的数据服务以支撑各种数据分析与应用,同时不断降低 TCO。

Kyligence 已服务中国、美国及亚太的多个银行、保险、制造、零售等客户,包括建设银行、浦发银行、招商银行、平安银行、宁波银行、太平洋保险、中国银联、上汽、一汽、安踏、YUM、Costa、UBS、Metlife、AppZen 等全球知名企业和行业领导者。公司已通过 ISO9001,ISO27001 及 SOC2 Type1 等各项认证及审计,并在全球范围内拥有众多生态合作伙伴。

Kyligence 获得了来自红点、思科、宽带资本、顺为资本、斯道资本(富达国际自有投资机构)、Coatue Management、浦银国际、中金资本旗下基金、歌斐资产、国方资本、ASG、宏兆基金、浦信资本等投资机构的多轮投资。目前公司已经在上海、北京、深圳、厦门、武汉及美国的硅谷、纽约、西雅图等开设办事机构。

展开阅读全文
打赏
1 赞
0 收藏
分享
加载中
更多评论
  • 0
    感动
  • 0
    路过
  • 0
    高兴
  • 0
    难过
  • 0
    搞笑
  • 0
    无聊
  • 0
    愤怒
  • 0
    同情
热度排行
友情链接