随着互联网技术的发展、云计算技术的成熟、人工智能技术的兴起和数字化经济的崛起,数据已成为企业的核心资产。在金融行业中,数字化已成为了支撑各类业务场景的核心力量,包括个人理财、企业融资、股票交易、保险理赔、贷款服务、支付结算、投资咨询、资产管理等等。然而,在基于大数据分析与处理技术的业务建设中,当下的金融企业也面临许多挑战与不足:
金融行业的数字化转型已经被推上日程,选择正确的技术与工具以完成大数据业务的构建是抓住机遇的关键一环。在众多应对数字化转型的策略中,实时数仓可以帮助企业实现数据的实时采集、存储和查询,通过 T+0 的大数据分析流程帮助企业快速通过数据捕捉到业务变化。而 DataOps 则可以帮助企业实现数据的快速交付、高质量和高效率,从而更好地支持业务决策和创新。基于实时数据仓库+DataOps 展开数字化转型已经成为趋势。
SelectDB 是飞轮科技基于 Apache Doris 打造的新一代实时数据仓库,面向不同行业提供通用的端到端实时大数据分析解决方案,帮助企业轻松构建起 T+0 的实时大数据分析流程。目前,飞轮科技已推出 SelectDB Cloud 和 SelectDB Enterprise 两款企业级产品,能够差异化地满足云上开箱即用、私有化部署和自主可控的不同需求。
SelectDB 的解决方案能够金融企业提供:
WhaleStudio 是白鲸开源科技根据全球领先的 DataOps 理念打造的新一代数据集成调度工具,它基于白鲸开源主导的Apache DolphinScheduler和 Apache SeaTunnel 的开源版打造而成。目前,WhaleStudio 支持公有云、私有云和混合云,已与 AWS、阿里云、华为云等国内外头部云厂商达成合作,全面支持云原生,帮助企业更好地适应大数据和云原生大时代下的数据处理与治理,同时支持 Oracle、DB2,Informix,MySQL,MongoDB、达梦等数据库CDC实时读取,也支持开源生态的数据湖 Hudi,Iceberg 数据打通和调度等,让企业用户实现数据湖、数据仓库、云的一体化数据同步和调度。
针对金融行业大数据实时分析的场景,飞轮科技联合白鲸开源共同推出金融行业的大数据解决方案,致力于解决企业在大数据业务中面临的性能不足、数据实效性差、开发/运维效率低下、成本居高不下等问题。该方案主要包含数据应用层、数据仓库层、数据同步&集成层和底层数据源四部分:
在 SelectDB + 白鲸开源 WhaleStudio 的实时数据分析能力支持下,能够帮助银行、信贷、基金、保险等金融企业构建起整体高性能、统一、简单、易用的大数据平台,从而为业务系统提供通用的支持,其中包括:
数据仓库层所提供的数据分析能力是实现实时业务分析的关键,也是实现高性能的查询和高并发的写入的核心层。同时,也需要满足金融企业对数据的一致性以及和周边生态的支持的需求。SelectDB 与白鲸开源 WhaleStudio 的整体能力能够帮助很好地支持数据服务层的构建:
实时、便捷的数据导入 SelectDB X 白鲸开源的方案能够为企业提供实时、便捷和高吞吐的数据导入。白鲸开源 WhaleStudio 方案支持常用的数据库和文件系统、消息队列和各类数据湖系数据源实时导入,包括各类数据库、Kafka、Elasticsearch 、Redis、Neo4j 等;SelectDB 底层实现了统一的流式导入框架,而在这个框架之上,SelectDB 提供了非常丰富的导入方式以适应不同的数据源和数据导入场景:对于实时、小批量的数据导入,SelectDB 提供 StreamLoad、Flink Doris Connector、RoutineLoad、Insert into value 等方式,能够实现秒级的高效导入;SelectDB 还提供十余种常见的数据湖格式和外部数据源的访问支持,通过进行高效的联邦分析实现大数据量、高吞吐场景的实时导入。除此之外,SelectDB 还提供了丰富的集成工具来连接各种来自周边大数据工具的数据源,内置 Kafka、Flink、Spark、DataX 等常见的 Connector,基于此,企业开发者能够更加便捷的将数据移动到上,并利用 SelectDB 从数据资产中获取更高的价值。
高效的数据更新 高并发的更新,在高并发的更新过程中,数据服务层需要在上亿数据中快速定位需要更新的数据并完成更新。面对实时更新的场景,SelectDB 在 Unique Key 模型之上引入了 Merge-On-Write(MoR) 和 Merge-On-Write(MoE)两种数据更新方式,能够高效、统一地支持不同数据量的更新场景。其中,MoR 能够支持低频次、大批量的数据更新场景;而 MoW 则能够实现秒级别的小批量实时写入,查询性能较 MoR 提升 5-10 倍。该类方式在写入的时候将旧的数据标记删除做轻量级 merge,能够始终保证有效的主键只会出现在一个文件中(即在写入的时候保证了主键的唯一性),不需要在读取的时候通过归并排序来对主键进行去重,从而大大减少了高频写入场景下查询执行时的额外消耗,帮助企业在多种场景的查询中实现明显的性能提升。此外,SelectDB 针对其它各类常见的更新方式,均提供了完备的支持,包括upsert、条件更新、条件删除、部分列更新、分区覆盖等。
极致的查询性能 性能是数据分析最关键的指标,基于丰富的索引结构、高效的列式存储与行列混存引擎、向量化执行引擎、RBO 和 CBO 结合的智能优化策略、智能物化视图、Pipeline 执行引擎、智能缓存等一系列的技术优化,SelectDB 能够为企业的提供支持高并发、高吞吐的极速查询能力,帮助企业快速应对不同场景中的高效查询需求:
高并发点查: 查询返回的数据量较少,通常只需返回一行或者少量行数据。但对于查询耗时极为敏感、期望在毫秒内返回查询结果,并且面临着数万 QPS 超高并发的挑战。在金融中常见的场景包括面向客户的各类订单交易明细查询如实时转账、交易和面向机器的程序化查询如各类客户画像及行为分析、实时风控等。
报表查询: 大部分相关场景下处理数据量适中,对查询性能要求通常在秒级甚至毫秒级,同时需要较强的数据的更新能力、对 SQL 查询语法友好、较强的多表 join 的能力以及能够很好的支持复杂的关联查询。
即席查询: 应用于如画像、风控等场景。数据量较为庞大,响应时间要求较高,对于绝大多数相关场景要求查询返回时间在秒级别。
传统批量数据处理(ETL/ELT): 需要在固定的时间间隔内(如每天夜间)处理大量积累的数据,处理的数据延迟往往在几小时到几天之间,要求较高的数据一致性。
数据采集和加工是数据处理的关键组成部分,在数据 3.0 时代,传统数据平台提供的 ETL 解决方案已无法满足在激烈市场竞争环境下生存的金融企业的需求,因为为了应对不断变化的业务需求,企业通常会选用至少两种数据库:一种负责业务的联机交易数据库,一种负责数据分析的数据仓库。两种数据库之间的数据同步是通过复杂、高度定制的 ETL 管道来解决的,数据管道需要不断维护,复杂度极高,这会导致使用传统技术来做数据集成的金融企业面临高成本维护成本的挑战。这些挑战在云时代会进一步被放大,因为在云上构建 SaaS 服务的创业公司,产品越来越多,同时硬件性能的进步也使得原本数据集成的设计出现了非常大的局限性。
针对数据采集和加工中的挑战,白鲸开源 WhaleStudio 下的组件白鲸数据集成系统能够提供新一代高效、稳定的数据集成同步解决方案。
白鲸数据集成系统 是下一代高性能、分布式、海量数据集成框架,围绕实现批量、实时数据同步以及实时发布的目标,希望使数据集成变得简单、安全和可扩展,向用户提供简单的、易用的产品交互界面和流畅的使用体验,不需要专业培训就可以快速上手。
白鲸数据集成系统的核心能力强大,包括:
在保证数据质量的前提下,自研的白鲸数据集成系统的 Zeta 数据集成引擎能够以远超其他产品的速度完成数据同步,并且更省资源。 覆盖全数据同步场景,除了代码模式外,也提供可视化拖拽界面给数据科学家、数据分析师、产品经理等业务用户支持全流程可视化的任务定义、调用、监控和管理。
白鲸开源 WhaleStudio 整体架构
在独特产品架构支撑下,白鲸数据集成系统为用户提供完善的数据集成和同步功能,助力企业数字化转型:
白鲸数据集成系统能够帮助企业快速完成复杂数据源之间 CDC 与批量整合问题,解决传统同步集成引擎痛点问题,以无中心化、精确处理一次、断点续传等多种方式确保数据强一致性, 其支持可视化建立集成任务、支持可视化运维、无主键增量集成支持、支持整库同步与表结构自动变更、支持多自动建表、支持可视化转换处理等产品特点也使得白鲸数据集成系统与传统数据平台解决方案相比拥有显著优势。
SelectDB +白鲸开源 WhaleStudio 的方案够接入各类数据的业务系统,如账户系统、CRM、交易系统、核心系统、信审系统等,帮助金融企业完成对于客户、存款、贷款、支付、资金、总账、渠道等多种类型的核心数据的实时存储、分析和处理。 SelectDB + 白鲸开源 WhaleStudio 能够便捷地支持多种异构数据源、数据库的接入,其中包括:
基于 SelectDB + 白鲸开源 WhaleStudio 的联合解决方案,能够为银行、等金融企业带来以下收益:
某大型国有券商: 该券商将白鲸调度系统进行全栈信创化部署运行,已经完成了建立以“统一数据编排调度系统”为核心的 DataOps 平台,构建统一、标准化的数据协作平台,降低数据开发门槛,提升开发运维效率的目标,实现了统一的数据开发平台、统一的编排调度、统一的数据资产运营,有效降低用户数据加工处理的成本,提升数据服务能力,真正实现精益、敏捷的数据运营。同时,在上层基于 SelectDB 构建起实时数据仓库, 利用 SelectDB 端到端的实时能力和极致查询性能,更好地完成了实时流处理、离线批处理等任务,实现了业务的实时分析流程。现阶段,该券商已经迁移完核心调度任务每天约 8 千个工作流作业,在不断接入新系统后,目标完成日工作流 10 万+,任务量 50 万+,同时对接公司统一权限管理、审计、监控、告警等系统,极大提升了公司运营效率。
某知名消费金融企业: 随着某消费金融客户数量和放贷金额持续上升,如何依托大数据、数据分析等技术来提供更好决策支持、提高工作效率和用户体验,成为了当前亟需解决的问题。基于此,公司决定搭建数据中台,利用白鲸调度系统实现了不同数据源之间的快速整合,大大提高了研发效率,同时将原有的离线数仓替换为 SelectDB 实时数仓,最终统一了数据出口,提升了数据质量,并实现了查询速度 400 倍的提升。
某一线银行信贷企业: 某银行信贷业务利用 SelectDB X 白鲸数据集成系统作为架构核心完成了业务数据的统一存储与分析,该架构支持了该企业在营收信贷业务过程中广告投放的业务,并帮助该企业的用户行为日志降低了 70% 的存储成本,整体业务效率提升 50 %。白鲸调度系统提供了高效、简单、易用的数据集成框架及引擎,能够用户的全场景数据集成需求;SelectDB 提供了丰富且开箱即用的用户行为分析函数,避免业务人员重复进行复杂 SQL 函数编写、验证、推导再应用,极大提高了数据开发效率。在 SelectDB X 白鲸数据集成的支持下,该银行信贷企业智能营销的投产比得到了显著提升,完成了精准投放增加获客的重要目标。
本文由 白鲸开源科技 提供发布支持!
|