回顾数字化历史,自上世纪八十年代大数据概念萌芽至今,全球商业发展已经迎来了“数据业务化”和“业务数字化”的全面革新阶段。在数据驱动的商业目标导向下,大数据分析的场景愈发多样、复杂。当前,大数据正在经历着从计算规模化向实时化的演进,企业场景走向实时化、个性化的趋势也在逐渐明朗起来!
“实时”是数据分析的未来
实时数据分析为企业输入了全新的业务价值,大量的实时分析的需求场景在各行各业中如雨后春笋般涌现:例如互联网中常见的智能客服、用户画像分析、订单分析、直播实时监控、实时大屏等等;银行、基金、证券等金融机构通过实时监控交易行为,进行反作弊、反洗钱的相关监测;政务场景下,通过 IoT 的摄像头信息,实时捕获着各个城市中的交通、车辆、人流等信息,从而方便交通的监察与治理……随着业务的发展和技术的进步,业务部门不再满足于T+1的分析需求和固化的实时统计,更期望业务发生后秒级或分钟级延迟即可看到统计结果。同时,功能上期望实现交互性探查分析数据,以毫秒或秒级返回结果,期待更快速便捷的用户体验。
伴随着互联网技术的飞速迭代,未来在线的商业交互场景必定会持续不断地爆发和增长。面对如今海量数据、实时在线的一系列关键挑战,大数据分析的基础技术也面临新一轮革新,离线数仓实时性能薄弱、复杂度高等弊病开始显现,俨然已经制约了一批业务场景的发展,现代企业需要一种新的数据服务能力来承接大量场景下业务时效性的需求——实时数仓便是能够帮助企业顺利打开通往实时场景大门的金钥匙。
“实时”给企业带来的阵痛
大数据分析技术的未来指向实时数仓的趋势已愈发凸显,然而每一次技术从诞生到走向生产端的革新,也必将会经历一段“阵痛”。当下,企业在实时数仓建设的构建中,面临着不可忽视的痛点:首先,企业对于数据的准确性、时效性、性价比三方面都同时具有强烈需求。不但对数据实时写入能力要求高、查询延时敏感,而且希望兼顾多种不同负载,同时要求在成本上有所控制。其次,多媒体场景日益增多也催生了企业对于半结构化数据的分析需求强烈。第三,由于业务需求更新频繁,企业需要更加敏捷的实时数仓来适应业务数据的变化。
实时数仓的建设对企业的研发能力提出了更高的要求,在自研的路线下,企业需要足够的技术积累去驾驭这些挑战。相对来说,使用三方厂商提供的比较成熟的产品及服务,能够帮助企业在走向实时数据分析的道路上避免“碰壁”的烦恼,目前市场上不乏具有这样能力的厂商。在“实时数仓”这一个概念诞生的初期,以 ClickHouse、Presto、Redshift 等厂商的为代表的一批国外品牌纷纷涌入这一赛道,引领着行业的发展。然而,每一次弯道超车的机会,往往出现在环境和产业发生拐点和变化时。随着业务端新的需求不断涌现,早期的技术架构和思路也需要做出突破性的变化,这样的变革浪潮从某种程度上将国内外的实时数仓厂商又推至了同样的起跑线上。在软件国产化的浪潮和来自场景端时效性要求的倒逼下,国内数据仓库厂商步入了发展的快速道,并且已经有一些实力突出的国内“玩家”在市场中展露锋芒,凭借优异的实时性能将国外的同类产品置于身后,逐渐打破数据库领域国外产品遥遥领先的局面,SelectDB 便是其中之一。
SelectDB 新一代实时数仓领导者
SelectDB 是基于全球领先的开源分析型数据库 Apache Doris 的商业化公司,成立于2022年1月,公司总部位于北京。在公司创立前,公司的创始团队在大数据、云计算领域深耕近二十年,创立并研发了知名的开源 OLAP 数据库 Apache Doris,经历了数仓产品的全部发展历程。在基于大数据分析技术和业务场景不断交互的过程中,愈发清晰感受到未来企业对于实时数仓的需求究竟是怎样的趋势,不仅局限于性能的不断攀升,同时需要在整体架构和使用上达到前所未有的统一和简单。因此,SelectDB 顺应着市场变迁的步伐应运而生,产品和服务的方向直指实时、统一,并提出“新一代实时数仓“概念,通过开源技术的不断创新,打造极速、易用的实时数据仓库,满足企业中各类场景的实时数据分析需求。
基于自身的产品和服务, SelectDB 为各行各业的企业提供通用的端到端实时能力,通过加速企业的实时查询、实时存储和实时集成链路,为企业各种场景下的实时数据分析提供快速、易用的数据分析底座。在创新的技术加持下,SelectDB 能够提供从Kafka、数据库、数据湖外表等数据源导出的实时数据集成能力;实时更新、强一致物化视图、实时索引等实时数据存储能力;以及基于智能查询优化器、MPP计算框架、向量化执行引擎的实时数据查询能力。基于以上三方面能力的建设,SelectDB 帮助业务构建T+0实时数仓分析流程,从而实现万级并发毫秒级延迟的实时分析查询能力。
在不断的迭代和优化中,SelectDB 已凭借强大的实时性能成为了全球数仓阵营中的排头兵。2022年10月,SelectDB 以强悍的查询性能强势登顶全球知名分析型数据库测评榜单 ClickBench,一举击败Snowflake、Redshift等同类型产品。在未进行任何调优的情况下,SelectDB 查询性能在 c6a.4xlarge, 500gb gp2 同机型的所有产品中位列第一。在全部43个 SQL 中,有近半数的查询语句属 SelectDB 性能表现最优,成为新的性能标杆。
在产品性能方面已经成为全球佼佼者的 SelectDB,同时也坚定地推进着技术落地业务场景的进程。SelectDB 面向最典型的四类相关业务,提出了高性能、高性价比的通用解决方案,包括:实时报表与多维分析、数据联邦与查询加速、用户画像与行为分析、日志存储与分析。SelectDB 强大的实时性能也在解决方案的落地中为企业带来数倍的收益提升,具备了完美替代同类海外产品的能力。如今,SelectDB 也已经基于 Apache Doris 发布了两个版本的商业化产品,服务了超过 1500 家企业用户,为来自互联网、金融、游戏、制造、物流/供应链、房地产、政务等各行各业的企业构建了基于实时数仓的数字化解决方案,从点到面帮助企业挖掘实时数据价值,提升实时场景落地能力。
当下,一个全新的现代数据栈时代正在到来,而其中一个最重要的趋势就是实时化,数据分析的各个场景均在演进更好的实时性。作为新一代实时数仓的引领者,SelectDB 将始终以追求卓越的实时能力为目标,通过创新的产品和技术为市场输入源源不断的动能。