基于 Apache Doris 构建全新湖仓一体架构b
‣
早期架构及挑战
- 运维成本高:涉及组件较多,包括 Apache Hive、Spark、Trino、HBase、Elasticsearch 等,运维复杂度相对较高,需要投入较多的人力。
- 研发成本高:过多的组件也带来较高的研发成本。面对新增的需求,不仅要开发 Spark、Trino 作业,也要开发 HBase 作业,这要求分析师理解并学习不同组件的使用方法及数据模型,研发成本及难度较高、开发流程长。
- 数据时效性差:该架构数据处理链路长,需要经过多次流转,时效性和查询效率均无法满足业务需求。
为了应对早期架构的局限性和挑战,我们在选择新的 OLAP 解决方案时,重点考虑了以下几个核心需求:
- 具备简洁的架构设计,能够满足多种业务场景的同时降低系统组件的复杂度,进而降低运维成本、提高系统的稳定性。
- 提供统一易用的能力,可由单一组件替代之前架构中的多个组件,降低用户的学习和使用成本,提高研发效率。
- 具备实时高效的数据处理能力,能够支持实时数据的高并发写入和亚秒级查询响应,满足业务对高时效性的要求。同时希望新引擎符合实时数仓及湖仓一体发展趋势。
基于 Apache Doris 构建全新的湖仓一体架构
Loading...