Hudi
Apache Hudi(Hadoop Upserts Deletes and Incrementals)是一个开源数据管理框架,用于简化增量数据处理和数据管道开发。 Apache Hudi使您能够在Amazon S3中以版本记录形式管理数据,以简化变更数据捕获(CDC)和流式数据提取,并提供了一个框架以版本记录的形式处理需要更新和删除的隐私数据。由Apache Hudi管理的数据集使用开放存储格式存储在S3中,并且与Presto,Apache Hive,Apache Spark和AWS Glue数据目录的集成使您可以使用熟悉的工具近乎实时地访问更新的数据。
Loading...