Oracle Cloud Infrastructure Data Flow는 Apache Spark ™ 애플리케이션을 실행하기 위한 완전 관리형 서비스입니다. 개발자가 애플리케이션에 집중할 수 있도록 하고 이를 실행할 수 있는 쉬운 런타임 환경을 제공합니다. 애플리케이션 및 워크플로와의 통합을 위한 API 지원을 통해 쉽고 간단한 사용자 인터페이스를 제공합니다.
신규 개선 사항
OCI Data Flow 서비스에서 이제 Spark 3.2.1을 지원합니다. Spark 3.2.1에 대한 지원은 Data Flow가 이제 Delta Lakes 를 지원 하고 Conda Pack과 통합 될 수 있음 을 의미합니다.
Delta Lakes 지원
Delta Lake는 데이터 레이크에 안정성을 제공하는 오픈 소스 스토리지 계층입니다. Delta Lake는 Parquet 을 기반으로 한 Open Format 이며, ACID 트랜잭션을 제공하고 Apache Spark API와 완벽하게 호환됩니다. Delta Lake 를 사용하면 데이터 레이크 위에 Lakehouse 아키텍처를 구축할 수 있습니다. Delta Lake 1.2.1은 Data Flow Spark 3.2.1 처리 엔진과 통합되어 있으므로 추가 Spark 구성이 필요하지 않습니다.
Conda Pack 과의 통합 지원
Conda 는 가장 널리 사용되는 Python 패키지 관리 시스템입니다. conda-pack 을 사용 하면 PySpark 사용자는 Conda 환경을 직접 사용하여 다양한 Python 패키지를 사용할 수 있습니다. Spark 3.2.1과 함께 Data Flow를 사용하는 경우 Conda Pack과 통합할 수 있습니다.