Big Data Service 가 포함하고 있는 사항
Open Source Hadoop 은 Hadoop HDFS 및 관리를 위한 Open Source 진영의 다양한 Ecosystem 들이 있습니다. Ecosystem 을 이루고 있는 Tool 들을 역할에 맞는 솔루션을 사용함으로써 완전한 Big Data 시스템을 완성하게 됩니다.
OCI 에서 Managed 서비스로 제공되는 Big Data 서비스는 손쉽게 Cluster 를 One-Click 으로 생성하게 됩니다. Big Data Cluster 생성을 수행하게 되면 노드들의 역할에 따라 Master Node, Utility Node, Master Node, Worker Node 들이 설치되고 각각의 노드에 Ambari, Hue, Jupyter Notebook, Ranger 등의 툴들이 자동 설치가 됩니다. Worker Node 는 용량이 추가 증설이 필요할 경우, 노드를 추가하여 Scale-Out 을 원활하게 수행할 수 있게 지원합니다.
OCI 에는 Data Lake 를 위한 다양한 서비스들을 제공합니다. 최근에는 Data Lake 를 Data Lake 와 Data Warehouse 를 합성한 Lake House 라고 칭하기도 합니다.
다음 그림은 OCI 기준의 Lake House 를 지원하는 서비스 구성들입니다.
- Autonomouse Data Warehouse : 고성능 스토리지 및 자동화된 관리 기능을 가진 Oracle DB PaaS 서비스
- MySQL HeatWave : MySQL 데이터베이스 서비스에 대한 분석 및 트랜잭션 쿼리를 위한 새로운 통합 고성능 인메모리 쿼리 가속기
- Object Storage Data Lake : 다양한 데이터를 위한 저비용 스토리지
- Managed 오픈소스 서비스 : 고객이 구현한 기존 관리형 오픈 소스 서비스 (예: Spark, Hadoop, Elasticsearch, Redis)
- OCI Data Integration : 분석 및 데이터 Science를 위해 쉽게 ETL(추출, 변환 및 로드) 데이터를 로드, 데이터 레이크와 데이터 웨어하우스 간의 코드 없는 Data Flow 설계
- OCI Data Catalog : 데이터 검색을 위해 데이터 레이크와 데이터 웨어하우스 모두에서 사용하는 Data Asset Inventory를 유지 관리
이러한 OCI Big Data Service는 데이터 통합, 데이터 과학 및 분석 서비스와 상호 운용되는 동시에 개발자가 Oracle SQL을 사용하여 데이터에 쉽게 액세스할 수 있도록 하기 때문에 사용하고 관리하기 쉽습니다.
이 글은 개인적으로 얻은 지식과 경험을 작성한 글로 내용에 오류가 있을 수 있습니다. 또한 글 속의 의견은 개인적인 의견으로 특정 회사를 대변하지 않습니다.
Phillsoo Lim DATAPLATFORM
oci bigdata hadoop apache cloudera hdfs hive ambari