Presto
- 테라바이트, 페타바이트 단위의 데이터를 분산 쿼리를 사용하여 분석할 수 있는 툴
- 대화식 데이터 쿼리 서비스
- 다양한 DB에 대한 ANSI SQL 질의 가능
- Amazon Athena 는 Presto기반
- Coordinator : Client로 부터 요청을 받음
- Worker : Coordinator에서 전달받은 테스크를 수행, 데이터 처리, 수행결과는 Client에게 전달.
- 참고 URL : https://guide-fin.ncloud-docs.com/docs/analytics-cloudhadoop-chadoop-4-6
HDFS
- Hadoop Distriuted File System
- 수십 테라 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템
- 저사용 서버를 이용해 스토리지 구성 가능
Hive
- Hadoop 에코시스템에 속하는 HDFS에서 추출한 대용량 데이터 세트를 읽고, 쓰고, 관리하도록 설계된 오픈소스 데이터웨어하우스 소프트웨어
Kafka
- 분산 스트리밍, 파이프 라이닝 및 재생을 위한 실시간 스트리밍 데이터 처리를 위한 오픈 소스 분산형 게시-구독 메시징 플랫폼.
- 서버 클러스터 내에서 데이터 스트림을 레코드로 유지하는 방식으로 작동하는 브로커 기반 솔루션
Calico
- 가상머신이나 컨테이너를 위한 네트워킹, IP 관리, 접근 제어, 모니터링 등 다양한 네트워크 관련 기능을 제공하는 오픈소스 프로젝트
- k8s에서 각 Node에 설치되어 각 Pod 간 네트워크 통신이 가능하도록 도와주는 역할을 함.