BigData

용어정리

jjineei 2023. 1. 19. 13:46

Presto

- 테라바이트, 페타바이트 단위의 데이터를 분산 쿼리를 사용하여 분석할 수 있는 툴

- 대화식 데이터 쿼리 서비스

- 다양한 DB에 대한 ANSI SQL 질의 가능

- Amazon Athena 는 Presto기반

- Coordinator : Client로 부터 요청을 받음
- Worker : Coordinator에서 전달받은 테스크를 수행, 데이터 처리, 수행결과는 Client에게 전달.

- 참고 URL : https://guide-fin.ncloud-docs.com/docs/analytics-cloudhadoop-chadoop-4-6

 

HDFS

- Hadoop Distriuted File System

- 수십 테라 또는 페타바이트 이상의 대용량 파일을 분산된 서버에 저장하고, 많은 클라이언트가 저장된 데이터를 빠르게 처리할 수 있게 설계된 파일 시스템

- 저사용 서버를 이용해 스토리지 구성 가능

 

Hive

- Hadoop 에코시스템에 속하는 HDFS에서 추출한 대용량 데이터 세트를 읽고, 쓰고, 관리하도록 설계된 오픈소스 데이터웨어하우스 소프트웨어

 

Kafka

- 분산 스트리밍, 파이프 라이닝 및 재생을 위한 실시간 스트리밍 데이터 처리를 위한 오픈 소스 분산형 게시-구독 메시징 플랫폼.

- 서버 클러스터 내에서 데이터 스트림을 레코드로 유지하는 방식으로 작동하는 브로커 기반 솔루션

 

Calico 

- 가상머신이나 컨테이너를 위한 네트워킹, IP 관리, 접근 제어, 모니터링 등 다양한 네트워크 관련 기능을 제공하는 오픈소스 프로젝트
- k8s에서 각 Node에 설치되어 각 Pod 간 네트워크 통신이 가능하도록 도와주는 역할을 함.