본문 바로가기
Spark

Spark 이해하기

by 앵남(Andy) 2021. 12. 13.

 

스파크(Spark)

아파치 스파크는 인메모리 기반의 대용량 데이터 고속처리 엔진으로 범용분산 클러스터 컴퓨팅 프레임 워크입니다. 그렇다면 여기서 인메모리는 뭘까요. 데이터를 하드디스크가 아닌 메인 메모리에서 데이터를 저장하고 수행하는 작업입니다. 인메모리의 단점은 메모리에 데이터를 저장하기 때문에 저장 공간이 한정적입니다. 또한 갑자기 프로세스가 종료되면 데이터가 유실될 수 있습니다. 

 

스파크가 빠르다는건 빅데이터의 인 메모리 연산이 가능하다는 것입니다.

출처 https://hazelcast.com/glossary/memory-caching/

여기서 캐시란? 원본 데이터를 통해 연산된 값을 미리 저장해두는 임시 저장소 입니다. 

즉, 데이터의 읽기 성능을 개선시키기 위해 db와같은 영구 저장소로부터 빠르게 읽어올 수 있는 메모리영역에 저장해두는 방식입니다. 결국 캐시는 빠른 속도를 위해 사용되는 것 입니다. 

 

스파크는 다양한 언어를 지원합니다. 자바, 파이썬, R 언어마다 처리하는 속도는 각각 다릅니다.

 

'Spark' 카테고리의 다른 글

Batch Processing과 Stream Processing  (0) 2021.12.13

댓글