데이터 이야기

[HP-Spark] 스파크 병렬 연산 모델 : RDD Part 2

스파크의 병렬 연산 모델: RDD RDD의 종류 스파크의 스칼라 API는 추상 클래스, RDD를 포함하여, 5가지 핵심 속성 뿐 아니라, map, collect 등 RDD에서 사용가능한 트랜스포메이션과 액션을 가지고 있음 5가지 속성 ( partitions , iterator , dependency , partitioner, preferredLocation ) 이외에 특별한 타입 RDD에만 정의함수들이 있음! DoubleRDDFunctions, PairRDDFunctions, OrderedRDDFunctions .....

February 10, 2019

in High-performance-spark

[HP-Spark] 스파크 병렬 연산 모델 : RDD Part 1

스파크의 병렬 연산 모델: RDD 스파크의 구성 요소 Driver (= Master Node) 병렬 데이터 처리를 수행할 수 있는 클러스터 시스템 (HDFS / YARN )위에서 구동되는 Driver를 위한 프로그램을 개발해야함 Executor (= Slave Node) RDD는 Executor (= Slave Node)에 저장된다. RDD 구성하는 객체를 ‘ 파티션 ( Partition ) ‘ 파티션은 경우에...

February 8, 2019

in High-performance-spark

Spark Join에 대한 정리

Spark Join 1. 조인 표현식 스파크는 왼쪽과, 오른쪽 데이터셋에 있는 하나 이상의 키값을 비교함 왼쪽 데이터셋과 오른쪽 데이터셋의 결합 여부를 결정하는 조인 표현식 ( join Expression)의 평가 결과에 따라 두개의 데이터셋을 조인함 2. 조인 타입 조인 표현식은 두 로우의 조인 여부를 결정 But, 조인 타입은 결과 데이터셋에 어떤 데이터가 잇어야...

December 23, 2018

in Spark

Garbage Collection

Gabage Collection Heap 구조, GC의 기본동작, 오라클 JCM에서 지원하는 GC 알고리즘에 대해 알아보자 ~ 1. Oracle 문서에 권하는 기본 GC 튜닝 전략 swap 메모리 사용을 피함 기본값보다 더 큰 힙이 필요하지 않는 이상 힙 크기를 변경하지 않음 단, 물리 메모리보다 더 크게 힙을 설정하면 안됨 튜닝이 필요하다면 Behavior based tuning을...

October 2, 2018

in Gc

Mastering Spark in Scalable Algorithms

Mastering Spark in Scalable Algorithms Spark의 아키텍쳐와, 문제상황에서 어떻게 해결할까에 대한 디자인패턴에 대해 다룰 것~~ Spark job을 어떻게 만들 것인가에 대한 기본 원칙 가능한 data locality를 지킬 것 Spark에서 기본적으로 해주므로 걱정할 필요 없지만 확인할 것 각 stage에서 불필요하게 데이터를 이동시키지 않는가? 데이터의 균등 분배를 보장할 것 놀고 있는 executor...

July 2, 2018

in Spark