데이터 이야기
공부하고 경험한 것들 차근차근 정리하자 :)
-
[HP-Spark] 스파크 병렬 연산 모델 : RDD Part 2
스파크의 병렬 연산 모델: RDD RDD의 종류 스파크의 스칼라 API는 추상 클래스, RDD를 포함하여, 5가지 핵심 속성 뿐 아니라, map, collect 등 RDD에서 사용가능한 트랜스포메이션과 액션을 가지고 있음 5가지 속성 ( partitions , iterator , dependency , partitioner, preferredLocation ) 이외에 특별한 타입 RDD에만 정의함수들이 있음! DoubleRDDFunctions, PairRDDFunctions, OrderedRDDFunctions .....
-
[HP-Spark] 스파크 병렬 연산 모델 : RDD Part 1
스파크의 병렬 연산 모델: RDD 스파크의 구성 요소 Driver (= Master Node) 병렬 데이터 처리를 수행할 수 있는 클러스터 시스템 (HDFS / YARN )위에서 구동되는 Driver를 위한 프로그램을 개발해야함 Executor (= Slave Node) RDD는 Executor (= Slave Node)에 저장된다. RDD 구성하는 객체를 ‘ 파티션 ( Partition ) ‘ 파티션은 경우에...
-
Spark Join에 대한 정리
Spark Join 1. 조인 표현식 스파크는 왼쪽과, 오른쪽 데이터셋에 있는 하나 이상의 키값을 비교함 왼쪽 데이터셋과 오른쪽 데이터셋의 결합 여부를 결정하는 조인 표현식 ( join Expression)의 평가 결과에 따라 두개의 데이터셋을 조인함 2. 조인 타입 조인 표현식은 두 로우의 조인 여부를 결정 But, 조인 타입은 결과 데이터셋에 어떤 데이터가 잇어야...
-
Garbage Collection
Gabage Collection Heap 구조, GC의 기본동작, 오라클 JCM에서 지원하는 GC 알고리즘에 대해 알아보자 ~ 1. Oracle 문서에 권하는 기본 GC 튜닝 전략 swap 메모리 사용을 피함 기본값보다 더 큰 힙이 필요하지 않는 이상 힙 크기를 변경하지 않음 단, 물리 메모리보다 더 크게 힙을 설정하면 안됨 튜닝이 필요하다면 Behavior based tuning을...
-
Mastering Spark in Scalable Algorithms
Mastering Spark in Scalable Algorithms Spark의 아키텍쳐와, 문제상황에서 어떻게 해결할까에 대한 디자인패턴에 대해 다룰 것~~ Spark job을 어떻게 만들 것인가에 대한 기본 원칙 가능한 data locality를 지킬 것 Spark에서 기본적으로 해주므로 걱정할 필요 없지만 확인할 것 각 stage에서 불필요하게 데이터를 이동시키지 않는가? 데이터의 균등 분배를 보장할 것 놀고 있는 executor...