데이터 이야기

[ML] LDA Topic Modeling

LDA (Latent Dirichlet Allocation) 한국말로는 ‘잠재 디리클레 할당’ 1. 개념 주어진 문서에 대하여 각 문서에 어떤 토픽들이 존재하는지를 서술하는 대한 확률적 토픽 모델 기법 중 하나 쉽게 말해, 문서 집합에서 어떤 토픽이 있는지 추론하는 Topic Model 미리 알고 있는 토픽별 단어수 분포를 바탕으로, 주어진 문서에서 발견된 단어수 분포를 분석 이...

March 19, 2019

in Machine_learning

Shuffle에 대해 알아보기

Spark Shuffle의 중간결과는 local disk에 저장한다 Shuffle은 디스크에 많은 수의 중간 파일을 생성 정확히 어떤 데이터가 저장되는지 확인 필요 Spark 1.3에서이 파일들은 해당 RDD가 더 이상 사용되지 않고 GC 발생할 때까지 보존 이는 리니지가 다시 계산 될 때 셔플 파일을 다시 만들 필요가 없도록하기 위해 수행 GC는 응용 프로그램이 이러한...

March 17, 2019

in Spark

RDD가 Immutable한 이유

I don’t understand the reason behind Spark RDD being immutable. Answer 1) Immutable data is always safe to share across multiple processes as well as multiple threads. Since RDD is immutable we can recreate the RDD any time. (From lineage graph). If the computation is time-consuming, in that we can...

March 16, 2019

in Spark

[HP-Spark] 내가 생각하는 스파크

스파크 란? 공식문서 Apache Spark is a fast and general-purpose cluster computing system. 스파크 완벽 가이드 (책) 빅데이터를 위한 통합 컴퓨팅 엔진과 라이브러리의 집합 하이 퍼포먼스 스파크 (책) 범용 목적의 고성능 분산처리 시스템 ‘내가 생각하는’ 스파크 란? 범용 목적의(=통합) 컴퓨팅 엔진을 가진 분산 처리시스템 범용 목적 (= 통합 ) ?...

March 16, 2019

in High-performance-spark

[HP-Spark] 스파크 잡에 대해 알아보기

1. 스파크 잡에 대해 알아보자 이 내용은 High Performace Spark 챕터 2. 스파크느는 어떻게 동작하는가? 를 정리한 내용 1-1. 스파크 잡 스케줄링 스파크 애플리케이션은 2가지 프로세스로 구성되어 있음 고수준 스파크 로직이 작성되어 있는 드라이버 프로세스 클러스터의 노드들에 나위어 분포된 이그제큐터 프로세스 하나의 스파크 클러스터에 여러개의 스파크 애플리케이션을 동시에 실행할 수...

March 12, 2019

in High-performance-spark