• 고급 스파크 프로그래밍

    6. 고급 스파크 프로그래밍 1. 소개 여기서는 두가지 공유 변수와 RDD 트랜스메이션들을 구축하는 고비용 연산들에 대한 batch 작업에 대해 설명할 것이다 ! 어큐뮬레이터 ( Accumulator ) 정보들을 누산해주는 것 ( 누산은 ‘누적’ + ‘합산’ 이라고 생각하자) 브로드캐스트 변수 ( Broadcast Variable) 많은 값들을 분산 시켜준다. 그런데.. 공유변수란? 데이터베이스 연결 (경험...


  • 키/페어로 작업하기

    4. 키/값 페어로 작업하기 배경 KeyValueRDD = 페어RDD 각 키에 대해 병렬로 처리 OR 네트워크상에서 데이터 그룹핑역할 RDD에서 필드값을 뽑아 내어 그 것을 패어 RDD 연산을 위한 키로 사용 e.g ) reduceByKey() : 각 키로 구분하여 집합연산 가능 Join() : 동일 키에 대한 데이터 끼리 분류해서 두 RDD를 합쳐줌 페어...


  • 스파크 맛보기

    2. 스파크 맛보기 스칼라로 만들어졌음 JVM위에서 작동 스파크의 특성이 아닌, 스칼라가 컴파일하면 자바 바이트 코드로 변환 Java 6 이상 / Python 2.6 이상 스파크 다운로드 하기 하둡 클러스터나 HDFS를 사용중이라면, 하둡 버전에 맞게 다운로드하자! http://spark.apache.org/downloads.html 클릭! 스파크를 설치를 했다면 아래와 같은 파일들이 있다. ( 버전마다 조금 다른듯하다.. ) README.md 짧은...


  • ResourceManager, NodeManager, ApplicationMaster, Container

    1. ResourceManager Application의 요구와 스케줄링의 우선순위, 자원의 가용성에 따라 ResourceManager가 특정 노드에서 실행되는 Application에 Resource Container를 동적으로 할당하는 역할 모든 클러스터의 자원을 중재함 노드의 자원을 관리하고 AM으로부터 컨테이너 요청을 받음 자원에 대한 교섭을 진행하고 NM과 함께 컨테이너의 시작, 모니터링, 중지를 담당 1.1 Scheduler NodeManager들의 자원 상태를 관리하며 부족한 Resource를 배정...


  • Apache Hadoop YARN 핵심 소개

    아파치 하둡 YARN의 핵심 기능 YARN은 분산 애플리케이션을 구현하기 위한 범용적인 자원 관리 프레임워크 문제 1 하나의 Hadoop 클러스터는 다수의 서버로 구성되어 많은 컴퓨팅 리소스를 가지고 있는데 이 것을 하나의 컴퓨팅 플랫폼(MapReduce )에만 할당하는 것은 비효율적 문제 2 여러 개의 컴퓨팅 플랫폼을 동시에 실행할 경우 각 서버의 리소스 ( 메모리...