데이터 이야기

[NiFi] NiFi Concept #2

NIFI 분산 환경에서 대량의 데이터를 수집하고 처리하기 위해 만들어졌음 실시간 처리에 강점을 보임 디렉토리에 파일이 생성되면, 바로 DB, HDFS, Hbase, Elasticsearch, Kafka 등에 전달 완료 클러스터 환경에서는 장애가 나도 복귀 될때까지, 데이터 처리는 못하지만, 잃어버리지 않음 Zero Master 클러스터 환경 제공 0.x 버전에는 Master-slave구조 였으나, SPOF의 문제를 해결하기 위해 1.x버전부터...

February 25, 2019

in Nifi

[NiFi] NiFi Concept #1

NIFI Apache NiFi supports powerful and scalable directed graphs of data routing, transformation, and system mediation logic. Apache NiFi는 강력하고 확장 가능한 데이터 라우팅, 변환 및 시스템 중재 로직의 방향 그래프를 지원 Why NIFI? 시스템 간 data flow 자동화 및 관리 목적 Create, Run, View, Start, Stop, Change, Fix, Dataflows...

February 25, 2019

in Nifi

[Streaming] Spark structured Streaming : OutputMode

OutputMode 편 Append 모드 ( OutputMode.Append() ) 새로운 로우가 결과 테이블에 추가되면 사용자가 명시한 트리거에 맞춰 싱크로 출력 Complete 모드 ( OutputMode.Complete() ) 결과 테이블의 전테 상태를 싱크로 출력 모든 데이터가 계속해서 변경될 수 있는 일부 상태 기반 데이터를 다룰 떄 유용 Update 모드 ( OutputMode.Update() ) 이전 출력 결과에서...

February 15, 2019

in Spark-structured-streaming

[Streaming] Spark structured Streaming : 기본편

스트리밍 프로세싱에서 필요하다고 생각하는 것들은 .. 스트리밍 처리에 있어서 필요한 기능들이 무엇이 있을지에 대해 고민을 먼저 해보자. 1) 데이터를 받아야하는 Source 가 필요할 것이고, 2) 데이터를 처리하는 처리 엔진, 3) 처리된 결과를 저장하는 Sink가 필요할 것이다. 그렇다면, 4) Source에서 데이터는 언제 받아와야할까? 시간마다? 받아온 데이터를 다 처리 직후 ? 이런...

February 14, 2019

in Spark-structured-streaming

WebHDFS REST API를 통한 Active NameNode 확인

WebApi를 이용한 Hadoop Active NameNode 확인하는 법 때로는 외부 서버에서 하둡 클러스터에 접근하여 HDFS 파일을 읽어 오거나, 업로드를 해야할 일이 생긴다 사실상, 해당 하둡 클러스터에 접속하여 hadoop cli로 접근하면 되지만.. 접근하고 내려받고 scp로 전송하고.. 귀찮으니깐.. 사실 매우 간단하게, 네임노드 서버 주소와 HDFS 경로를 입력하여 데이터를 받아올 수 있다 $hadoop fs...

February 12, 2019

in Hadoop