데이터 이야기

Reliable Data Delivery In Kafka

Reliable Data Delivery In Kafka 다룰 내용들~ Reliability Guarantees Replication Broker Configuration Using Producers in a Reliable System Using Consumers in a Reliable System 1. Reliability Guarantees Reliable System ? 데이터의 유실 없이 최소화되어 안정적인 전달이 보장되는 시스템 Guarantee ? partition 내의 messages의 순서 commit된 messages는 partition의 모든 in-sync replicas에...

February 28, 2018

in Kafka

Kafka Consumer

Consumer And Consumer Group Consumer Group ? Consumer Instance를 대표하는 그룹 Consumer Instance ? 하나의 프로세스 또는 하나의 서버라고 볼 수 있음 Offset? Partition 안에 데이터 위치를 Unique 한 숫자로 표시한 것 Consumer는 자신이 어디까지 데이터를 읽었는지 offset으로 관리 Consumer Group이 나온 이유는 ?.. High Avaliability Consumer에 대한 구분 및...

February 21, 2018

in Kafka

Kafka Produer

Producer 카프카 클러스터로 레코드들을 발행하는 카프카 클라이언트 프로듀서는 Thread-safe 일반적으로 여러개의 스레드가 프로듀서를 공유하는것이 더 빠르다. 메시지 전송 방식 Fire-And-Forget Synchronous send Asynchronous send Constructomg Kafka Producer bootstrap.servers key.serializer value.serializer KafkaProducer<String, String> producer = null; Map<String, Object> configMap = new HashMap<String, Object>(); configMap.put("bootstrap.servers", BROKER_LIST); configMap.put("key.serializer", KEY_SERIALIZER_CLASS); configMap.put("value.serializer", VALUE_SERIALIZER_CLASS); producer =...

February 7, 2018

in Kafka

Meet Kafka

1. 카프카를 만나보자! 애플리케이션 성능 모니터링을 위해 메트릭을 수집한다면... 그러나, 시간이 지나고 여러 서버에서 다양한 포맷의 데이터를 수집하게 된 플랫폼은 점점 복잡해져간다 ㅠㅠ 이렇게 복잡하게 처리하지 말고 한 곳에서 데이터를 받은 다음 필요한 곳으로 보내줄 수는 없을까?.. Pub/Sub Messaging System을 이용한 구조 메시징 패러다임 중 하나 Subscriber가 정해져 있지 않고...

January 31, 2018

in Kafka

스파크 최적화 및 디버깅

8.스파크 최적화 및 디버깅 이번 장에서는 스파크 어플리케이션이 어떻게 설정하고 실제 작업 환경을 어떻게 최적화하고 디버깅하는지에 대해 알아볼 것이다. 1. SparkConf로 스파크 설정하기 스파크의 최적화는 ‘스파크 애플리케이션의 실행 설정을 바꾸는 것 이라고 생각해도 된다. 주된 설정 메커니즘은 SparkConf 클래스 이다. SparkConf 객체 Key,Value 형태의 쌍을 이루고 있다 SparkConf 값들은 애플리케이션...

April 13, 2017

in Spark