데이터 이야기
공부하고 경험한 것들 차근차근 정리하자 :)
-
Reliable Data Delivery In Kafka
Reliable Data Delivery In Kafka 다룰 내용들~ Reliability Guarantees Replication Broker Configuration Using Producers in a Reliable System Using Consumers in a Reliable System 1. Reliability Guarantees Reliable System ? 데이터의 유실 없이 최소화되어 안정적인 전달이 보장되는 시스템 Guarantee ? partition 내의 messages의 순서 commit된 messages는 partition의 모든 in-sync replicas에...
-
Kafka Consumer
Consumer And Consumer Group Consumer Group ? Consumer Instance를 대표하는 그룹 Consumer Instance ? 하나의 프로세스 또는 하나의 서버라고 볼 수 있음 Offset? Partition 안에 데이터 위치를 Unique 한 숫자로 표시한 것 Consumer는 자신이 어디까지 데이터를 읽었는지 offset으로 관리 Consumer Group이 나온 이유는 ?.. High Avaliability Consumer에 대한 구분 및...
-
Kafka Produer
Producer 카프카 클러스터로 레코드들을 발행하는 카프카 클라이언트 프로듀서는 Thread-safe 일반적으로 여러개의 스레드가 프로듀서를 공유하는것이 더 빠르다. 메시지 전송 방식 Fire-And-Forget Synchronous send Asynchronous send Constructomg Kafka Producer bootstrap.servers key.serializer value.serializer KafkaProducer<String, String> producer = null; Map<String, Object> configMap = new HashMap<String, Object>(); configMap.put("bootstrap.servers", BROKER_LIST); configMap.put("key.serializer", KEY_SERIALIZER_CLASS); configMap.put("value.serializer", VALUE_SERIALIZER_CLASS); producer =...
-
Meet Kafka
1. 카프카를 만나보자! 애플리케이션 성능 모니터링을 위해 메트릭을 수집한다면... 그러나, 시간이 지나고 여러 서버에서 다양한 포맷의 데이터를 수집하게 된 플랫폼은 점점 복잡해져간다 ㅠㅠ 이렇게 복잡하게 처리하지 말고 한 곳에서 데이터를 받은 다음 필요한 곳으로 보내줄 수는 없을까?.. Pub/Sub Messaging System을 이용한 구조 메시징 패러다임 중 하나 Subscriber가 정해져 있지 않고...
-
스파크 최적화 및 디버깅
8.스파크 최적화 및 디버깅 이번 장에서는 스파크 어플리케이션이 어떻게 설정하고 실제 작업 환경을 어떻게 최적화하고 디버깅하는지에 대해 알아볼 것이다. 1. SparkConf로 스파크 설정하기 스파크의 최적화는 ‘스파크 애플리케이션의 실행 설정을 바꾸는 것 이라고 생각해도 된다. 주된 설정 메커니즘은 SparkConf 클래스 이다. SparkConf 객체 Key,Value 형태의 쌍을 이루고 있다 SparkConf 값들은 애플리케이션...