데이터 이야기
공부하고 경험한 것들 차근차근 정리하자 :)
-
[ETC] 한글 인코딩 euc-kr 과 UTF-8
한글이 포홤된 데이터 처리할 때, 인코딩이 매우 중요한 것 같다. 한번의 잘못된 설정으로 데이터 처리하는데서 망가질 수 있으니깐.. 그래서 이번에 euc-kr과 UTF-8이 각각 무엇이고 차이가 무엇인지 확실하게 정의하고 넘어가는 것이 필요해서 정리하고자 함 ㅠㅠ 참고자료 정말 개념을 잘 정리해주신 블로그 시간 내서 다른 블로그 및 문서 확인해서 확실하게 정리해서 인코딩...
-
[NiFi] DistributedMapCache 프로세서
NiFi 관련 사내 세미나도 마무리되었고, 이제 NiFi로 유연하게 문제를 해결해야할 때인 것 같다 그래서 이번에는 NiFi에서 처리한 데이터를 Enrich하는 방법으로 DistributedMapCache Processor를 사용해서 해결하고자한다 매번 DB가서 해당 메타정보를 가져온다던지, 아니면 배치로 테이블로 Join해서 enrich하는 방법도 있겠지만, Data Flow을 한 곳에서 처리하고 싶어서 ! DistributedMapCache Processor DistributedMapCache를 사용하기 위해 필요한 Processor...
-
Exactly Once Semantics in Apache Kafka
Introducing Exactly Once Semantics in Apache Kafka 우연치 않게 카프카 서버 점검도 할겸, 이리저리 찾아보다가 아주 재밌는 글이 있어서 정리하고자 함 지금은 Exactly Once semantics을 고민해서 문제를 풀만한 사항이 없어서.. At least once semantics로 중복은 sink단에서 또는 애플리케이션 로직 상에서 처리하고 있음 ㅠㅠ 기회가 된다면 Exactly Once semantic으로 문제를 풀어내고,...
-
[Spark-Paper] Spark SQL: Relational Data Processing in Spark
Spark SQL: Relational Data Processing in Spark Spark SQL이란 ? Shark에 대한 경험을 토대로 Spark 프로그래머가 관계형 처리, Relational Processing(e.g. 선언적 쿼리 및 최적화 된 스토리지) 이점을 활용할 수 있게 해줌 SQL 사용자가 Spark에서 복잡한 분석 라이브러리를 호출 할 수 있도록 만듬 이전 시스템과 비교해, Spark SQL에 추가된 두가지 기능...
-
[ETC] 정규식 특정 문자 제외한 결과 받아내기
정규식 특정 문자 제외한 결과 받아내기 정규식이 이용해서 특정 문자열을 포함하지 않은 결과만 받고싶은 상황이 생김 ^((?!문자열).)*$ 라인의 시작 ?!문자열 문자열이 일치하지 않은 상황 (.)* 뒤에 어떤 키워드가 있어도 상관없음 아무 문자열이 나올 수 있음 $ 라인의 끝 매우 간단하지만, 생각해보다 유용하게 쓸 수 있을 것 같아 적어둠! HTML Tag...