• [Data-Intensive] Ch1. 신뢰성,확장성,유지보수성

    신뢰할수 있고 확장가능하며 유지보수하기 쉬운 애플리케이션 ‘데이터 중심 애플리케이션 설계’를 읽고 정리하고자함 요점 정리 데이터 중심 애플리케이션을 생각하는 기본적인 방법 몇 가지 설명 애플리케이션이 유용하려면 다양한 요구 사항을 채워야함 기능적 요구사항 데이터를 저장, 조회, 검색하고 처리하게끔 허용하는 작업 비기능적 요구사항 보안, 신뢰성, 법규준수, 확장성, 호환성, 유지보수과 같이 일반적 속성 신뢰성...


  • [HP-Spark] 키/값 데이터로 작업하기

    키/값 데이터로 작업하기 스파크는 자체적으로 튜플을 키/값 기반으로 RDD에 쓸수 있도록 구성된 함수들의 클래스 PairRDDFunctions 제공 PairRDDFunctions 클래슨는 암묵적 변환을 통해 사용 가능 RDD[(K,V)] 형태로 만들면 PairRDDFunctions의 함수들을 쓸 수 있음 조인과 집ㄱ볘 연산에 대한 메서도도 있음 OrderedRDDFunctions 클래스는 정렬과 관련된 메서드 지원 튜플의 RDD에서 첫번 쩨 아이템이 키가 되고...


  • [NoSQL] Ch6. 버전 스탬프

    버전 스탬프 ‘빅데이터 세상으로 떠나는 간결한 안내서 NoSQL’를 읽고 정리하고자함 요점 정리 버전 스탬프는 동시성 충돌을 탐지하는데 도움이 됌 데이터를 읽은 다음 업데이트할 때, 버전 스탬프를 확인해 그 사이 아무도 데이터를 업데이트하지 않았는지 확인할 수 있음 버전 스탬프는 4가지 방법, 이 것들을 조합해서 구현할 수 있음 카운터 GUID 콘텐츠 해시...


  • [NoSQL] Ch5. 일관성

    일관성 (Consistency) ‘빅데이터 세상으로 떠나는 간결한 안내서 NoSQL’를 읽고 정리하고자함 요점 정리 쓰기 충돌 투 클라이언트가 동시에 같은 데이터를 쓰려고 할 때 발생 읽기-쓰기 충돌 한 클라이언트가 쓰고 있는 도중에 다른 클리아온트가 비일관적 데이터를 읽을 때 발생 방지 방법 비관적 방법 : 데이터 레코드에 잠금을 사용 낙관적 방법 : 충돌을...


  • [NoSQL] Ch4. 분산 모델

    분산 모델 ‘빅데이터 세상으로 떠나는 간결한 안내서 NoSQL’를 읽고 정리하고자함 요점 정리 데이터를 분산하는 형식은 ‘샤딩’과 ‘분산’ 두가지 있음 샤딩 여러 서버에 데이터를 나눠 분산 각 서버는 전체 데이터의 부분 집합을 저장하며 같은 데이터는 한 서버에서만 찾을 수 있음 복제 여러 서버에 데이터를 복사하므로, 같은 데이터를 여러 곳에서 찾을 수...