• [NoSQL] Ch3. 데이터 모델 상세

    데이터 모델 상세 ‘빅데이터 세상으로 떠나는 간결한 안내서 NoSQL’를 읽고 정리하고자함 요점 정리 집합 지향 데이터베이스에서는 집합 내 관계보다는 집합 간 관계를 처리하는 것이 더 어려움 그래프 데이터베이스는 데이터를 노드와 간선의 그래프 구조로 만들며, 복잡한 관계를 가지는 데이터에 최적 무스키마 데이터베이스는 레코드에 필드를 자유롭게 추가할 수 있지만, 보통 데이터 사용자가...


  • [NoSQL] Ch2. 집합적 데이터 모델

    집합적 데이터 모델 ‘빅데이터 세상으로 떠나는 간결한 안내서 NoSQL’를 읽고 정리하고자함 요점 정리 집합은 상호작용할 때 단위로 사용하는 NoSQL의 데이터 모음 집합은 데이터베스의 ACID 연산에 대한 경계를 형성 키-값, 문서, 칼럼-패밀리 데이터베이슨느 모두 ‘집합-지향 데이터베이스’로 볼 수 있음 집합을 사용하면 클러스터에서 데이터 저장소를 관리하기 쉬어짐 집합-지향 데이터베이는 모든 데이터 상호작용이...


  • [NoSQL] Ch1. 왜 NoSQL 인가?

    왜 NoSQL인가 ? ‘빅데이터 세상으로 떠나는 간결한 안내서 NoSQL’를 읽고 정리하고자함 요점 정리 관계형 데이터베이스는 20년 이상 성공적인 기술이며, 지속성, 동시성 제어, 통합 매커니즘을 제공함 애플리케이션 개발자는 관계형 모델과 데이터 내 데이터 구조간의 객체-관계 불일치로 불만이 많았음 데이터베이스를 통합점으로 사용하는 방식에서 데이터베이스를 애플리케이션 안에 캡슐화하고 서비스를 통해 통합하는 방식으로 이동하려는...


  • Optimizing Kafka Deployment Paper 정리

    optimizing-your-apache-kafka-deployment 논문 리뷰 서비스의 목적에 맞춰 카프카 클러스터의 설정값을 튜닝해야함 설정값이 의미하는 것과, 카프카 내부가 어떻게 동작하는지 알 수 있어서 매우 의미있는 논문임~~ Deciding which Service Goads to Optimize 4가지의 이루고자하는 서비스의 목표가 있으며, 이 4가지의 목표는 서로 tradeoff 관계가 있음 Throughput Latency Durability Availability 위의 4가지 목표를 모두 달성하는...


  • [Spark-Paper] RDD : A Fault-Tolerant Abstraction for In-Memory Cluster Computing

    Resilient Distributed Datasets : A Fault-Tolerant Abstraction for In-Memory Cluster Computing 1. 무엇을 다루고자 하는가 MapReduce와 Dryad가 대용량의 데이터를 처리하는 분산 프로그래밍 모델로 널리 사용중이였음 하지만 기존 프로그래밍모델에서 사용되는 acyclic data flow model이 적합하지 않은 두가지 application이 있음 ml, graph application에 사용되는 iterative algorithm과 interactive data mining tool은 중간결과를 디스크에...