데이터 파이프라인에 버전 관리·자동 테스트·환경 분리·자동 배포(DataOps/CI-CD)를 입히고, SLA/SLO/SLI와 경보·장애 대응·FinOps로 신뢰성을 지키며, 최소 권한·마스킹·암호화·규정 준수로 데이터를 안전하게 운영하는 법을 다룹니다. 시리즈의 마지막 10단계.
품질 차원과 검증(Great Expectations·dbt tests·데이터 계약), 리니지·카탈로그(DataHub·OpenMetadata), 그리고 관측가능성의 5축(신선도·볼륨·스키마·분포·리니지)을 통해 '파이프라인이 돈다 ≠ 데이터가 맞다'는 간극을 어떻게 메우는지 다룹니다.
실시간 분석·로그/이벤트·ML 피처·CDC 리포팅이라는 네 가지 대표 시나리오를 요구사항(지연·정확성·규모) → 설계(수집·저장·처리·오케스트레이션 선택) → 트레이드오프의 순서로 풀어, 앞 단계에서 배운 개념을 실제 파이프라인 설계로 연결합니다.
Lambda·Kappa의 배치/스트림 경로 설계부터 Bronze→Silver→Gold로 품질을 끌어올리는 Medallion, 그리고 Modern Data Stack과 도메인 중심의 Data Mesh까지 — 데이터 시스템을 떠받치는 대표 아키텍처 패턴을 그 트레이드오프와 함께 정리합니다.
수많은 데이터 작업을 DAG로 모델링하고 의존성·스케줄에 따라 실행하는 오케스트레이션의 원리, Airflow와 Dagster·Prefect의 철학 차이, 그리고 멱등성·재시도·백필·체크포인트로 견고한 파이프라인을 만드는 법을 다룹니다.
MapReduce에서 인메모리·DAG 실행의 Spark로 이어진 분산 처리 모델, 이벤트 시간·워터마크·윈도잉으로 무한 스트림을 다루는 Flink/Kafka Streams, 그리고 SQL 변환을 소프트웨어처럼 관리하는 dbt까지 — 저장된 데이터를 가치로 바꾸는 처리 엔진을 정리합니다.
OLTP와 OLAP, 행 지향과 열 지향 저장의 차이부터 데이터 웨어하우스·레이크·레이크하우스의 선택 기준, Parquet/ORC/Avro 같은 파일 포맷과 Iceberg/Delta/Hudi 같은 테이블 포맷까지 — 데이터를 '어디에 어떤 형태로' 쌓을지를 한 층씩 풀어냅니다.
원천에서 데이터를 가져오는 수집 단계 — 배치 vs 스트리밍의 트레이드오프, 로그 기반 vs 쿼리 기반 CDC, Kafka·Kinesis 같은 스트리밍 플랫폼의 버퍼·디커플링 역할, 그리고 Airbyte·Fivetran 같은 수집 도구의 build vs buy 판단까지 다룹니다.
데이터 웨어하우스에서 Hadoop·데이터 레이크, ETL에서 ELT로의 전환, 그리고 Modern Data Stack과 레이크하우스·스트리밍까지 — 데이터 파이프라인이 각 시대의 한계를 어떻게 풀어 왔는지 그 진화의 맥락을 짚습니다.
데이터 엔지니어링의 정의와 데이터 엔지니어의 역할, 그리고 모든 데이터 작업을 꿰뚫는 데이터 엔지니어링 수명주기(생성→수집→저장→변환→서빙)와 저류(Undercurrents)를 깊이 있게 다룹니다.
데이터 엔지니어링의 정의와 역사부터 수집·저장·처리·오케스트레이션 기술 오버뷰, 사례별 파이프라인 설계, 품질·거버넌스·DataOps까지 10단계로 정복하는 종합 학습 로드맵입니다. 도장깨기 방식으로 진행 상황을 추적합니다.