카테고리: Data-Engineering

DataOps·운영·신뢰성: 데이터 시스템을 소프트웨어처럼 운영하기

2026년 06월 25일

데이터 파이프라인에 버전 관리·자동 테스트·환경 분리·자동 배포(DataOps/CI-CD)를 입히고, SLA/SLO/SLI와 경보·장애 대응·FinOps로 신뢰성을 지키며, 최소 권한·마스킹·암호화·규정 준수로 데이터를 안전하게 운영하는 법을 다룹니다. 시리즈의 마지막 10단계.

데이터 품질·거버넌스·관측가능성: 믿을 수 있는 데이터 만들기

2026년 06월 25일

data-engineering data-quality data-governance observability data-contracts

품질 차원과 검증(Great Expectations·dbt tests·데이터 계약), 리니지·카탈로그(DataHub·OpenMetadata), 그리고 관측가능성의 5축(신선도·볼륨·스키마·분포·리니지)을 통해 '파이프라인이 돈다 ≠ 데이터가 맞다'는 간극을 어떻게 메우는지 다룹니다.

사례별 파이프라인 설계: 실시간 분석·이벤트·ML 피처·CDC

2026년 06월 25일

data-engineering data-pipeline real-time feature-store cdc

실시간 분석·로그/이벤트·ML 피처·CDC 리포팅이라는 네 가지 대표 시나리오를 요구사항(지연·정확성·규모) → 설계(수집·저장·처리·오케스트레이션 선택) → 트레이드오프의 순서로 풀어, 앞 단계에서 배운 개념을 실제 파이프라인 설계로 연결합니다.

데이터 아키텍처 패턴: Lambda·Kappa·Medallion·Data Mesh

2026년 06월 25일

data-engineering data-architecture lambda-architecture data-mesh medallion

Lambda·Kappa의 배치/스트림 경로 설계부터 Bronze→Silver→Gold로 품질을 끌어올리는 Medallion, 그리고 Modern Data Stack과 도메인 중심의 Data Mesh까지 — 데이터 시스템을 떠받치는 대표 아키텍처 패턴을 그 트레이드오프와 함께 정리합니다.

오케스트레이션(Orchestration): DAG·스케줄링과 견고한 파이프라인

2026년 06월 25일

data-engineering orchestration airflow dag workflow

수많은 데이터 작업을 DAG로 모델링하고 의존성·스케줄에 따라 실행하는 오케스트레이션의 원리, Airflow와 Dagster·Prefect의 철학 차이, 그리고 멱등성·재시도·백필·체크포인트로 견고한 파이프라인을 만드는 법을 다룹니다.

데이터 변환·처리(Processing): 배치·스트림 엔진과 SQL 변환

2026년 06월 25일

data-engineering data-processing spark flink dbt

MapReduce에서 인메모리·DAG 실행의 Spark로 이어진 분산 처리 모델, 이벤트 시간·워터마크·윈도잉으로 무한 스트림을 다루는 Flink/Kafka Streams, 그리고 SQL 변환을 소프트웨어처럼 관리하는 dbt까지 — 저장된 데이터를 가치로 바꾸는 처리 엔진을 정리합니다.

데이터 저장(Storage): 웨어하우스·레이크·레이크하우스와 파일·테이블 포맷

2026년 06월 25일

data-engineering data-storage data-warehouse data-lakehouse parquet

OLTP와 OLAP, 행 지향과 열 지향 저장의 차이부터 데이터 웨어하우스·레이크·레이크하우스의 선택 기준, Parquet/ORC/Avro 같은 파일 포맷과 Iceberg/Delta/Hudi 같은 테이블 포맷까지 — 데이터를 '어디에 어떤 형태로' 쌓을지를 한 층씩 풀어냅니다.

데이터 수집(Ingestion): 배치·스트리밍·CDC와 수집 도구

2026년 06월 25일

data-engineering data-ingestion cdc kafka streaming

원천에서 데이터를 가져오는 수집 단계 — 배치 vs 스트리밍의 트레이드오프, 로그 기반 vs 쿼리 기반 CDC, Kafka·Kinesis 같은 스트리밍 플랫폼의 버퍼·디커플링 역할, 그리고 Airbyte·Fivetran 같은 수집 도구의 build vs buy 판단까지 다룹니다.

데이터 파이프라인의 역사와 진화: ETL에서 Lakehouse까지

2026년 06월 25일

data-engineering data-pipeline etl elt data-lakehouse

데이터 웨어하우스에서 Hadoop·데이터 레이크, ETL에서 ELT로의 전환, 그리고 Modern Data Stack과 레이크하우스·스트리밍까지 — 데이터 파이프라인이 각 시대의 한계를 어떻게 풀어 왔는지 그 진화의 맥락을 짚습니다.

데이터 엔지니어링이란: 수명주기와 데이터 엔지니어의 역할

2026년 06월 25일

data-engineering data-pipeline data-lifecycle etl dataops

데이터 엔지니어링의 정의와 데이터 엔지니어의 역할, 그리고 모든 데이터 작업을 꿰뚫는 데이터 엔지니어링 수명주기(생성→수집→저장→변환→서빙)와 저류(Undercurrents)를 깊이 있게 다룹니다.

Data Engineering Essential Curriculum

2026년 06월 25일

data-engineering data-pipeline curriculum

데이터 엔지니어링의 정의와 역사부터 수집·저장·처리·오케스트레이션 기술 오버뷰, 사례별 파이프라인 설계, 품질·거버넌스·DataOps까지 10단계로 정복하는 종합 학습 로드맵입니다. 도장깨기 방식으로 진행 상황을 추적합니다.