데이터 분석, 왜 이렇게 복잡한가요?
Spark는 너무 무겁고, pandas는 너무 느리고,
SQL은 클라우드 요금이 걱정되나요?
DuckDB는 이런 문제들을 해결합니다.
* 클러스터 없이, 단일 머신에서 수백 기가바이트 데이터 쿼리
* Jupyter 노트북 안에서 바로 실행
* CSV, JSON, Parquet, S3까지 설치 없이 SQL로 바로 처리
* 클라우드 전환 없이 로컬 환경에서 데이터 분석 완료
당신이 이미 알고 있는 SQL로, 더 빠르게, 더 쉽게!
DuckDB를 먼저 사용한 사람들의 반응
“DuckDB를 처음 써본 날, 저는 분석 환경을 바꿨습니다.”
“DuckDB는 설치도 필요 없고, 그냥 실행하면 된다. 진짜로.”
“SQL은 아는데 Spark는 너무 크다 싶을 때, 딱 DuckDB였습니다.”
“20,000,000개 로우를 0.126초 만에 처리했다. 처음엔 의심했다.”
누구를 위한 책인가요?
* 클라우드 비용과 설정에 지친 데이터 엔지니어
* pandas로는 데이터가 벅찬 데이터 과학자
* SQL은 쓰지만 Spark는 부담스러운 개발자·실무자
* 프라이버시 중심 조직에서 분석해야 하는 실무자
이 책의 차별점
* CLI와 파이썬으로 배우는 실습 중심 구성
* JSON, CSV, Parquet 파일을 직접 쿼리하는 현장 예제
* DuckDB의 SQL 확장 기능 완전 해설
* MotherDuck 클라우드 버전까지 포함한 활용법
* 전체 예제 GitHub 제공, 최신 로컬 UI 설명 수록
* DuckDB v1.2.1 최신 버전 반영
“우리는 설명서를 쓰지 않았습니다.
“동료에게 설명하듯 썼습니다.”
_저자 서문 중
〉〉 출판사 리뷰
데이터 분석이 힘들어지는 순간, DuckDB가 필요하다
이제 DuckDB로 완전히 새롭게 경험하세요!
노트북 하나로 기가바이트 단위 데이터를 1초 만에 분석할 수 있다면 믿을 수 있을까? DuckDB라면 가능하다. CSV, JSON, Parquet 등 다양한 파일 형식, 심지어 압축된 파일까지 단 한 줄의 SQL만으로 바로 읽고 분석할 수 있다. 복잡한 설치 과정도, 데이터 웨어하우스 구축도 필요없다. 그냥 데이터와 노트북만 있으면 충분하다.
클라우드 비용과 복잡한 인프라, 이제는 안녕
DuckDB로 가볍게, 더 빠르게!
데이터 웨어하우스 구축이나 클라우드 서비스 이용에 드는 비용과 관리의 부담, DuckDB 앞에서는 고민할 필요가 없다. CSV, JSON, Parquet뿐 아니라 Delta Lake, Iceberg, S3, SQLite, MySQL, PostgreSQL까지 어떤 데이터든 별도 변환 없이 즉시 분석할 수 있다. 이제 당신의 데이터 분석이 놀랍도록 간단해진다.
배우지 않아도 이미 할 줄 아는 데이터베이스
DuckDB는 지금 바로 쓸 수 있다
새로운 데이터베이스를 쓰려면 복잡한 문서를 읽고 수많은 튜토리얼을 봐야 할까? DuckDB는 다르다. 이미 알고 있는 SQL 문법 그대로 사용할 수 있고 SQL만으로 부족한다면 파이썬과의 완벽한 통합으로 자유롭게 확장할 수도 있다. 로컬에서 더 큰 성능이 필요하다면 DuckDB의 클라우드 버전인 MotherDuck으로 언제든지 쉽게 확장 가능하다.
이 책에서 다루는 내용
* CSV, JSON, Parquet 형식의 데이터를 로컬 또는 원격에서 읽고 처리하는 방법
* 집계, 공통 테이블 표현식(CTE), 윈도 함수, 조인, 피벗 테이블 등 다양한 SQL 기능을 활용한 분석용 쿼리 작성
* 파이썬에서 DuckDB를 사용해 SQL과 관계형 API를 모두 활용하고, 데이터프레임과 상호작용하는 방법
* 대규모 데이터세트를 수집, 준비, 쿼리하는 실전 예제
* 클라우드 환경에서 데이터 파이프라인을 구축하고 활용하는 전략
* 사용자 정의 함수와 확장 기능으로 DuckDB를 커스터마이징하는 방법
* Streamlit으로 맞춤형 데이터 앱 구축하기
* Apache Superset으로 BI 대시보드 구축하기
* Polars, pandas, Apache Arrow와의 상호운용성