본문으로 바로가기
평면표지(2D 앞표지)
입체표지(3D 표지)
2D 뒤표지

데이터 엔지니어를 위한 97가지 조언

크고 작은 데이터를 관리하기 위한 강력한 실제 모범 사례와 다양한 핵심 원칙


  • ISBN-13
    979-11-407-0681-5 (93000)
  • 출판사 / 임프린트
    ㈜도서출판 길벗 / 길벗
  • 정가
    25,000 원 확정정가
  • 발행일
    2023-10-30
  • 출간상태
    출간
  • 저자
    토비아스 메이시
  • 번역
    임혜연
  • 메인주제어
    데이터베이스
  • 추가주제어
    -
  • 키워드
    #빅데이터 #데이터과학 #분산 #클라우드 #구글 #인공지능 #데이터베이스
  • 도서유형
    종이책, 무선제본
  • 대상연령
    모든 연령, 성인 일반 단행본
  • 도서상세정보
    152 * 225 mm, 344 Page

책소개

트위터, 구글, 마이크로소프트, 링크드인 등에서 일한 

데이터 엔지니어들이 다양한 문제를 극복하면서 얻은 경험과 교훈을 담았다!

 

데이터 엔지니어는 넓게 보면 데이터를 분석하고, 머신 러닝, 비즈니스 인텔리전스에 사용할 수 있게 만들어 주는 사람이다. 빅데이터 기술과 데이터 과학, 분산 컴퓨팅, 클라우드가 도입되면서 데이터 엔지니어링은 없어서는 안 될 일이 되었고, 더 복잡해졌다. 역설적이게도 그래서 데이터 엔지니어가 할 수 있는 일도 더 늘어났다.

이 책은 트위터, 구글, 마이크로소프트, 링크드인 등에서 일한 전문가들이 다양하고 구체적인 문제를 극복하면서 얻은 경험과 교훈을 담고 있다. 데이터 팀에서 일하기 위한 노하우, 도구 선택 팁, 분산 시스템의 기본 원리 등을 설명하며, 97가지 조언만으로 모든 문제를 해결할 순 없겠지만, 문제를 해결하기 위한 영감을 얻을 수 있을 것이다. 이 조언들을 초석으로 삼아 성공적인 데이터 엔지니어 커리어를 완성할 수 있기를 바란다.

목차

01_서점 재고관리 시스템으로 알아보는 최종 일관성

02_A/B 테스트, 어떻게 해야 할까?  

03_스토리지 계층에 대하여  

04_분석: 마이크로서비스 아키텍처의 숨겨진 접착제

05_인프라스트럭처를 자동화하라 

06_파이프라인 테스트를 자동화하라  

07_데이터 파이프라인의 배치 모델을 신중히 검토하라

08_은탄환 신드롬을 경계하라  

09_데이터 엔지니어 경력 쌓기  

10_데이터 파이프라인을 보여주는 비즈니스 대시보드

11_주의: 데이터 과학 프로젝트가 벌거벗은 임금님 이야기가 되지 않으려면

12_변경 데이터 캡처  

13_계약으로 기능하는 컬럼 이름 

14_합의된 개인 정보 보호 데이터 수집  

15_데이터 소비자와 원활한 업무 관계를 구축하라

16_데이터 엔지니어링은 스파크와 같지 않다 

17_자율성 및 신속한 혁신을 돕는 데이터 엔지니어링 

18_데이터 과학자 관점에서 보는 데이터 엔지니어링

19_재사용 및 확장 가능한 코드를 만드는 데이터 파이프라인 디자인 패턴

20_데이터 엔지니어를 위한 데이터 품질

21_데이터 엔지니어를 위한 데이터 보안

22_요약 통계 이상의 데이터 유효성 검증

23_과거에도 현재에도 미래에도 존재하는 데이터 웨어하우스 

24_로그 중심 아키텍처에서의 메시지 정의 및 관리 방식 

25_데이터 생성 과정 정보를 파악해서 파이프라인을 이해하기 쉽게 하라 

26_코드뿐만 아니라 커뮤니티를 개발하라

27_클라우드 세상의 효율적인 데이터 엔지니어링

28_데이터 레이크 아키텍처를 받아들여라

29_데이터 사일로를 받아들여라 

30_재현 가능한 데이터 과학 프로젝트 엔지니어링

31_안정적인 데이터 처리를 위한 5가지 모범 사례 

32_유지 보수에 집중하고 ETL 작업을 분리하라 

33_동료에게 이중 기록을 권하지 마라

34_기본 지식 

35_구조화를 SQL로 되돌리기

36_데이터 프로덕트에 잠재적인 문서를 포함한 프런트엔드를 제공하라

37_데이터 파이프라인의 진화

38_제품처럼 데이터 플랫폼을 구축하는 방법 

39_데이터 반란을 방지하는 방법 

40_관리하는 데이터의 바이트당 가격을 파악하라

41_처리 지연 속도를 의식하라

42_RDBMS와는 다른 NoSQL 데이터베이스 사용법을 배워라

43_로봇을 이용해서 규칙을 강제하라

44_사용자 의견을 듣되 지나치게 따르지 마라

45_저가형 센서와 데이터 품질 

46_기계 동작 방식에 대한 공감력을 유지하라 

47_데이터 그 이상의 메타데이터 

48_데이터 플랫폼의 핵심 요소인 메타데이터 서비스 

49_데이터 레이크는 ACID를 제공하지 않으므로 조심하라 

50_모던 데이터 스택을 위한 모던 메타데이터

51_상당수의 데이터 문제는 빅데이터 없이 풀 수 있다 

52_소프트웨어 엔지니어링에서 데이터 엔지니어링으로 전환하기 

53_데이터 엔지니어를 위한 관측 가능성 

54_완벽함은 적절함의 적이다 

55_파이프의 꿈 

56_데이터 레이크가 지옥이 되지 않으려면 

57_메시징 시스템에서 사용자 경험의 우선순위 높이기  

58_개인 정보 보호 문제는 남의 일이 아니다 

59_QA에 대한 흥미로운 사실 

60_데이터 엔지니어가 머신 러닝 프로젝트에 관여할 때 주의할 7가지 사항  

61_분석용 데이터 웨어하우스 선택을 보는 6가지 관점 

62_빅데이터 세상의 작은 파일 

63_스트리밍은 배치와 다르다 

64_늦게 도달하는 데이터

65_데이터 프로젝트를 성공시키려면 기술이 뒤로 물러서야 한다 

66_데이터 엔지니어링 프로젝트에서 필수적으로 확인해야 하는 10가지

67_데이터 파이프라인의 관건은 속도가 아니다

68_데이터 엔지니어링의 할 일과 하면 안 되는 일  

69_모두가 아는 ETL의 종말 

70_시조 작성 방식으로 소프트웨어 작성하기  

71_데이터 입출력에 숨어 있는 비용

72_독점 소프트웨어와 오픈 소스가 전쟁 중이라는 거짓말

73_CAP 정리의 영향

74_데이터 계보의 중요성 

75_데이터 누락이 갖는 여러 가지 의미

76_경력을 망치는 한 문장 

77_데이터 품질 테스트에 오픈 소스를 사용하여 얻는 3가지 이점 

78_데이터 엔지니어링에서 중요한 3R 

79_두 부류의 데이터 엔지니어링과 데이터 엔지니어  

80_빅데이터 확장성의 음양 

81_데이터 프로세싱에서의 스레드 사용 및 동시성  

82_분산 프로그래밍에서 중요한 개념 3가지 

83_의미론적인 시간은 기다려주지 않는다  

84_도구가 아니라 패턴과 관행이 중요하다 

85_총 소유 기회비용 

86_가지각색의 데이터 도메인에서 문제를 해결하는 방법 

87_데이터 엔지니어란 어떤 직종인가? 힌트: 데이터 과학의 조력자 

88_데이터 메시와 메시를 망치지 않을 방법 

89_빅데이터란 무엇인가? 

90_인정받지 못할 때 해야 할 일 

91_데이터 과학 팀이 가치를 창출하지 못했다면 

92_잘 모르면서 대충 접근하지 말아야 하는 경우 

93_데이터 공유에 주의해야 하는 경우 

94_발언할 때와 경청할 때 

95_데이터 과학 팀에 전문가 대신 제너럴리스트가 필요한 이유  

96_엄청난 데이터에 따르는 엄청난 책임 

97_데이터 검증 실패! 그 다음은? 

본문인용

데이터 엔지니어링을 별도의 역할로 보기 시작한 것은 오래되지 않았지만 역할 자체는 수십 년 전부터 존재해왔습니다. 넓게 보면 데이터 엔지니어는 데이터를 분석하고, 머신 러닝, 비즈니스 인텔리전스 등에 사용할 수 있도록 만들어주는 사람입니다. 

빅데이터 기술과 데이터 과학, 분산 컴퓨팅, 클라우드가 도입된 덕에 데이터 엔지니어링은 없어서는 안 될 일이 되었고, 더 복잡해졌지만 (역설적으로) 할 수 있는 일도 더 늘어났습니다. 유능한 데이터 엔지니어가 되기 위해 알아야 하는 모든 내용을 아우르는 단 한 권의 책을 쓰는 것은 불가능하겠지만, 그 여정에 도움이 될 몇 가지 핵심 원리는 제안하려 노력했습니다.

이 책에는 데이터를 다루면서 힘겹게 교훈을 얻었던 다양한 사람들의 조언이 담겨 있습니다. 같은 실수를 막기 위한 이 조언들을 초석으로 삼아 성공적인 데이터 엔지니어링 커리어를 완성할 수 있기를 바랍니다.

또한, 데이터 팀에서 일하기 위한 노하우, 도구를 선택할 때 필요한 팁, 분산 시스템에 대한 기본 원리를 알 수 있습니다. 데이터 엔지니어링에는 여러 길이 있고, 꼭 똑같은 도구를 사용하란 법은 없지만, 이로부터 어떤 문제를 해결하기 위한 영감을 얻을 수 있습니다. 이 책이 첫걸음이든 이미 수 년간 길을 따라 걷고 있든, 여러분 모두의 모험에 행운이 있기를 바랍니다.

 

  1. 지은이의 말 -

서평

데이터 엔지니어가 알아 두어야 할 아키텍처 구성의 총아와 같은 책입니다. 구체적인 베스트 프랙티스가 존재하는 도서는 아니지만, 다양한 분야의 데이터 엔지니어들이 자신의 경험을 토대로 자신들이 구축한 구조를 설명해 놓았기 때문에 많은 분이 참조하고 자신의 케이스에 적용하기에 좋은 책이라고 생각됩니다.

박두현_SW개발 프리랜서

 

전문 데이터 엔지니어 및 데이터 과학자가 경험을 바탕으로 얻은 교훈과 문제를 해결하면서 얻은 통찰이 모두 담겨 있습니다. 안전하고 안정적이며 효율적인 확장 가능한 데이터 파이프라인을 구축하고 유지 관리하는 데 이 책이 소중한 길라잡이가 되길 바랍니다.

박상길_소프트웨어 엔지니어

 

전문가가 직접 경험하면서 느낀 데이터 관련 업무에 필요한 지식과 노하우가 마치 리더스 다이제스트처럼 짧게 담겨 있습니다. 내용이 지루하지 않게끔 짧게 요약되어 있기 때문에, 업무가 잘 안 풀리고 막히는 시간에 머리를 식힐 겸 간단하게 읽을 수 있었습니다. 짧은 내용이지만, 전문가의 노하우에서 얻을 수 있는 통찰을 찾고자 하는 사람에게는 좋은 책이 될 것 같습니다.

강찬석_LG전자 소프트웨어 엔지니어

 

데이터 엔지니어링 기술을 배울 수 있는 책들은 많습니다. 엔지니어링은 때때로(하지만 자주) 기술이 아닌 노하우를 필요로 할 때가 있습니다. 이런 노하우는 책으로 만나기 어려운데, 이 책은 이런 내용들을 담고 있습니다. 초보를 뛰어넘기 위한 장벽의 사다리를 이 책에서 찾을 수 있으며, 데이터 엔지니어링을 거인의 어깨에서 바라볼 수 있습니다. 

김동우_백앤드개발자/스타트업

저자소개

저자 : 토비아스 메이시
데이터 엔지니어링 팟캐스트 채널 'Data Engineering Podcast'와 파이썬 팟캐스트 채널 'Podcast.__init__'를 운영하며 각 채널과 연관된 도구와 주제, 인물에 대해 폭넓게 이야기한다. 인프라와 소프트웨어, 클라우드, 데이터 엔지니어링 전반에 걸친 그의 경험을 바탕으로 정보에 근거해 질문하고 토론에 유용한 콘텐츠로 구성할 수 있었다. 현재는 온라인 학습의 동력이 되는 플랫폼을 설계하고 구축하는 데 집중하고 있다.
번역 : 임혜연
인터넷 세상의 언어에 관심이 많은 개발자다. 지금은 어떻게 하면 검색을 통해 좋은 연결을 만들 수 있을지 고민하는 일을 주로 하고 있다. 옮긴 책으로는 『데이터 접근 패턴 Data Access Patterns』(에이콘, 2013), 『자연어 텍스트 처리를 통한 검색 시스템 구축』(에이콘, 2014), 『파이썬 성능 높이기 2/e』(에이콘, 2018), 『HTTP/2 in Action』(에이콘, 2020), 『데이터 과학을 위한 파이썬과 R』(한빛미디어, 2022)이 있다.
1990년 (주)도서출판 길벗으로 출발하여 ‘인터넷 무작정 따라하기’가 컴퓨터 부문 베스트셀러 1위를 기록하는 등 꾸준히 성장하며 컴퓨터/인터넷 분야뿐 아니라 경제/경영, 인문, 취미, 여행 등 다양한 분야로 영역을 넓혔습니다.
시나공, 무작정 따라하기, 스크린 영어회화 등의 대표 시리즈가 있습니다.
2000년에는 이지톡을 설립하고 어학분야에 새로운 바람을 불어 넣었습니다.(2019년에 ‘도서출판 길벗’과 통합)
상단으로 이동