본문으로 바로가기
평면표지(2D 앞표지)
입체표지(3D 표지)
2D 뒤표지

딥러닝 프로젝트를 위한 허깅페이스 실전 가이드

자연어 처리부터 컴퓨터비전, 멀티모달 프로젝트까지 허깅페이스로 쉽고 빠르게 구축하기


  • ISBN-13
    979-11-5839-546-9 (93000)
  • 출판사 / 임프린트
    주식회사 위키아카데미 / 위키북스
  • 정가
    32,000 원 확정정가
  • 발행일
    2024-09-26
  • 출간상태
    출간
  • 저자
    윤대희 , 김동화 , 송종민 , 진현두
  • 번역
    -
  • 메인주제어
    기계학습
  • 추가주제어
    -
  • 키워드
    #딥러닝 #허깅페이스 #자연어 처리 #컴퓨터비전 #멀티모달
  • 도서유형
    종이책, 무선제본
  • 대상연령
    모든 연령, 성인 일반 단행본
  • 도서상세정보
    175 * 235 mm, 392 Page

책소개

허깅페이스를 활용한 최신 인공지능 기술의 핵심 개념과 실무 능력을 제공합니다! 

 

허깅페이스는 현대 딥러닝 분야, 특히 자연어 처리와 컴퓨터 비전 영역에서 널리 사용되는 강력한 도구입니다. 이 책은 허깅페이스를 활용하여 다양한 딥러닝 프로젝트를 구축하는 방법을 상세히 다룹니다. 트랜스포머 모델의 기본 개념부터 시작하여 자연어 처리, 컴퓨터비전, 멀티모달까지 폭넓은 주제를 다루며, 실제 프로젝트 구현을 통해 실용적인 지식을 제공합니다.

 

이 책은 허깅페이스를 활용해 모델 설정, 토크나이저 사용, 데이터세트 처리, 모델 학습 및 평가 등 프로젝트 전 과정을 상세히 다룹니다. 또한 최신 모델인 BERT, BART, RoBERTa, T5, LLaMA-3.1 등을 활용한 다양한 자연어 처리 모델과 CLIP, OWLv2, SAM 등을 이용한 컴퓨터 비전 모델, 그리고 BLIP-2, LayoutLM, ViLT, Stable-diffusion 등의 멀티모달 모델을 실습합니다.

 

허깅페이스를 이용해 최신 딥러닝 기술을 실제 프로젝트에 적용하고자 하는 개발자, 연구자, 그리고 데이터 사이언티스트 모두에게 강력하게 이 책을 추천합니다!

 

★ 이 책에서 다루는 내용 ★

 

◎ 허깅페이스 이해 및 활용 방법

◎ 트랜스포머 모델의 구조와 작동 원리 이해

◎ 허깅페이스 허브와 리포지터리를 활용한 모델 공유 및 관리

◎ 허깅페이스 트랜스포머 라이브러리를 이용한 모델 설정, 학습, 평가

◎ 자연어 처리 프로젝트(텍스트 분류, 요약, 질의 응답, 기계 번역, 텍스트 생성) 실습

◎ 컴퓨터비전 프로젝트(이미지 분류, 객체 검출, 이미지 세그먼테이션) 실습

◎ 멀티모달 프로젝트(이미지 캡셔닝, 문서 질의 응답, 시각적 질의 응답, 이미지 생성) 실습

◎ 고급 기능(이미지 매칭, 하이퍼파라미터 최적화, 모델 양자화, 분산 학습) 실습

목차

▣ 01장: 허깅페이스 알아보기

1.1 인공지능과 허깅페이스

___1.1.1 머신러닝과 딥러닝

___1.1.2 딥러닝을 위한 허깅페이스

1.2 트랜스포머

___1.2.1 트랜스포머 모델 구조

___1.2.2 멀티 헤드 어텐션

___1.2.3 마스크드 멀티 헤드 어텐션

1.3 파이토치 설치 및 환경 설정

___1.3.1 윈도우 / 리눅스

___1.3.2 리눅스(ROCm)

___1.3.3 맥

___1.3.4 구글 코랩

1.4 허깅페이스 허브

___1.4.1 허깅페이스 알아보기

___1.4.2 Models 페이지 알아보기

___1.4.3 사전 학습된 모델 다운로드

1.5 허깅페이스 리포지터리

___1.5.1 모델 리포지터리 생성

___1.5.2 모델 파일 업로드

___1.5.3 push_to_hub 메서드를 통한 업로드

___1.5.4 Git을 통한 업로드

 

▣ 02장: 허깅페이스 트랜스포머

2.1 라이브러리 소개

___2.1.1 트랜스포머

___2.1.2 토크나이저

___2.1.3 데이터세트

___2.1.4 디퓨저

___2.1.5 가속화

2.2 모델 설정

___2.2.1 PretrainedConfig 클래스

___2.2.2 ModelConfig 클래스

2.3 토크나이저

___2.3.1 PreTrainedTokenizer 클래스

___2.3.2 ModelTokenizer 클래스

2.4 모델

___2.4.1 PreTrainedModel 클래스

___2.4.2 ModelModel 클래스

2.5 특징 추출

___2.5.1 ImageFeatureExtractor 클래스

___2.5.2 AudioFeatureExtractor 클래스

2.6 이미지 프로세서

___2.6.1 ImageProcessor 클래스

2.7 오토 클래스

___2.7.1 주요 Auto 클래스

2.8 파이프라인

___2.8.1 파이프라인 종류와 예시

___2.8.2 pipeline 함수

2.9 데이터세트

___2.9.1 선택, 분리, 병합

___2.9.2 필터 및 맵

___2.9.3 기타 메서드

___2.9.4 데이터 업로드

2.10 트레이너

___2.10.1 트레이너 클래스

___2.10.2 트레이닝 아규먼트

___2.10.3 토큰 분류 - 개체명 인식

2.11 모델 평가

___2.11.1 평가 라이브러리

 

▣ 03장: 자연어 처리

3.1 텍스트 분류: BERT

___3.1.1 BERT

___3.1.2 BertTokenizer

___3.1.3 BertModel

___3.1.4 텍스트 분류 모델 학습

3.2 요약문 생성: BART

___3.2.1 BART

___3.2.2 BartTokenizer

___3.2.3 BartModel

___3.2.4 요약문 생성 모델 학습

3.3 질의 응답: RoBERTa

___3.3.1 RoBERTa

___3.3.2 추출 질의 응답 모델 학습

3.4 기계 번역: T5

___3.4.1 T5

___3.4.2 기계 번역 모델 학습

3.5 텍스트 생성: LLaMA-3.1

___3.5.1 LLaMA-3 시리즈

___3.5.2 텍스트 생성 모델 실습

___3.5.3 텍스트 생성 모델 학습

 

▣ 04장: 컴퓨터비전

4.1 제로샷 이미지 분류: CLIP

___4.1.1 CLIP

___4.1.2 제로샷 이미지 분류 수행

4.2 제로샷 객체 검출: OWLv2

___4.2.1 OWLv2

___4.2.2 제로샷 객체 검출 수행

4.3 이미지 세그먼테이션: SAM

___4.3.1 SAM

___4.3.2 이미지 세그먼테이션 수행

 

▣ 05장: 멀티모달

5.1 이미지 캡셔닝: BLIP-2

___5.1.1 BLIP

___5.1.2 이미지 캡셔닝 수행

5.2 문서 질의 응답: LayoutLM

___5.2.1 LayoutLM

___5.2.2 문서 시각 질의 응답 수행

5.3 시각적 질의 응답: ViLT

___5.3.1 ViLT

___5.3.2 시각적 질의 응답 수행

5.4 이미지 생성: Stable-Diffusion

___5.4.1 확산 모델

___5.4.2 Stable-Diffusion 3

___5.4.3 이미지 생성 수행

 

▣ 부록A: 이미지 매칭

A.1 이미지 특징 벡터

A.2 FAISS

A.3 인덱스 유형

 

▣ 부록B: 레이 튠

B.1 하이퍼파라미터 최적화 수행

B.2 하이퍼파라미터 최적화 결과 비교

B.3 하이퍼파라미터 검색 알고리즘

 

▣ 부록C: GPTQ

C.1 GPTQConfig 클래스

C.2 모델 양자화

 

▣ 부록D: 가속화

D.1 Accelerator 클래스

D.2 모델 분산 학습 수행

본문인용

-

서평

-

저자소개

저자 : 윤대희
카카오스타일의 데이터사이언스 팀 리더로 현재 데이터 리터러시, 데이터 패브릭, MLOps 프로젝트를 진행하고 있다. 이전에는 어반베이스의 머신러닝 팀 리더를 맡아 컴퓨터비전과 딥러닝을 활용해 2D 도면을 3D로 변환하는 프로젝트를 수행했다. 머신러닝·딥러닝을 비롯해 데이터 품질 관리, 데이터 통합, 비즈니스 인텔리전스 등 데이터 통합에 관심이 있으며, 기술 공유 및 확장 플러그인 배포 등으로 개인이나 조직이 기술을 보다 쉽게 이용하고 활용할 수 있도록 도움을 주고 있다.
저자 : 김동화
고려대학교에서 산업경영공학 박사 학위를 취득했다. 데이터 기반으로 제조, IT, 금융 분야에서 발생하는 다양한 기술적 문제를 해결했으며, 머신러닝·딥러닝 분야에 총 6편의 SCI 논문을 게재했다. 카카오스타일에서 컴퓨터비전과 딥러닝을 담당했으며 패션 속성 추출, 유사 이미지 추천 및 코디 추천을 수행했다. 현재는 우아한형제들에서 다양한 푸드/이커머스 플랫폼 과제를 진행하고 있다. 컴퓨터비전, 자연어 처리, 멀티모달 학습을 연구하고 활용하는 데 관심이 있다.
저자 : 송종민
동국대학교에서 전자전기공학 석사 학위를 취득했다. 아크릴 회사에서 선임 연구원으로 근무하면서 빅데이터 포렌식 및 AI 모델 소형화 프로젝트를 진행했다. 현재는 카카오스타일의 데이터사이언스 팀에서 컴퓨터비전과 딥러닝을 담당하며 이미지 데이터 분석, 유사 이미지 추천, 모델 서빙 및 배포 자동화 관련 프로젝트를 진행하고 있다. 인공지능 기술을 활용한 생산성 향상과 비용 최적화에 관심이 있다.
저자 : 진현두
학부생 시절 머신러닝 한번 공부해 보지 않겠냐는 선배의 권유로 데이터 사이언티스트의 길로 들어섰다. 대학원 시절 특허를 비롯한 텍스트 데이터를 이용한 경험을 바탕으로 주식회사 공팔리터의 AI Lab에서 커머스 리뷰 데이터를 이용한 여러 모델을 구축했다. 현재는 공팔리터에서의 경험을 이용해 카카오스타일의 데이터사이언스 팀에서 사용자 리뷰, 상품 정보 등 텍스트 데이터를 활용한 딥러닝 프로젝트를 진행하고 있다. AI 콜로키움, AWS Community Day 등에서 발표하며 경험을 나누는 것의 즐거움을 배웠다. 지능형 검색 시스템과 가상 시착(Virtual Try-On) 등에 관심이 있다.
상단으로 이동