이 책은 저자가 직접 실무에서 경험한 정보 수집과 데이터 자동화의 어려움을 해결하기 위해 만들었습니다. 웹 크롤링은 직접하면 코드 생성부터 해야 하기 때문에 그 돌파구가 필요했고, 혜성처럼 등장한 것이 바로 챗GPT입니다. 마케터부터 일반 직장인까지 배울 수 있도록 챗GPT를 활용한 웹 크롤링 실전 사례와 기초 내용을 담았습니다. 웹사이트 구조 분석부터 시작해 챗GPT에게 크롤링 코드를 요청하고, 이를 실행하여 데이터를 수집하고 정리하는 전 과정을 누구나 쉽게 따라 할 수 있도록 구성했습니다.
또한 수집한 데이터를 엑셀, 표, 차트 등의 형태로 정리하며, 결과물 작성까지 완성할 수 있도록 실무 중심으로 구성했습니다. 후반부에서는 API를 사용하여 약속된 방법으로 데이터를 요청하여 응답받는 규칙을 통해 데이터를 수집하는 방법을 알아봅니다. GPTs 생성을 통해 반복적인 크롤링 작업을 자동화하고 API 연동까지 확장하여, 실제 업무에 적용 가능한 자동화 스킬을 익힐 수 있습니다.
[PART 01 웹 크롤링 빡세게 연습하기]
이 책은 웹 크롤링을 4단계로 설명합니다. 먼저 웹 크롤링에 꼭 필요한 기초 지식과 사이트 구조 파악 → 챗GPT에게 코드 요청 → 코드 복사 및 실행 → 결과물 정리로 이루어집니다. 챗GPT가 직접 크롤링을 수행하지는 않지만, 코드 작성을 도와주어 초보자도 손쉽게 웹 데이터를 수집하고 처리할 수 있도록 도와줍니다. 또한 웹 크롤링을 처음 실행하는 사람에겐 자주 보는 익숙한 웹페이지여도 그 구조에 들어가서 내가 수집할 데이터를 찾는 작업부터 어려울 수 있습니다. 때문에 차근차근 따라 할 수 있도록 여러 요소에서 텍스트 추출하기부터, 구조 파악, 웹페이지 이동하며 웹 크롤링 작업을 수행하며 기본기를 다집니다.
[PART 02 웹 크롤링으로 실제 웹사이트에서 정보 수집하기]
챗GPT로 활용해 실제 웹사이트에서 정보를 수집하는 방법을 다룹니다. EBS 홈페이지에서 원하는 기출문제 파일을 선택하여 다운로드하는 방법부터 알아봅니다. 원하는 문제를 하나하나 선택하며 다운로드했다면 웹 크롤링을 통해 다양한 문제를 선택해서 자동으로 다운로드합니다. 성형외과 가격 정보 수집과 같은 사례를 통해서는 경쟁사의 웹사이트에서 정보를 수집해 비교하여 전략 수립에 도움과 편리함을 줄 것입니다. 또한 기상청 날씨 정보 수집부터 알리익스프레스의 상품 이미지 추출, LH 청약 공고문, 네이버 항공권 검색 결과나 소상공인24의 공고문 정보 등 실제 활용 가능한 데이터를 수집하며, 웹사이트 구조에 대한 이해와 실습 능력을 키울 수 있도록 구성되어 있습니다.
[PART 03 API로 데이터 수집! 기초 사용 방법부터 실전 활용까지]
API를 활용한 데이터 수집 방법을 기초부터 실전까지 단계적으로 배웁니다. 복잡하게 느껴질 수 있는 API 개념을 쉽게 설명하고, 공식적인 방식으로 대량의 데이터를 효율적으로 수집하는 방법을 익힙니다. 한국 박스 오피스 순위 확인, 급식 정보 조회, 포켓몬 TCG 데이터 수집, 뉴욕타임스 이메일 받아보기, 유튜브 채널 동영상 정보와 댓글 수집, 네이버 쇼핑 검색 결과 가져오기 등 다양한 실습을 통해 API 활용 능력도 키울 수 있습니다. 또한 수집한 데이터를 바탕으로 나만의 GPTs를 만들어, 특정 주제에 특화된 챗봇을 생성하는 방법까지 함께 익힙니다.
[PART 04 내가 작성한 크롤링 코드! 매일 실행하려면?]
크롤링 코드를 완성한 후에는 ‘매번 직접 실행해야 하나?’라는 고민이 생길 수 있습니다. PART 04에서는 작성한 크롤링 코드를 자동으로 반복 실행하는 방법을 다룹니다. 윈도우와 macOS에서 각각 어떻게 스케줄링하는지 자세히 설명하며, 실습을 통해 자동화 설정을 완벽히 익힐 수 있습니다.
작가의 말
저는 첫 직장에서 경쟁 상품의 정보를 수집하며 웹 크롤링에 관심을 갖게 되었습니다. 당시 팀은 상하반기 기획을 위해 판매 사이트에서 상품 이름, 가격, 사양 등을 직접 복사해 엑셀에 입력하는 반복 업무를 수행했는데, 600~1,000개의 데이터를 정리하는 일은 큰 불편함으로 다가왔습니다. 이를 계기로 파이썬을 공부하며 자동화 코드를 작성하기 시작했죠. 아마 이 책을 펼친 여러분도 비슷한 불편함을 경험해 보셨을 것이라고 생각합니다.
이 이야기를 들으면 웹 크롤링에 꼭 프로그래밍 공부가 필요하다는 의문이 생길 수 있습니다. 과거에는 “공부를 해야 만들 수 있습니다.”라는 답변이 정설이었지만, 상황이 달라졌습니다. 챗GPT와 같은 유용한 도구가 등장하면서 프로그래밍 접근 방식이 크게 변화했기 때문이죠.
최근 유행하는 ‘바이브 코딩’은 사람의 언어로 프로그램을 만드는 방식을 의미합니다. 예전에는 C, 자바, 파이썬 등의 문법을 배우며 프로그램을 작성해야 했지만, 이제는 “이런 OOO 프로그램 만들어 봐”라는 간단한 지시만으로도 꽤 복잡한 동작을 구현할 수 있습니다. 물론 전문 개발자의 지식이 필요한 경우도 있지만, 일상에 필요한 프로그램은 전문 지식 없이도 누구나 어렵지 않게 만들 수 있게 되었습니다.
이 책은 이런 흐름을 받아들여 챗GPT나 딥시크와 같은 서비스를 통해 웹 크롤링 프로그램을 프롬프팅만으로 쉽게 만듭니다. 프로그래밍을 가르치려는 목적이 없으므로 의도적으로 코드를 설명하는 내용은 한 줄도 넣지 않았습니다. 다시 말해 변수가 어쩌니, 반복문이 어쩌니 하는 내용은 아예 없습니다. 코드를 한 줄 한 줄 입력하라는 말도 없습니다. 대신 프롬프팅에 꼭 필요한 프로그래밍 지식은 프롬프트 입력 단계에서 반복 설명하여 자연스럽게 이해할 수 있도록 했습니다. 정말로 웹 크롤링 프로그램을 5분 정도면 쉽게 만들 수 있을 것입니다. 반복 수집 업무에 들이는 시간을 줄이고 더 중요한 일에 집중하고 싶은 여러분에게 이 책이 조금이라도 도움이 되었으면 합니다.