본문 바로가기

(용어) 크롤링 (Crawling), 스크래핑 (Scraping) , 파싱 (Parsing) 개요 및 차이점 정리

METACV 2025. 10. 1.
  • 웹 데이터 수집 과정에서 크롤링, 스크래핑, 파싱의 용어들이 자주 혼용되어 정리함

크롤링 스크래핑 파싱

 

1. 크롤링 (Crawling) 개요
1-1. 정의
- 웹 크롤링(Web Crawling)은 '크롤러(crawler)' 또는 '스파이더(spider)'라고 불리는 자동화된 프로그램(봇)을 사용하여 웹 페이지들을 체계적으로 탐색하고 정보를 수집하는 과정임
- 크롤링의 주된 목적은 여러 웹사이트를 방문하여 페이지의 콘텐츠와 구조를 파악하고, 페이지 내의 하이퍼링크를 따라 다른 페이지로 이동하는 작업을 반복하며 방대한 웹의 정보를 수집
- 이렇게 수집된 데이터는 검색 엔진의 인덱스 생성, 데이터 분석, 시장 조사 등 다양한 목적으로 활용됨

2. 스크래핑 (Scraping) 개요
2-1. 정의
- 웹 스크래핑(Web Scraping)은 특정 웹사이트에서 필요한 데이터를 추출하는 기술을 의미
- 크롤링이 웹 전체를 탐색하며 정보를 수집하는 광범위한 행위라면, 스크래핑은 정해진 특정 웹 페이지에서 원하는 데이터를 정확히 집어내어 가져오는, 보다 집중적인 데이터 수집 방법
- 스크래핑은 웹 페이지의 HTML 구조를 분석하여 텍스트, 이미지, 동영상 등 원하는 형식의 데이터를 추출
- 기업에서는 시장 조사를 위한 가격 정보 수집, 경쟁사 분석, 부동산 정보 수집, 브랜드 모니터링 등 다양한 비즈니스 목적으로 스크래핑 기술을 활용

3. 파싱 (Parsing) 개요
3-1. 정의
- 파싱(Parsing)은 구문 분석(Syntax Analysis)이라고도 불리며, 특정 형식으로 이루어진 데이터를 해석하고 분석하여 원하는 구조로 변환하는 과정
- 웹의 맥락에서 파싱은 주로 크롤링이나 스크래핑을 통해 얻은 HTML, XML, JSON과 같은 데이터를 분석하여 의미 있는 정보, 즉 필요한 데이터만을 추출하는 데 사용
- 즉, 파싱은 원시 데이터(raw data)를 가공하여 다루기 쉬운 형태로 만드는 핵심적인 단계임

4. 크롤링, 스크래핑, 파싱 비교표

구분 크롤링 (Crawling) 스크래핑 (Scraping) 파싱 (Parsing)
목적 웹의 광범위한 페이지를 탐색하고 발견하여 데이터 수집 및 인덱싱 특정 웹 페이지에서 필요한 데이터를 정확하게 추출 수집된 데이터에서 특정 패턴이나 구조를 분석하여 원하는 형태로 가공 및 변환
대상 범위 불특정 다수의 웹 페이지 (웹 전체) 특정 웹 페이지 또는 웹사이트 크롤링/스크래핑을 통해 수집된 데이터 (HTML, XML, JSON 등)
핵심 행위 하이퍼링크를 따라 페이지를 자동으로 이동하며 탐색 웹 페이지의 구조(HTML)를 분석하여 데이터 추출 데이터의 문법적 구조를 해석하고 분석하여 의미 있는 정보로 변환
결과물 웹 페이지의 HTML 코드, 링크 목록 등 원본 데이터 특정 목적에 맞게 추출된 데이터 집합 (텍스트, 이미지 URL 등) 정제되고 구조화된 데이터 (예: 표, 데이터베이스 형식)
관계 스크래핑을 위한 데이터 수집 단계로 볼 수 있으며, 광범위한 정보 수집에 중점을 둔다. 크롤링을 통해 수집된 페이지 또는 직접 접근한 페이지에서 데이터를 추출하는 행위이다. 스크래핑 과정에서 추출한 데이터를 원하는 형식으로 만들기 위해 필수적으로 사용되는 데이터 가공 단계이다.
예시 검색 엔진 봇이 전 세계 웹사이트를 돌아다니며 페이지 정보를 수집 특정 뉴스 사이트에서 오늘 날짜의 기사 제목과 본문을 모두 가져오기 HTML 문서에서 <h1> 태그 안의 텍스트(제목)만 추출하기

 

 

 

댓글