(용어) 크롤링 (Crawling), 스크래핑 (Scraping) , 파싱 (Parsing) 개요 및 차이점 정리
- 웹 데이터 수집 과정에서 크롤링, 스크래핑, 파싱의 용어들이 자주 혼용되어 정리함
1. 크롤링 (Crawling) 개요
1-1. 정의
- 웹 크롤링(Web Crawling)은 '크롤러(crawler)' 또는 '스파이더(spider)'라고 불리는 자동화된 프로그램(봇)을 사용하여 웹 페이지들을 체계적으로 탐색하고 정보를 수집하는 과정임
- 크롤링의 주된 목적은 여러 웹사이트를 방문하여 페이지의 콘텐츠와 구조를 파악하고, 페이지 내의 하이퍼링크를 따라 다른 페이지로 이동하는 작업을 반복하며 방대한 웹의 정보를 수집
- 이렇게 수집된 데이터는 검색 엔진의 인덱스 생성, 데이터 분석, 시장 조사 등 다양한 목적으로 활용됨
2. 스크래핑 (Scraping) 개요
2-1. 정의
- 웹 스크래핑(Web Scraping)은 특정 웹사이트에서 필요한 데이터를 추출하는 기술을 의미
- 크롤링이 웹 전체를 탐색하며 정보를 수집하는 광범위한 행위라면, 스크래핑은 정해진 특정 웹 페이지에서 원하는 데이터를 정확히 집어내어 가져오는, 보다 집중적인 데이터 수집 방법
- 스크래핑은 웹 페이지의 HTML 구조를 분석하여 텍스트, 이미지, 동영상 등 원하는 형식의 데이터를 추출
- 기업에서는 시장 조사를 위한 가격 정보 수집, 경쟁사 분석, 부동산 정보 수집, 브랜드 모니터링 등 다양한 비즈니스 목적으로 스크래핑 기술을 활용
3. 파싱 (Parsing) 개요
3-1. 정의
- 파싱(Parsing)은 구문 분석(Syntax Analysis)이라고도 불리며, 특정 형식으로 이루어진 데이터를 해석하고 분석하여 원하는 구조로 변환하는 과정
- 웹의 맥락에서 파싱은 주로 크롤링이나 스크래핑을 통해 얻은 HTML, XML, JSON과 같은 데이터를 분석하여 의미 있는 정보, 즉 필요한 데이터만을 추출하는 데 사용
- 즉, 파싱은 원시 데이터(raw data)를 가공하여 다루기 쉬운 형태로 만드는 핵심적인 단계임
4. 크롤링, 스크래핑, 파싱 비교표
구분 | 크롤링 (Crawling) | 스크래핑 (Scraping) | 파싱 (Parsing) |
목적 | 웹의 광범위한 페이지를 탐색하고 발견하여 데이터 수집 및 인덱싱 | 특정 웹 페이지에서 필요한 데이터를 정확하게 추출 | 수집된 데이터에서 특정 패턴이나 구조를 분석하여 원하는 형태로 가공 및 변환 |
대상 범위 | 불특정 다수의 웹 페이지 (웹 전체) | 특정 웹 페이지 또는 웹사이트 | 크롤링/스크래핑을 통해 수집된 데이터 (HTML, XML, JSON 등) |
핵심 행위 | 하이퍼링크를 따라 페이지를 자동으로 이동하며 탐색 | 웹 페이지의 구조(HTML)를 분석하여 데이터 추출 | 데이터의 문법적 구조를 해석하고 분석하여 의미 있는 정보로 변환 |
결과물 | 웹 페이지의 HTML 코드, 링크 목록 등 원본 데이터 | 특정 목적에 맞게 추출된 데이터 집합 (텍스트, 이미지 URL 등) | 정제되고 구조화된 데이터 (예: 표, 데이터베이스 형식) |
관계 | 스크래핑을 위한 데이터 수집 단계로 볼 수 있으며, 광범위한 정보 수집에 중점을 둔다. | 크롤링을 통해 수집된 페이지 또는 직접 접근한 페이지에서 데이터를 추출하는 행위이다. | 스크래핑 과정에서 추출한 데이터를 원하는 형식으로 만들기 위해 필수적으로 사용되는 데이터 가공 단계이다. |
예시 | 검색 엔진 봇이 전 세계 웹사이트를 돌아다니며 페이지 정보를 수집 | 특정 뉴스 사이트에서 오늘 날짜의 기사 제목과 본문을 모두 가져오기 | HTML 문서에서 <h1> 태그 안의 텍스트(제목)만 추출하기 |
'솔루션&서비스' 카테고리의 다른 글
(용어) 통계에서 '내검(內檢)'의 뜻 (0) | 2025.09.16 |
---|---|
MDSS(Micro Data Sevice System), MDIS(MicroData Integrated Service) (1) | 2025.09.09 |
[용어] 라이브러리(Library), 프레임워크(Framework), 솔루션(Solution), 플랫폼(Platform) 개념 정의 (0) | 2025.09.04 |
APIM (API Management) 솔루션 개요 및 기능 (3) | 2025.08.21 |
(HW/SW) 클라우드(Cloud) 환경에서 온프레미스(On-Premises)로 돌아가는 이유 (1) | 2025.03.05 |
댓글