데이터 크롤링 비용, 얼마나 필요할까요?

웹 크롤링 비용은 얼마나 들까요?

데이터 마이닝이나 웹 크롤링 비용은 웹 사이트 구조나 수집하고자 하는 데이터 양 등 다양한 요소에 따라 결정됩니다. 그렇기 때문에 프로젝트에 대해 자세히 살펴보고, 견적을 내어보지 않는 이상 정확한 금액을 알기 어렵습니다. 홈페이지마다 웹 구조가 다르고, 데이터 추출을 방해하는 요소들이 다르기 때문에 여러가지 요소들을 고려해 웹 크롤링 비용을 산정해야 하는 것이죠. 이런 이유로 많은 기업에서 웹 크롤링 서비스를 사용해 볼지 고민은 하지만, 비용적인 측면에서 망설이게 됩니다. 간단한 웹 크롤러의 경우 대략 30만 원 정도의 비용이 들고, 조금 더 복잡한 웹 사이트 구조를 파싱해 데이터를 추출하는 웹 크롤링 툴은 데이터 추출 난이도에 따라 수 백만 원 이상의 비용이 들기도 합니다. 웹 크롤링 작업은 외부 서비스를 이용하거나 자체 개발할 수도 있지만, 필요에 따라 업무 방식을 달리 결정할 수 있어요. 리스틀리에서 서로 다른 크롤링 방식의 장단점과 대략적인 비용을 알아보세요!

1. 웹 크롤링 서비스 사용하기

우선 리스틀리처럼 누구든 무료로 간편하게 데이터를 추출 해볼 수 있는 웹 크롤링 서비스를 활용해보실 수 있어요. 현재 리스틀리는 회원가입 없이도 무제한으로 1 페이지 → 1 엑셀 파일 변환할 수 있는 무료 서비스를 제공하고 있습니다. 리스틀리는 가격 정찰제로 운영되어 부담없이 이용할 수 있고, 유료 버전인 비즈니스 플랜 사용 시 매월 9만 원으로 9,000개의 웹 페이지에서 데이터 추출이 가능합니다. 여러 페이지에서 추출한 데이터를 하나의 엑셀 파일로 다운받을 수 있는 그룹/폴더 추출, 특정 시간대에 주기적으로 데이터를 추출할 수 있는 스케줄러 기능 등 유료 기능을 활용해 조금 더 편리하게 웹 데이터를 추출할 수 있습니다.

유사한 웹 크롤링 서비스라고 하더라도 고객이 요구하는 웹 스크래핑 프로젝트의 성격에 따라 웹 크롤링 비용을 측정해 서비스를 제공하는 회사들도 있습니다. 이러한 회사들은 커스텀 서비스를 제공하지만, 아웃소싱하는 것과 유사하기 때문에 세부적으로 프로젝트에 대한 논의를 하지 않는 이상 정확한 금액을 알기는 어렵습니다.

UiPath, Blue Prism과 같은 업무 자동화 (Robotic Process Automation) 툴을 이용하실 수도 있습니다. 무료 버전으로 데이터 추출 작업을 진행해볼 수 있지만, 고급 기능을 활용할 수 있는 유료 버전의 가격이 높고 웹 크롤링 초보자가 사용하기 복잡하다는 단점이 있습니다. 특히, 웹 크롤링에 대한 가격 정책을 공개하고 있지 않기 때문에 프로젝트별로 비용이 다르며, 프로그램 개발, 프로그램 초기 설치 비용, 인력비 등을 고려하면 비용이 적지 않을 수 있습니다.

2. 아웃소싱하기

크몽, 이지태스크 등 웹 크롤링 전문 팀에 문의해 데이터를 수집할 수도 있습니다. 아웃소싱 비용이 어느 정도 드는지 예측해보기 위해 앞서 소개해드린 웹 크롤링 프로그램을 이용해 실시간으로 데이터를 추출해 보겠습니다. 업워크(Upwork), 파이버(Fiverr)와 같은 글로벌 프리랜서 플랫폼 중 한 곳에서 웹 크롤링을 키워드로 크롤링 비용 데이터를 추출해 보았습니다. 리스틀리를 이용하면, 추출한 데이터를 엑셀로 바로 다운받을 수 있기 때문에 엑셀 AVERAGE (평균) 함수를 이용해 급여 평균을 쉽게 측정해볼 수 있어요. 추출한 300여 개의 웹 크롤링 서비스 시급의 평균을 내보니, 3만 원 (28.58 달러) 정도 드는 것으로 확인해볼 수 있었습니다.

국내 프리랜서 매칭 플랫폼에서는 아웃소싱 비용 평균을 계산해보니, 웹 크롤링 작업별로 175,721원 정도의 비용이 발생하는 것을 확인할 수 있었습니다. 플랫폼에 등록된 대부분의 서비스에서 고객이 원하는 데이터를 엑셀 파일로 변환해 추출한 데이터만 전달하기도 하고, 기존 시스템에 API로 연동할 수 있게 데이터 통합 작업을 지원해주거나 별도의 API 시스템을 구축해주기도 합니다. 그렇지만 웹 크롤링 이외에 추가로 서비스를 지원받을 때마다 별도의 비용이 발생할 수 있습니다. 일반적으로 개발 기간과 비용은 고객이 추출하고자 하는 웹 사이트의 형태, 데이터 추출 난이도 등에 따라 협의 후 결정됩니다. 로그인이 필요한 웹 사이트에서 데이터를 추출할 경우, 추가 비용이 있을 수 있습니다.

3. 직접 개발하기

마지막으로 데이터 전문 기획자 또는 개발자와 함께 직접 웹 크롤링 프로그램을 개발할 수도 있습니다. 회사에 개발자가 있어 내부적으로 크롤링 프로그램을 제작할 수 있는 경우, 프로젝트에 대한 이해도를 높일 수 있고 아웃소싱하는 것보다 커뮤니케이션 비용을 줄일 수 있다는 장점이 있어요. 하지만, 초기 개발 비용과 시간이 많이 들 수 있습니다.

뿐만 아니라 웹 사이트마다 구조가 다르기 때문에 모든 웹 사이트의 데이터를 완벽하게 모두 추출할 수 있는 웹 크롤러는 없습니다. 초기에 추출하고자 하는 웹 사이트에 초점을 맞추어 개발된 웹 크롤러라고 하더라도, 해당 웹 사이트의 디자인 요소나 웹 구조가 변경될 때마다 발생하는 버그나 오류를 매번 수정해야 한다는 단점이 있습니다.