리스틀리(Listly)로 중고차 매물 정보 수집하는 방법
중고차 시세는 자동차를 판매하는 딜러뿐만 아니라 자동차를 구매하고자 하는 소비자의 입장에서도 민감한 정보인데요. 판매 시기나 마켓플레이스에 따라 가격 변동폭이 크기도 합니다.
오늘은 웹 데이터 수집을 간편하게 도와줄 리스틀리와 함께 중고차 매물 가격을 수집하는 방법에 대해 알려드릴게요! 그럼 바로 온라인 자동차 마켓플레이스인 카구루스 (CarGurus)로 이동해보실까요?
1. 리스틀리 전체 (Listly Whole) 버튼을 클릭해 데이터 수집하기
우선 리스틀리 전체 (Listly Whole) 버튼을 클릭해 첫 번째 웹 페이지 매물 정보를 수집해주세요.
해당 페이지의 경우, 매물 정보가 여러 웹 페이지에 나누어 게시되어 있어요. 아래와 같이 다음 페이지 (Next page)를 클릭할 때마다 새로운 매물 정보가 나타납니다.
각각의 1, 2, 3… 웹 페이지 주소를 살펴보면, 첫 번째 페이지를 제외하고 #resultsPage=숫자 파라미터 값이 하나씩 커지는 URL 주소 패턴을 확인할 수 있어요. 이렇게 페이지마다 동일한 구조의 데이터가 있고, 이를 반복해서 추출하고자 하신다면 리스틀리의 그룹추출 기능을 활용해 간단하게 전체 데이터를 수집하실 수 있습니다.
https://www.cargurus.com/Cars/l-Used-SUV-Crossover-bg7
https://www.cargurus.com/Cars/l-Used-SUV-Crossover-bg7#resultsPage=2
https://www.cargurus.com/Cars/l-Used-SUV-Crossover-bg7#resultsPage=3
2. 그룹추출 기능을 활용해 흩어진 데이터를 한 번에 추출하기
첫 번째 페이지의 데이터 추출 작업이 완료되면, 아래와 같이 리스틀리의 데이터 추출 결과 페이지로 이동하게 됩니다. 그룹 버튼을 클릭해 그룹추출하고자 하는 웹 페이지 주소를 입력해주세요.
간단하게 5개의 웹 페이지 주소를 복사해 붙여넣어 보겠습니다. 여러 개의 웹 페이지 주소를 URL 추가 영역에 붙여넣은 후, 완료 버튼을 클릭해주세요. 더 많은 페이지 주소를 얻고자 하신다면, 1, 2, 3… 페이지번호 주소 얻기 문서를 참고해주세요!
데이터 추출이 모두 완료되면, 완료 버튼을 클릭해 추출된 데이터를 확인하실 수 있습니다.
3. 추출한 데이터를 엑셀로 다운받기
아래와 같이 데이터가 제대로 추출되었다면, 그룹 엑셀 버튼을 클릭해 모든 데이터를 하나의 엑셀 파일로 다운받아주세요.
데이터를 다운받기 전에 간단히 데이터를 1) 세로로 쌓을지, 2) 가로로 쌓을지 정렬 방식을 선택하실 수 있습니다.
4. 데이터 정제하기
이렇게 다운받은 엑셀 파일을 열어보시면, 여러 페이지에 나누어 보여졌던 자동차 매물 정보를 한 눈에 확인하실 수 있을 거예요. 중간중간 보이는 빈칸은 웹 사이트의 일부 데이터 구조가 일치하지 않아 발생할 수 있습니다. 트리팩타(Trifacta)와 같은 데이터 가공 툴을 이용하면 간단하게 필요한 데이터만 정리할 수 있어요.
간단하게 데이터 정제 작업을 완료한 매물정보입니다. 어떤 웹 사이트에서든 리스틀리로 원하는 데이터를 추출해 필요한 대로 활용할 수 있어요. 보다 자세한 내용이 궁금하시다면, 리스틀리 연계 서비스 트리팩타 튜토리얼 영상을 확인해주세요!