부동산 시세 정보, 리스틀리로 빠르게 수집하는 방법
요즘에는 네이버 부동산뿐만 아니라 부동산 매물 정보를 간편하게 확인할 수 있는 플랫폼들이 여러 개 있는데요. 오늘 스트릿이지 (StreetEasy) 웹 사이트에서 빠르게 부동산 시세 정보를 수집하는 방법에 대해 알려드리겠습니다. 부동산 매물이 여러 웹 페이지에 나누어 게시되어 있기 때문에 리스틀리의 그룹추출 (Group Extraction) 기능을 활용하는 튜토리얼입니다. 그럼 시작해볼까요?
1. 스트릿이지 (StreetEasy) 웹 사이트로 이동해 리스틀리 전체 버튼 클릭하기
예제 웹 사이트로 이동해 리스틀리 전체 (Listly Whole) 버튼을 눌러주세요. 첫 페이지에 게시되어 있는 부동산 매물 정보가 모두 수집되어 리스틀리 데이터 추출 결과 페이지에 나타나면, 데이터 추출 성공입니다.
그런데 예제 페이지 하단을 확인해보시면, 앞서 말씀드린 것처럼 부동산 매물이 여러 웹 페이지로 나누어져 있어요.
그렇기 때문에 더 많은 매물 정보를 수집하고 싶다면,
1) 1, 2, 3 … 개별 페이지에 직접 방문해 리스틀리 전체 버튼을 반복해서 누르거나,
2) 개별 페이지 주소를 복사해 그룹추출 기능을 활용해 볼 수 있어요.
첫 번째 방법은 누구나 간편하게 시도해볼 수 있으니, 오늘은 두 번째 방법에 대해 자세히 알려드릴게요!
2. 그룹추출 기능을 활용해 데이터 추출하기
데이터 추출 결과 페이지로 이동해 페이지 상단의 그룹 (Group) 버튼을 클릭해주세요.
페이지 하단에 웹 페이지 주소를 붙여넣을 수 있는 URL 추가 (Add URL) 영역이 보이실 거예요. 이곳에 1, 2, 3 … 웹 페이지 주소를 복사해 붙여넣어주세요.
이번 튜토리얼에서는 간단하게 10개의 웹 페이지 주소를 붙여넣어 주었습니다. 일반적으로 웹 사이트가 1, 2, 3 … 페이지로 나누어져 있을 경우, 아래와 같이 주소의 일부 영역 (page=N)만 변경되는 경우가 많습니다. 웹 페이지 주소를 모두 붙여넣었다면, 저장하기 (Submit) 버튼을 클릭해주세요.
데이터 재추출 작업이 시작되면, 웹 브라우저 새로고침 버튼을 활용해 데이터 추출이 완료되었는지 확인하실 수 있어요. 데이터가 모두 추출되었다면, 성공 (Success) 영역을 클릭해 추출된 데이터를 확인해주세요.
3. 그룹 엑셀 버튼을 클릭해 데이터 다운받기
마지막으로 그룹 엑셀 (Group Excel) 버튼을 클릭해 데이터를 엑셀 파일로 다운받아주세요.
첫 번째 웹 페이지뿐만 아니라 다른 페이지에 게시되어 있던 부동산 매물 정보도 모두 잘 추출되었나요? 하나씩 복사할 필요없이 리스틀리로 매물 지역, 위치, 가격 등 다양한 정보를 간편하게 엑셀로 정리해보세요!
4. 탭 매칭 문제 해결하기
잠깐! 일부 추출되지 않은 데이터가 있다면, 아래 탭 매칭 팁을 확인해주세요.
그룹 추출 기능 활용 시, 아래와 같이 Y (성공), N (실패) 으로 나타나는 탭 매칭이라는 개념을 알아두시면 데이터를 추출하는 데에 도움이 될 거예요. 웹 페이지에서 처음 추출한 데이터와 동일한 데이터 패턴이 없을 경우, 아래와 같이 탭 매칭이 N (실패) 으로 나타나게 됩니다.
리스틀리에서는 데이터 추출 시 발생하는 에러를 바로 확인할 수 있도록 스크린샷 (Screenshot) 기능을 제공하고 있어요. 탭 매칭이 N (실패) 으로 나타난 웹 페이지의 스크린샷 아이콘을 클릭해 보시면, 데이터 추출 실패 원인을 확인해 볼 수 있습니다.
이번 예제에서 탭 매칭이 실패한 이유는 바로 외부에서 해당 웹 사이트에 접근하는 속도가 비정상적으로 빠를 경우, 일시적으로 데이터 수집을 차단하기 때문입니다. 이 경우, 예제 웹 사이트에서 아래와 같은 안내 페이지를 출력하고 있기 때문에 기존 웹 사이트에서 보았던 부동산 매물 정보가 보이지 않아요. 그렇기 때문에 리스틀리에서는 매물 정보가 없다고 판단해 데이터를 수집하지 못하는 경우입니다. 이 경우, 해결 방법은 간단합니다.
아래와 같이 탭 매칭이 실패한 웹 페이지들을 선택한 후 재추출 (Refresh) 버튼을 클릭해주세요.
팝업 창에서 네 (Yes) 를 선택하시면, 간단하게 해당 웹 페이지에 재접속해 데이터를 재추출하실 수 있습니다.