상품 더보기 버튼이 있는 페이지의 모든 정보 크롤링하는 방법
온라인 쇼핑몰을 살펴보다 보면 더 보기 버튼을 쉽게 찾아볼 수 있습니다. 이 경우, 해당 버튼을 눌러야만 더 많은 상품 정보를 확인할 수 있는데요. 웹 데이터를 추출할 때에도 동일하게 더 보기 버튼을 눌러야만 웹 사이트에 있는 모든 데이터를 가져올 수 있어요. 반복적으로 더 보기 버튼을 누른다면 꽤나 귀찮은 작업이 되겠죠? 상품 정보를 수집하는 데에 시간도 많이 소요될 거예요. 하지만 리스틀리 자동 클릭 기능을 이용하면 한 번에 해결할 수 있습니다! 오늘은 에이치앤엠 (H&M) 웹 사이트를 통해 반복적으로 클릭해야만 데이터를 추출할 수 있는 웹 데이터 추출 사례를 살펴볼게요.
한 눈에 살펴보기
- 더 보기 버튼 또는 반복적인 버튼 클릭이 필요한 웹 사이트 방문
- 리스틀리 전체 (LISTLY WHOLE) 또는 리스틀리 부분 (LISTLY PART) 버튼 클릭
- 더 보기 버튼의 CSS 선택자 (CSS Selector) 값 복사하기
- 데이터보드에서 설정 버튼 클릭하기
- 더 많은 데이터 로딩을 위해 자동클릭 영역에 CSS 선택자 값 붙여넣기
- 데이터 추출 완료
H&M 웹 사이트는 한 번에 36개의 상품 정보를 보여주고 있습니다. 수많은 상품 정보를 한 번에 보여주는 것이 아니라, [더 보기 버튼] 을 클릭해야만 추가로 상품 정보를 보여주는 방식입니다.
그럼 반복적으로 더 보기 버튼을 클릭하지 않고, 한 번에 모든 상품 정보를 추출할 수 있는 방법은 무엇일까요? 우선, 리스틀리 전체 (LISTLY WHOLE) 또는 리스틀리 부분 (LISTLY PART) 버튼을 클릭해주세요. 리스틀리 버튼을 클릭하면 총 36개의 상품 정보가 추출된 것을 확인하실 수 있을 거예요.
다시 웹 사이트로 돌아가서 더 보기 버튼 (LOAD MORE PRODUCTS) 위에 마우스 커서를 올려놓은 후, 우 클릭하여 검사 (Inspect) 영역을 선택해보세요.
마우스 커서를 움직일 때마다 선택되는 영역이 파란색으로 하이라이트될 거예요. 이제, 오른쪽 개발자 도구에서 해당 영역에 마우스 커서를 올려 다시 우클릭하면 복사하기 (Copy) > 선택자 복사하기 (Copy selector) 버튼을 선택해주세요.
마지막으로, 리스틀리 데이터보드로 돌아가 데이터를 추출하려고 했던 웹 사이트 주소 옆에 있는 설정 (Setting) 버튼을 클릭해주세요.
페이지 하단에 아래와 같이 더 많은 데이터 로딩을 위해 자동클릭 (AUTO CLICK TO LOAD MORE DATA) 영역이 보이실 거예요. 이곳에 복사했던 CSS 선택자 값을 붙여 넣어주세요. 자동 클릭 반복 횟수나 잠시 대기 시간은 원하시는 만큼 설정하시면 됩니다.
이번 튜토리얼에서는 반복할 횟수는 23번, 잠시 대기 시간은 5초로 설정해주었습니다.
● 반복할 횟수 (Repeat N Times) : 자동 클릭을 반복할 횟수
● 잠시 대기 (Wait after clicking) : 리스틀리 웹 스크래핑 서비스가 한 번의 더 보기 버튼 클릭 후, 다음 더 보기 버튼을 클릭하기까지 걸리는 시간
이제 데이터보드에서 재추출 (Refresh) 버튼을 누르면, 자동으로 해당 웹 사이트에서 더 보기 버튼이 클릭되면서 모든 상품 정보를 한 번에 수집할 수 있습니다.
데이터 추출이 완료되면 아래와 같이 더 많은 상품 정보가 추출된 것을 확인하실 수 있을 거예요.
이제, 엑셀 (EXCEL) 버튼을 클릭하면 모든 데이터를 하나의 엑셀 시트로 저장할 수도 있습니다!
리스틀리는 크롬/웨일/엣지 확장 프로그램으로 누구나 쉽게 설치가 가능하며, 1 Page -> 1 Excel 변환은 무제한으로 서비스하고 있습니다. 데이터 수집의 시간을 90% 로 줄여보세요!