리스틀리로 스포츠경기 데이터 수집하기 (feat. NBA)

혹시 스포츠 경기 데이터를 수집하고 계신가요?

웹 사이트에서 선수별 혹은 일정별로 스포츠 경기 점수를 하나씩 복사, 붙여넣기 해야 한다면 경기 데이터 수집 비용이 만만치 않을 거예요. 오늘은 리스틀리를 이용해 NBA 경기 데이터를 한 번에 수집하는 방법에 대해 알려드릴게요. 스포츠 데이터를 분석하거나, 연구를 위한 데이터셋이 필요한 경우, 리스틀리를 이용해 편리하게 웹 데이터를 수집해보세요!

기본 추출

NBA Stats 웹 사이트 접속 후, 리스틀리 확장프로그램 아이콘을 클릭해 데이터를 추출해주세요. 리스틀리 전체 버튼 클릭 시, 웹 사이트에 보이는 모든 데이터를 수집할 수 있습니다. 리스틀리 무료 버전을 사용해도 무제한으로 1 웹 페이지 1 엑셀 변환이 가능하지만, 비즈니스 버전을 구독하시면 조금 더 간편하게, 더 많은 데이터를 한 번에 추출하실 수 있어요.

폴더그룹추출

웹 사이트에서 한 화면에 데이터를 전부 보여줄 수 없는 경우, 1, 2, 3... 페이지처럼 여러 개의 웹 페이지에 정보를 나누어 보여주고 있어요. 만약 여러 웹 페이지에 나누어 저장된 데이터를 모두 수집하고자 하신다면, 폴더그룹추출 기능이 필요합니다.

일반적으로 각각의 1, 2, 3... 웹 페이지가 서로 다른 주소를 가지고 있어 개별적으로 접근이 가능한 웹 사이트가 있기도 하지만, NBA Stats 웹 사이트처럼 개별 페이지의 주소가 모두 동일한 경우도 있어요. 이 경우, 개별 웹 페이지에서 데이터를 추출한 후, 하나의 그룹으로 데이터를 묶어 한 번에 다운받을 수 있어요. 리스틀리에서는 이와 같은 과정을 폴더그룹추출이라고 합니다.

그럼 바로 폴더그룹추출을 시작해볼까요? 데이터를 수집하고자 하는 웹 페이지에서 리스틀리 전체 버튼을 클릭해 기본 추출 작업을 시작해주세요. 데이터 추출이 모두 완료되면 데이터보드로 이동해주세요. 그리고 아래 이미지처럼 엑셀에 함께 다운받고 싶은 웹 페이지들의 체크박스를 선택해주세요.

폴더 목록 (FOLDERS) 아이콘 클릭 후, 추가 (ADD) 버튼을 눌러 폴더 이름을 생성해주세요.

닫기 (CLOSE) 버튼을 클릭해 창을 닫아주세요. 그리고 이동 (MOVE) 버튼 클릭 후, 방금 생성한 폴더 이름을 선택하시면 각각의 웹 페이지 링크 상단에 폴더 이모티콘이 생성될 거예요. 데이터 추출을 완료한 웹 페이지 중 가장 상단에 있는 데이터의 최신(LATEST) 버튼을 클릭해 데이터 추출 페이지로 이동해주세요.

리스틀리의 결과 페이지에서 현재 URL (CURRENT URL) 대신에 폴더 그룹 (FOLDER GROUP)을 선택해주세요.

새로 생성한 폴더 이름을 클릭하시면, 자동으로 함께 추출하고자 했던 웹 페이지들이 나타납니다.

이제, 엑셀 (EXCEL) 버튼을 클릭해 데이터를 다운로드해주세요. 해당 버튼 클릭 시, 행 또는 열 방향으로 데이터를 정렬할 수도 있습니다.

다운받은 파일을 한번 열어보시면, 아래 이미지처럼 모든 데이터가 잘 정리되어 있을 거예요. 기본 추출은 클릭 한 번으로 몇 초만에 웹 데이터 수집이 가능하니, 지금 바로 웹 스크래핑 툴 리스틀리를 사용해보세요!