트위터 트윗 자동 크롤링하기

SNS 채널이나 이커머스 웹 사이트를 돌아다니다 보면, 스크롤을 내릴 때마다 새로운 사진이나 상품 정보가 노출되는 경우가 있습니다. 웹 브라우저에서 많은 데이터를 한 번에 보여줄 수 없는 경우, 일부 정보를 분할해서 전달해주는 방식인데요, 이를 페이지네이션 (pagination)이라고 이야기합니다.

이러한 방식은 새로운 정보를 불러올 때마다 이전 정보가 사라지기 때문에 스크롤링에도 영향을 끼치는데요, 스크롤을 내릴 때마다 사라지는 데이터를 그때그때 저장해서 수집하지 못하는 경우가 발생하기도 합니다.

리스틀리(Listly) 에서는 이러한 상황을 방지하고, 모든 데이터를 자동으로 저장해 수집할 수 있도록 자동 저장 (Auto Save) 기능을 제공하고 있어요. 그럼 트위터 페이지를 통해 이번 웹 스크롤링 사례를 살펴볼까요?

한 눈에 살펴보기

  1. 리스틀리 전체 (LISTLY WHOLE) 혹은 리스틀리 (LISTLY PART) 부분 선택
  2. 데이터보드에서 설정 버튼 클릭
  3. "스크롤 중 원하는 데이터를 자동저장" 버튼 활성화
  4. 재추출 버튼을 클릭해 데이터 추출 완료

트위터 웹 페이지의 특징을 살펴보면, 스크롤을 아래로 내릴 때마다 새로운 정보를 보여주고 있다는 것을 알 수 있습니다. 새로운 정보를 가져올 때마다 이전에 불러온 정보는 사라져 버리죠.

리스틀리를 통해 모든 정보를 크롤링해보겠습니다. 리스틀리 부분 (LISTLY PART) 버튼을 클릭하여 크롤링하고자 하는 컨텐츠 부분을 지정해줍니다.

전체 페이지 중에서 트윗 정보만 클릭하면, 아래와 같이 일부 트윗 정보를 추출할 수 있습니다.

리스틀리 데이터보드 (Databoard) 페이지를 클릭해 설정 (Setting) 버튼을 클릭해보세요.

해당 페이지를 아래로 조금 내려보면, 더 많은 데이터 로딩을 위해 자동스크롤 (AUTO SCROLL TO LOAD MORE DATA) 섹션이 보이는데요, 바로 이 부분을 수정해 자동으로 사라지는 데이터를 저장하고 수집할 수 있습니다.

반복할 횟수 (N Times to repeat)를 설정하고, 스크롤 중 원하는 데이터를 자동저장 (Auto save while scrolling) 버튼을 활성화시켜주세요.

이제, 하나의 트윗도 빠짐없이 모든 데이터를 수집해볼게요. 다시 데이터보드로 돌아가 재추출 (Refresh) 버튼을 눌러주세요. 상태 (Status) 메시지가 "진행중 (Doing)"이라면 데이터가 재추출되고 있다는 의미입니다.

아래 사진처럼 더 많은 트윗 정보가 추출된 것을 확인하실 수 있을 거예요. 이제 자동 스크롤 횟수를 늘려서 원하시는 만큼 데이터를 추출해보세요. 자동 저장 버튼을 활성화시키는 것도 잊지마시고요!

리스틀리는 구글/웨일/크롬 확장 프로그램으로 편하게 설치가 가능하며, 데이터 수집으로 고통받고 있는 모든 직업군의 업무시간을 90% 이상 단축시켜줄 수 있는 프로그램입니다. 1 Page -> 1 Excel 변환은 무제한 무료로 서비스하고 있으니, 편하게 설치하고 필요할때 마다 리스틀리를 사용해보세요!