데이터 자동정렬

[Quick Summary]

  1. 데이터 자동정렬 (Arrange-Cell)
  2. 언제 사용할까?

1. 데이터 자동정렬 (Arrange-Cell)


데이터 자동정렬은 추출된 데이터를 엑셀 파일에 정리할 때 열(column)을 자동으로 분류할지를 결정하는 옵션입니다. 엑셀 다운로드 버튼 옆에 위치합니다.

2. 언제 사용할까요?



데이터 자동정렬 (Arrange-Cell) 체크? 체크해제? 어느 것이 좋을까요? 대부분의 경우 자동정렬을 선택하는 것이 좋습니다. 그러나 가끔은 체크해제하는 것도 도움이 될 때가 있습니다. 바로 추출하는 페이지의 데이터 구조가 너무 너무 복잡할 때 인데요. 이 옵션은 추출하는 목적과 추출 대상 페이지의 형태에 따라 적절하게 사용하셔야 합니다.

레딧(Reddit)의 메인 페이지를 예로 들어 자동정렬을 했을 때와 하지 않았을 때 차이점을 살펴보겠습니다. 레딧은 사용자들의 관심사를 기반으로 만들어진 여러 커뮤니티들의 집합 사이트입니다. 다양한 관심사만큼 메인화면에 보여지는 포스팅의 형태로 매우 다양합니다. 우리는 다음 화면에서 빨간 점 테두리로 표시된 영역을 추출할 겁니다.

여기에 포함된 포스팅 카드들 중 몇 개를 캡쳐해 봤습니다. 카드마다 그 형태와 데이터 구조가 얼마나 다양한지 알 수 있습니다. 이런 정보는 전문 개발자도 정리하기가 쉽지 않습니다. 한 번 정리한다 하더라도 금새 형태가 변하거나 예상하지 못한 데이가 나타나기 일쑤죠.

List/y WHOLE 을 이용해 데이터를 추출해 보겠습니다.

다운로드 정렬 (Arrange-Cell) 을 체크하고 다운로드를 하면, 각각의 데이터는 자동으로 분류된 열(column)에 입력됩니다.

다음 화면처럼 L 번째 열 (column L) 에 포스팅 제목들이 모여 있는 것을 확인할 수 있습니다.

그리고 행렬의 구조를 좀 더 거시적인 관점에서 보면, 데이터 열(column) 을 분류해서 저장하다 보니 곳곳에 비어있는 셀도 확인할 수 있습니다.

반면에 다운로드 정렬 (Arrange-Cell) 을 체크하지 않고 다운로드 하면, 데이터는 열(column)의 왼쪽부터 차곡차곡 쌓이는 형태로 입력됩니다.

다음 화면들처럼, 비어있는 열(cloumn)이 없이 빼곡하게 저장되었고, , 첫 번째 열을 기준으로 포스팅 데이터의 타입이 무엇인지 이전보다 쉽게 구분할 수 있습니다.