목록 페이지주소, url 추출이 안 됩니다

그룹 추출을 위해서는 목록 페이지의 URL 주소가 필요합니다. 그러나 가끔씩, 리스틀리로 목록 페이지를 추출해도 URL 주소가 얻어지지 않는 경우가 발생할 수 있습니다. 이는 해당 웹사이트의 개발팀이 의도적으로 URL 주소 추출을 불가능하도록 숨겨두었기 때문입니다. 그러나 걱정하실 필요는 없어요!

최근에 출시된 리스틀리의 새로운 기능인 "parts"를 활용하여 문제를 해결할 수 있기 때문입니다. 이 방법은 일반적인 추출 방법과는 조금 다를 수 있지만, 차근차근 따라하시면 쉽게 익힐 수 있습니다.

자, 우선 상세 페이지 하나씩을 열어서 확인해보시길 권해드리는데요.

예제로는 해당 웹사이트를 선택했습니다.

그리고 상세페이지 몇 개를 예시로 들어가보았습니다. 하나하나 확인해보니, 아래와 같은 주소를 나타냈습니다.

https://www.lotteon.com/p/product/LE1215109945?sitmNo=LE1215109945_1287396581&mall_no=2&dp_infw_cd=SCH%EB%82%98%EC%9D%B4%ED%82%A4&areaCode=SCH
https://www.lotteon.com/p/product/PD25694539?mall_no=2&dp_infw_cd=CASLE24010505&areaCode=CAS
https://www.lotteon.com/p/product/LE1208902210?sitmNo=LE1208902210_1248173360&mall_no=2&dp_infw_cd=CASLE24010505&areaCode=CAS


이 주소들을 자세히 살펴보면, p/product/ 뒤의 값이 약간씩 다르게 변하는 것을 알 수 있습니다. 이를 정확히 확인하기 위해 LISTLY PARTS를 활용해보겠습니다.

여기서 parts 요소 중 임의의 한 요소, 아무거나를 선택해주세요.

저는 타이틀 위주로 선택했습니다. (나이키 에어맥스 sc cw4555.. 의 블록)

그러면 위의 이미지처럼, 자동으로 유사한 블록끼리 매칭됩니다. 그 후에 우측에 표시된 리스틀리 아이콘을 확인하면 HTML Attribute 옵션이 표시될텐데요.

이 드롭다운을 클릭하여 HTML Attribute 으로 변경한 다음, 바로 아래 나타나는 빈칸에 'id' 라고 값을 입력해주세요.

이제부터는 리스틀리 알고리즘이 자동으로 id 값을 찾아줄 것입니다. "Run Listly" 버튼을 클릭합니다.

그런 다음 데이터 보드를 확인하면, 위와 같은 데이터 값이 나타날 것입니다. 이 숫자들은 일렬로 나열되어 있지만, 자세히 살펴보면 공통된 규칙이 있다는 것을 알 수 있습니다. 이 데이터가 바로 프로덕트 고유의 값, 즉 URL 주소를 나타내는 힌트입니다.

즉, 이 값들이 바로 웹사이트에 숨겨져 있던 제품 ID 값으로 그룹 추출을 위한 URL주소 들인 거죠.

제품 ID 값은 "product-head-LE1215109945"와 같은 형태일 것인데, 여기서 "product-head-"를 제거하고 뒤의 값만 사용하면 됩니다.

따라서 이 값을 가져와서 "https://www.lotteon.com/p/product/" 뒤에 붙이면 다음과 같은 형식이 됩니다: "https://www.lotteon.com/p/product/LE1215109945".

이렇게 얻은 제품값을 사용하여 목록 페이지의 URL 링크를 생성한 다음, 그룹 추출 (상세페이지 추출)을 진행하시면 됩니다.