메인 콘텐츠로 건너뛰기

목록과 상세 페이지에서 데이터 가져오기

최소 1년 전에 업데이트됨

전자 상거래 웹 사이트에서 제품 정보를 수집할 때 검색 결과 페이지뿐만 아니라 각 제품의 상세 페이지에서도 데이터를 수집해야 할 필요가 있습니다. 본 튜토리얼에서는 이러한 니즈를 만족시키기 위한 맞춤형 크롤러 제작 방법에 대해 알려드립니다.

이베이에서 '카메라 렌즈'를 검색해야 한다고 할 때 아래 샘플 URL을 예로 듭시다:

list_page_vs_detail_page.jpg

이 경우, 우리는 먼저 목록 페이지에서 카메라 렌즈의 제목을 추출한 후 각 제품의 상세 페이지로 이동하여 상세 정보를 얻고자 합니다. 아래 두 가지 방법이 있습니다.


1. 웹 페이지 자동 인식 기능을 사용하여 워크플로우 생성

Octoparse 8.X의 스마트 디텍션 기능은 그 어느 때보다 강력합니다. 웹 페이지를 자동 탐지하여 시간을 절약할 수 있습니다.

  • 에서 웹 페이지 데이터 자동 인식을 클릭하고 완료될 때까지 기다립니다.

  • 자동 인식 결과 집합을 전환하여 원하는 데이터 집합을 찾습니다(이 경우 결과 1).

switch.jpg
  • 데이터 미리보기 섹션의 데이터 필드를 확인하고 원하지 않는 필드를 삭제합니다.

예시로 사용하는 제품군과 같은 인기 제품군을 검색할 때 여러 검색 페이지에서 연속 데이터를 추출해야 할 가능성이 있습니다.

  • 확인 버튼을 클릭하여 Octoparse가 다음 페이지 버튼을 제대로 찾았는지 확인합니다.

  • 페이지 스크롤 추가를 선택 취소하고 워크플로우 생성하기를 누릅니다.

1.jpg

Octoparse가 워크플로우에서 초보적 데이터 추출을 위한 아이템 순환을 생성하였습니다. 이제 상세 페이지 데이터 추출을 위한 단계를 계속 구축해야 합니다.

  • 상세 페이지 URL 선택하기를 선택합니다.

  • 클릭할 URL이 있는 필드를 선택하고 확인을 클릭합니다.

Octoparse는 추가 데이터 추출을 위해 상세 페이지로 이동하면 상세 웹 페이지에서 사용자가 가져오길 원하는 정보를 선택할 수 있습니다.

  • 추출할 웹 요소를 클릭합니다.

  • 패널에서 텍스트를 클릭합니다.

  • 필드 타이틀을 더블 클릭하여 데이터 미리보기 섹션의 데이터 필드 이름을 바꿀 수 있습니다.


2. 수동으로 워크플로우 생성

일부 웹 사이트에 자동 인식 기능이 실패할 경우 수동으로 워크플로우를 생성할 수도 있습니다. 아래 단계를 참조하십시오.

  • 목록 페이지에서 첫 번째 아이템 선택

  • 두 번째 아이템 계속 선택

  • 텍스트 클릭

아이템 순환 블록이 워크플로우에 추가되었지만 하나의 필드만 구축되었습니다. 이제 다른 필드도 추가해 봅시다.

  • 결과 페이지에서 가져올 정보를 선택합니다.

  • 텍스트를 선택합니다.

  • 필드를 추가하려면 위 단계를 반복합니다.

다음은 상품 이름 URL을 클릭할 수 있는 액션을 구축해야 합니다.

  • 목록 페이지에서 첫 번째 이름 선택합니다.

  • 요소 클릭하기 누릅니다.

상세 페이지로 이동하여 아이템 상세 정보를 추출할 수 있습니다.

  • 추출할 웹 요소를 클릭합니다.

  • 패널에서 텍스트를 클릭합니다.

  • 필드 타이틀을 더블 클릭하여 데이터 미리보기 섹션의 데이터 필드 이름 바꾸기


답변이 도움되었나요?