전자 상거래 웹 사이트에서 제품 정보를 수집할 때 검색 결과 페이지뿐만 아니라 각 제품의 상세 페이지에서도 데이터를 수집해야 할 필요가 있습니다. 본 튜토리얼에서는 이러한 니즈를 만족시키기 위한 맞춤형 크롤러 제작 방법에 대해 알려드립니다.
이베이에서 '카메라 렌즈'를 검색해야 한다고 할 때 아래 샘플 URL을 예로 듭시다:
이 경우, 우리는 먼저 목록 페이지에서 카메라 렌즈의 제목을 추출한 후 각 제품의 상세 페이지로 이동하여 상세 정보를 얻고자 합니다. 아래 두 가지 방법이 있습니다.
1. 웹 페이지 자동 인식 기능을 사용하여 워크플로우 생성
Octoparse 8.X의 스마트 디텍션 기능은 그 어느 때보다 강력합니다. 웹 페이지를 자동 탐지하여 시간을 절약할 수 있습니다.
팁에서 웹 페이지 데이터 자동 인식을 클릭하고 완료될 때까지 기다립니다.
자동 인식 결과 집합을 전환하여 원하는 데이터 집합을 찾습니다(이 경우 결과 1).
데이터 미리보기 섹션의 데이터 필드를 확인하고 원하지 않는 필드를 삭제합니다.
예시로 사용하는 제품군과 같은 인기 제품군을 검색할 때 여러 검색 페이지에서 연속 데이터를 추출해야 할 가능성이 있습니다.
확인 버튼을 클릭하여 Octoparse가 다음 페이지 버튼을 제대로 찾았는지 확인합니다.
페이지 스크롤 추가를 선택 취소하고 워크플로우 생성하기를 누릅니다.
Octoparse가 워크플로우에서 초보적 데이터 추출을 위한 아이템 순환을 생성하였습니다. 이제 상세 페이지 데이터 추출을 위한 단계를 계속 구축해야 합니다.
상세 페이지 URL 선택하기를 선택합니다.
클릭할 URL이 있는 필드를 선택하고 확인을 클릭합니다.
Octoparse는 추가 데이터 추출을 위해 상세 페이지로 이동하면 상세 웹 페이지에서 사용자가 가져오길 원하는 정보를 선택할 수 있습니다.
2. 수동으로 워크플로우 생성
일부 웹 사이트에 자동 인식 기능이 실패할 경우 수동으로 워크플로우를 생성할 수도 있습니다. 아래 단계를 참조하십시오.
목록 페이지에서 첫 번째 아이템 선택
두 번째 아이템 계속 선택
텍스트 클릭
아이템 순환 블록이 워크플로우에 추가되었지만 하나의 필드만 구축되었습니다. 이제 다른 필드도 추가해 봅시다.
결과 페이지에서 가져올 정보를 선택합니다.
텍스트를 선택합니다.
필드를 추가하려면 위 단계를 반복합니다.
다음은 상품 이름 URL을 클릭할 수 있는 액션을 구축해야 합니다.
목록 페이지에서 첫 번째 이름 선택합니다.
요소 클릭하기 누릅니다.
상세 페이지로 이동하여 아이템 상세 정보를 추출할 수 있습니다.
추출할 웹 요소를 클릭합니다.
팁 패널에서 텍스트를 클릭합니다.
필드 타이틀을 더블 클릭하여 데이터 미리보기 섹션의 데이터 필드 이름 바꾸기