메인 콘텐츠로 건너뛰기

추출한 데이터에 중복이 너무 많아요.

최소 1년 전에 업데이트됨

Octoparse에서 말하는 중복은 모든 열이 같은 데이터 행을 의미합니다. 데이터를 내보낼 때 중복된 데이터가 몇 줄만 있으면 직접 삭제할 수 있지만 중복이 너무 많으면 업무 효율이 떨어질 수 있습니다. 이 튜토리얼에서는 중복 문제와 관련된 몇 가지 대표적인 착오 및 솔루션을 알려드리겠습니다.

착오 1: 여러 페이지를 스크랩할 때 Octoparse는 이전에 스크랩한 페이지로 다시 이동하거나 마지막 페이지를 계속 스크랩하는 경우

자동으로 생성된 페이지네이션 XPath가 유저의 의도대로 작동하지 않을 수 있습니다. Octoparse가 여러 페이지에서 반복적으로 중복 항을 추출하는 현상을 발견하면 다음과 같은 몇 가지 조정이 필요합니다.

솔루션: 페이지네이션 XPath를 수정하여 다음 페이지 버튼을 정확하게 찾도록 합니다.

  • 페이지 넘기기를 클릭합니다.

  • 새 XPath를 입력하고 적용을 클릭하여 저장합니다.

31.png


착오 2: 여러 페이지를 스크랩할 때 페이지 넘기기 AJAX 타임아웃이 너무 짧아 다음 페이지를 로드할 수 없어 현재 페이지 데이터만 계속 스크랩하는 경우

AJAX로 로딩하는 페이지의 경우 타임아웃이 충분히 길게 설정되지 않으면 다음 페이지를 로드할 수 없어서 Octoparse는 현재 페이지 데이터만 계속 스크랩하기에 일부 중복이 발생합니다.

솔루션: 페이지가 충분히 로딩될 수 있을 만큼 AJAX 타임아웃을 길게 설정합니다.

  • 클릭해서 페이지 넘기기 클릭합니다.

  • AJAX 타임아웃을 더 길게 조절합니다.

22.png

착오 3: 리스트를 스크랩할 때 첫 번째 행의 데이터만 반복적으로 스크랩하거나 하나의 데이터 필드가 모든 행에서 동일한 값을 가져올 때

Octoparse는 데이터를 가져오기 위해 항목 목록을 반복할 때 한 항목에서 계속 스크랩할 수 있습니다. 또는 각 항목에서 다른 필드가 올바르게 수집되지만 개별 필드 데이터만 고정된 값으로 나타날 수 있습니다.

이런 현상은 데이터 추출 작업이 루프 항목 작업과 연결되어 있지 않기 때문입니다. 데이터 추출 및 루프 항목을 연결하려면 다음 두 가지 옵션을 선택해야 합니다.

  • 데이터 추출 설정에서 루프에서 데이터 추출하기

23.png
  • 데이터 필드 설정에서 상대 XPath

33.png

데이터 추출 및 루프 항목과 선택한 두 가지 옵션과 연결되면 Octoparse가 루프의 각 항목에서 데이터를 추출할 수 있습니다.

솔루션 1: 필드 다시 만들기

  • 루프에서 데이터 추출 옵션을 선택한 후 워크플로우에서 루프 항목을 클릭한 다음 데이터 추출을 클릭합니다.

  • 첫 번째 항목이 강조 표시되며 강조 표시된 영역에서 요소를 선택하여 텍스트를 추출할 수 있습니다.

re-create_fields.gif

솔루션 2: 필드의 XPath를 직접 수정하기

  • 데이터 추출을 클릭합니다.

  • ... 더보기를 클릭하고 XPath 사용자 지정을 선택합니다.

  • 상대 Xpath를 선택하고 올바른 XPath를 입력합니다.

방법 1: 데이터 추출을 클릭한 다음 Xpath 사용자 지정

11.png

방법 2: 데이터 추출을 클릭하고 세로 보기로 전환한 후 각 필드를 더블 클릭하여 Xpath를 편집할 수 있으므로 이 방법은 여러 Xpath를 수정해야 하는 경우 더 편리합니다.

114.png


답변이 도움되었나요?