메인 콘텐츠로 건너뛰기

중복 제거

최소 1년 전에 업데이트됨

수집된 데이터 세트에 중복 데이터가 있는 것은 웹 사이트 자체에 중복된 데이터가 있거나 동일한 데이터를 두 번 이상 가져오도록 작업을 설정했을 수 있습니다. 구체적인 상황에 따라 데이터 중복을 처리하는 두 가지 방법이 있습니다.

1. 전체 데이터 라인이 동일한 경우(기본 설정)

실행이 완료되면 Octoparse는 기본적으로 전체 라인이 동일(모든 데이터 필드가 동일)할 때 데이터 라인을 중복으로 처리합니다. 중복을 제거하고 유니크한 라인만 유지할 수 있습니다.

예: 아래의 #1과 #4 행은 각 데이터 필드의 값이 동일하므로 중복됩니다. 중복 제거 후 Octoparse는 추출된 첫 번째 데이터 라인(이 경우 #1 행만 유지하고 #4 행은 폐기)만 유지합니다.

mceclip1.png

2. 선택한 데이터 필드가 동일한 경우

작업 워크플로우를 작성할 때 하나 이상의 데이터 필드에 대해 동일한 값을 공유하는 데이터 라인을 제거할 수 있습니다. 데이터 라인은 선택한 데이터 필드의 값이 동일한 한 중복으로 처리됩니다. 선택되지 않은 다른 데이터 필드는 고려되지 않습니다.

예 1: 데이터 중복 제거를 위해 비교할 "Field2"를 선택하면 "Field2"에 대해 라인 #1, 라인 #2, 라인 #4가 모두 동일한 값을 갖습니다. 이 경우 이러한 데이터 라인은 중복된 것으로 간주합니다. 이 경우 Octoparse는 중복 제거 후 #1 라인인 첫 번째 데이터 라인만 추출하고 #2 및 #4 라인은 제거합니다.

mceclip2.png

예 2: 데이터 중복 제거를 위해 비교할 "Field3""Field4"를 선택하면 라인 #1과 라인 #4는 각각 "Field3""Field4"에 대해 동일한 값을 갖습니다. 이 경우 1번 라인과 4번 라인은 중복으로 간주합니다. Octoparse는 중복 제거 후에 이 경우 1번 라인인 1번 데이터 라인만 추출한 상태로 유지하고 4번 라인은 자동으로 제거합니다.

mceclip3.png

다음 단계에 따라 중복 제거 사항을 설정합니다.

  • 수집해야 할 작업 및 데이터 필드 설정

  • 데이터 미리보기 섹션의 오른쪽 상단 모서리에 있는 아이콘을 클릭합니다.

11.png
  • 중복 제거를 위해 비교할 데이터 필드를 선택합니다. 선택 후 Apply(적용)를 클릭하여 설정을 저장합니다.

10.png

팁:

클라우드 실행의 경우 동일한 중복 제거 설정으로 처리된 데이터만 지속해서 비교 및 중복 제거를 수행합니다.

예를 들어, 첫 번째 중복 제거 설정을 A로 설정하고(예: 비교할 "Field1"을 선택) 클라우드 데이터의 첫 번째 배치(batch)를 얻었다고 가정해 보겠습니다.

그런 다음 작업으로 돌아가 중복 제거 설정을 B로 수정하고(예: 비교할 "Field2" 선택) 두 번째 클라우드 데이터를 가져옵니다. 두 번째 데이터 배치는 첫 번째 데이터 배치와 비교되지 않습니다.

그 후 설정을 다시 A로 변경하면(예: 비교할 "Field1"을 선택) 클라우드 데이터의 세 번째 배치를 가져옵니다. 이 세 번째 데이터 배치는 첫 번째 클라우드 데이터 배치와 비교 및 중복 제거됩니다.


답변이 도움되었나요?