메인 콘텐츠로 건너뛰기

레슨 2: 작업 최적화

최소 1년 전에 업데이트됨

데이터 자동 인식은 멋진 기술이지만 세상에는 완벽한 알고리즘은 없습니다. 드문 경우지만 필요한 데이터가 정확하게 인식되지 않는 경우가 종종 발생합니다. 본 레슨에서는 사용자의 스크랩 작업을 최적화하기 위해 적용할 수 있는 몇 가지 간단한 수정 팁에 대해 안내해 드리겠습니다.


1. 타깃 데이터 필드가 인식되지 않은 경우

Octoparse가 웹 페이지에서 데이터를 감지할 때 머신 러닝 알고리즘을 사용하여 전체 페이지에서 하나 또는 여러 개의 데이터 집합을 가져옵니다. 첫 번째 시도에서 대상 데이터가 인식되지 않으면 자동 인식 결과 바꾸기를 클릭하여 두 번째 후보 데이터 집합으로 전환할 수 있습니다. 괄호 안의 숫자는 Octoparse가 3개의 데이터 집합 후보를 감지했으며 사용자는 지금 첫 번째 데이터 후보 집합을 보고 있다는 것을 의미합니다.

switch.png

2. 페이지 넘기기 버튼이 잘못 인식된 경우

자동 인식 기능으로 찾은 페이지 넘기기 버튼이 틀리면 편집을 클릭한 다음 팁 패널의 안내에 따라 클릭해야 할 다음 페이지 버튼을 다시 선택하면 쉽게 수정할 수 있습니다.

5555555555555555555.gif

참고: "다음" 버튼 또는 "더 보기" 버튼이 감지되지 않을 때 수동으로 프로세스를 추가하려면 다음 튜토리얼을 참고하십시오.

  • 페이지 넘기기("다음" 버튼 클릭)

  • 페이지 넘기기(무한 스크롤)

  • 페이지 넘기기("다음" 버튼이 없을 때)

  • 페이지 넘기기("더 보기" 버튼 사용)


3. 더 많은 데이터를 로드하기 위해 페이지를 더 많이 스크롤 해야 하는 경우

무한 스크롤이 가능한 웹 페이지더라도 Octoparse는 웹 페이지를 스크롤 할 횟수를 정할 수 있도록 지원합니다. 웹페이지로부터 데이터를 추출하기 전에 더 많이 스크롤 해야 하는 경우 편집을 클릭하여 스크롤 횟수를 쉽게 조정할 수 있습니다.

이번 사례일 경우 Repeats는 Octoparse가 본 페이지에서 스크롤 해야 하는 횟수를 의미하고 Wait는 각 스크롤 액션 사이의 대기 시간을 의미합니다.

nnnnnn.gif

4. 상세 정보를 얻기 위해 페이지 링크를 클릭해야 하는 경우

많은 경우 제품 링크를 클릭해야 제품 설명과 같은 더욱 구체적인 정보를 제공하는 제품 상세 페이지로 이동할 수 있습니다. Octoparse는 팁 패널에서 쉽게 선택할 수 있습니다.

워크플로우 생성하기를 클릭한 후 상세 페이지 URL 가기를 클릭하고 URL이 있는 데이터 필드를 선택합니다.

또는 웹페이지에서 고정요소 선택하기를 클릭하고 웹페이지에서 직접 링크를 클릭할 수도 있습니다.


5. 워크플로우에서 수동 작업하기

Octoparse는 사용자가 검색 작업을 할 때 웹 페이지를 열고 페이지 요소/버튼을 클릭하는 등 액션을 시뮬레이션하여 데이터를 자동으로 추출합니다. 전체 작업 프로세스는 스크래핑 작업 흐름의 각 단계가 포함된 워크플로우로 자동 생성됩니다.

Octoparse는 자동 인식 기능을 통해 워크플로우를 간편하게 자동 생성할 수 있지만 작업의 필요성에 따라 워크플로우를 처음부터 수동으로 제작하거나 자동 생성된 워크플로우를 편집하여 원하는 작업물을 제작할 수 있습니다.

워크플로우에 추가할 수 있는 다양한 유형의 작업이 있습니다. 각 단계 작업은 당신의 스크랩 작업을 완벽하게 만들기 위해 다양한 옵션을 설정할 수 있도록 지원합니다.

  • 워크플로우의 작업 단계 블록을 원하는 위치로 드래그하면 작업 순서가 재정렬됩니다.

4443424342.gif
  • 특정 작업 단계의 옵션 설정을 확인하고 수정하려면 해당 단계를 클릭합니다.

____.gif
  • 워크플로우에 단계를 추가하려면 단계를 삽입할 위치에 마우스를 멈춥니다.+ 기호가 나타날 때까지 기다렸다가 + 기호를 클릭하고 추가할 작업 단계를 선택합니다.

____.gif
  • 워크플로우의 각 단계에서 마우스 오른쪽 버튼으로 클릭하면 이름 고치기, 복사 또는 삭제 조작이 가능합니다.

2021-09-08_18-16-00.png

답변이 도움되었나요?