메인 콘텐츠로 건너뛰기

레슨 2: 작업 최적화

이번 주에 업데이트함

데이터 자동 인식 기능은 편리하지만 모든 알고리즘이 완벽할 수가 없습니다. 필요한 데이터가 정확하게 인식되지 않는 경우도 종종 발생합니다. 본 레슨에서는 사용자의 스크래핑 작업을 최적화하기 위해 적용할 수 있는 간단한 해결 방법들을 살펴보겠습니다.


1. 타깃 데이터 필드가 인식되지 않은 경우

Octoparse가 웹 페이지에서 데이터를 감지할 때 페이지 전체를 스캔하여 머신러닝 알고리즘을 통해 하나 또는 여러 개의 데이터 집합을 가져옵니다.

첫 시도에서 원하는 데이터가 인식되지 않을 경우 자동 인식 결과 바꾸기를 클릭하여 두 번째 후보 데이터 집합으로 전환할 수 있습니다. 아래 표시된 부분에서 나타난 숫자 1/3은 Octoparse가 3개의 데이터 집합 후보를 감지했으며 사용자는 지금 첫 번째 데이터 후보 집합을 보고 있다는 것을 의미합니다.

switch.png


2. 페이지 넘기기 버튼이 잘못 인식된 경우

자동 인식 기능으로 찾은 페이지 넘기기 버튼이 틀리면 편집을 클릭한 다음 팁 패널의 안내에 따라 페이지에 있는 정확한 다음 페이지 버튼을 다시 선택하면 쉽게 수정할 수 있습니다.

참고: "다음" 버튼 또는 "더 보기" 버튼이 감지되지 않을 때 수동으로 프로세스를 추가하려면 다음 튜토리얼을 참고하세요.


3. 더 많은 데이터를 로드하기 위해 페이지를 더 아래로 스크롤 해야 하는 경우

무한 스크롤이 가능한 웹 페이지더라도 Octoparse는 웹 페이지를 스크롤 할 횟수를 정할 수 있도록 지원합니다. 웹페이지로부터 데이터를 추출하기 전에 더 많이 스크롤 해야 하는 경우 편집을 클릭하여 스크롤 횟수를 쉽게 조정할 수 있습니다.

하기 사례일 경우 Repeats는 Octoparse가 본 페이지에서 스크롤 해야 하는 횟수를 의미하고 Wait는 각 스크롤 액션 사이의 대기 시간을 의미합니다.


4. 상세 정보를 얻기 위해 페이지 링크를 클릭해야 하는 경우

많은 경우 제품 링크를 클릭하여 제품 상세 페이지로 이동해야 제품 설명과 같은 더욱 구체적인 정보를 확인할 수 있습니다. Octoparse는 팁 패널 안내에 따라 선택하여 쉽게 접근할 수 있습니다.

워크플로우 생성하기를 클릭한 후 상세 페이지 URL 가기를 클릭하고 URL이 있는 데이터 필드를 선택합니다.

또는 웹페이지에서 고정요소 선택하기를 클릭하고 웹페이지에서 직접 링크를 클릭할 수도 있습니다.


5. 워크플로우에서 수동 작업하기

Octoparse는 사용자가 실제 검색 작업을 할 때 웹 페이지를 열고 페이지 요소/버튼을 클릭하는 등 액션을 시뮬레이션하여 데이터를 자동으로 추출합니다. 전체 추출 과정은 워크플로우라는 구조 안에서 자동으로 생성됩니다. 이 워크플로우는 여러 단계와 동작으로 이루어져 있으며 각 단계/동작은 스크래핑 작업에서 수행해야 할 구체적인 지시 사항 하나하나를 의미합니다.

Octoparse는 자동 인식을 통해 워크플로우를 자동 생성하여 사용이 편리하도록 돕지만 필요에 따라 워크플로우를 처음부터 직접 만들거나 자동 생성된 워크플로우를 수정하여 원하는 작업을 수행하도록 할 수도 있습니다.

워크플로우에는 추가할 수 있는 다양한 종류의 동작이 있으며 각 단계/동작에는 여러 가지 설정이 있어 스크래핑 작업을 세부적으로 조정할 수 있습니다.

  • 워크플로우의 작업 단계 블록을 원하는 위치로 드래그하면 작업 순서가 재정렬됩니다.

4443424342.gif
  • 특정 작업 단계의 옵션 설정을 확인하고 수정하려면 해당 단계를 클릭합니다.

____.gif
  • 워크플로우에 단계를 추가하려면 단계를 삽입할 위치에 마우스를 멈춥니다.+ 기호가 나타날 때까지 기다렸다가 + 기호를 클릭하고 추가할 작업 단계를 선택합니다.

____.gif
  • 워크플로우의 각 단계에서 마우스 오른쪽 버튼으로 클릭하면 이름 변경, 복사 또는 삭제이 가능합니다.

2021-09-08_18-16-00.png

답변이 도움되었나요?