메인 콘텐츠로 건너뛰기

레슨 4:작업 테스트

최소 1년 전에 업데이트됨

여러분의 첫 번째 스크래핑 작업이 마무리된다는 것이 신나지 않나요? 작업을 실행해 보기 전에 해야 할 일이 한 가지 더 있습니다. 워크플로우를 단계별로 테스트하여 작업이 계획대로 진행하는지 확인하는 것입니다. 테스트를 통하여 어느 단계의 작업 설정을 조정해야 데이터가 제대로 수집되는지 확인할 수 있습니다.

본 레슨을 시연하기 위해 테스트 사이트(http://test-sites.octoparse.com/?product_cat=e-commerce-category-1)를 계속해서 예시로 들어보겠습니다.

워크플로우 단계별 테스트

워크플로우에 대해 검사할 때 항상 위에서 아래로, 안쪽에서 바깥쪽으로 살펴봐야 합니다.

예를 들어, 아래와 같은 순서로 워크플로우 단계를 테스트해야 합니다.

  1. 웹 페이지로 이동 웹 페이지가 제대로 로딩되는지 검사합니다.

  2. 페이지 넘기기 →다음 페이지 버튼이 제대로 매칭됐는지 검사합니다.

  3. 클릭하여 다음 페이지 넘어가기→다음 페이지로 넘어갈 수 있는지 검사합니다.

  4. 아이템 순환 아이템 리스트가 맞는지 빠진 아이템이 없는지 확인합니다.

  5. 데이터 추출 데이터가 제대로 선택되고 추출되었는지 확인합니다.

2__1_.png

모든 데이터 추출 작업이 상기 예제와 같은 워크플로우로 추출되는 것이 아니기에 사용자가 테스트할 작업은 순서가 완전히 다를 수도 있지만 핵심 테스트 방법은 모든 종류의 작업에 적용됩니다. 그럼, 이제 시작해 볼까요!


1. "웹 페이지로 이동"을 클릭합니다.

이 단계를 클릭하면 내장 브라우저에서 웹 페이지가 로드됩니다. 웹 페이지가 잘 로드되면 걱정할 것이 없지만 그렇지 않다면 주의해야 할 몇 가지 사항이 있습니다.

1.1 무한 스크롤 다운으로 로딩되는 웹 페이지일 경우 → "로딩 후 페이지를 스크롤 다운"을 선택하고 적절한 옵션을 설정해야 합니다.

63.gif

1.2 로딩 시간이 일반 웹페이지보다 더 오래 걸리는 경우 → 페이지 타임아웃을 늘리면 됩니다. "일반" → "타임아웃"을 클릭하여 적절한 대기 시간을 선택합니다.

6636.png

2. 페이지 넘기기 블록을 클릭합니다.

페이지가 연속적으로 넘겨지는지 확인하기 위해서는 다음 두 가지 사항을 확인해야 합니다.

  • 다음 페이지 버튼/화살표가 제대로 매치되는지.

  • 모든 페이지에서 다음 페이지로 건너가는 과정이 잘 작동하는지, 예를 들면: 1페이지에서 2페이지, 2페이지에서 3페이지, 3페이지에서 4페이지까지 제대로 바통터치 되는지 확인해야 합니다.

페이지 넘기기 블록을 클릭한 후 웹 페이지에서 하이라이트 표시된 요소로 이동하여 다음 페이지 버튼이 맞는지 확인합니다. 맞는 다음 페이지 버튼이 없는 경우 해당 XPath를 수동으로 변경해야 할 수도 있습니다.

58.png

3. "클릭하여 다음 페이지 넘어가기"를 클릭합니다.

"클릭하여 다음 페이지 넘어가기"를 클릭하면 문자 그대로 Octoparse가 2단계에서 정의한 Next Page 버튼을 클릭하도록 지시하는 것입니다. 제대로 설정된 게 맞다면 1페이지에서 2페이지로 넘어가야 합니다. 페이지가 모든 순차 페이지에서 제대로 작동하는지 확인하기 위해 필요한 횟수만큼 이 두 과정을 반복 클릭합니다("페이지 넘기기" 블록을 클릭 후 "클릭하여 다음 페이지 넘어가기" 클릭). 웹 페이지가 제대로 넘겨지지 않는 경우 2단계에서 요소 XPath를 수정하고 다시 제대로 작동하는지 테스트합니다.

abc.gif

팁: 다양한 페이지 넘기기를 위해 제작된 맞춤형 솔루션을 확인해 보세요.

  • 페이지 넘기기(무한 스크롤)

  • 페이지 넘기기("다음 페이지" 버튼 없음)

  • 페이지 넘기기("더 보기" 버튼 사용)

  • 페이지 넘기기("다음 페이지" 버튼 클릭)

  • 페이지가 스킵 되는 문제는 왜 생길까요?

  • Octoparse가 마지막 페이지 데이터만 가져올 때 해결 방법


4. "아이템 순환" 블록을 클릭합니다.

"아이템 순환"을 테스트하는 것은 궁극적으로 수집해야 하는 모든 아이템이 다 선택되었는지 확인하는 것입니다.

"아이템 순환"을 클릭하면 내장 브라우저의 웹 페이지로 이동하여 필요한 모든 아이템이 하이라이트 표시됐는지 확인할 수 있습니다.

360.gif

팁: 테스트 시 리스트에 누락이 있으면 아래의 솔루션을 확인할 수 있습니다.

  • 아이템 순환

  • Octoparse가 리스트의 모든 요소를 인식하지 못할 경우 어떻게 해야 합니까?


5. "데이터 가져오기" 클릭합니다.

사용자의 요구대로 데이터가 수집됐는지 확인하는 파이널 단계입니다.

"데이터 가져오기"를 클릭하면 데이터 미리보기 섹션에서 수집한 데이터가 필요한 데이터가 맞는지 확인합니다.

999.png

팁: 데이터 필드가 비였거나 틀린 데이터가 수집되면 아래 방법을 써보세요.

  • 데이터 필드 문제 수정(누락, 공백 또는 틀린 필드)

  • 주변 텍스트를 통해 웹 요소 찾기


테스트 실행하기

워크플로우 각 단계 테스트를 모두 거치고 나면 이제 로컬 디바이스에서 작업을 실행할 차례입니다. "실행"을 클릭하고 "내 디바이스에서 실행하기"를 선택합니다.

run.png

이제 실시간으로 데이터가 추출되는 것을 확인해 보십시오!

  • 브라우저로 보기: 클릭하면 내장 브라우저를 열고 열 웹 사이트를 볼 수 있습니다.

  • 작업상태 보기: 실행 중인 프로세스의 시작 시간과 종료 시간을 확인할 수 있습니다.

  • 일시 정지: 프로세스를 일시 중지하여 웹 페이지에서 로그인이나 captcha를 우회할 수 있습니다.

  • 데이터 리스트: 가져온 데이터를 미리 볼 수 있습니다.

  • 이벤트 로그: Octoparse가 작업을 수행하는 모든 과정을 보여줍니다. 여기에서 작동 중 발생한 오류를 쉽게 찾을 수 있습니다.

FAQ:

  • 작업이 실행된 후 바로 정지되는 이유

  • Octoparse가 첫 번째 아이템만 클릭하고 정지되는 이유

  • 중복된 데이터가 많이 발생하는 이유 (V8.4)

  • 두 번째 페이지로 넘어가기 전에 대기 시간이 오래 걸리는 이유


답변이 도움되었나요?