메인 콘텐츠로 건너뛰기

페이지 열기 (웹 페이지로 이동)

옥토파스에서 웹 페이지를 로드하는 단계별 가이드입니다.

이번 주에 업데이트함

Octoparse에서 스크래핑 작업을 만들 때는 항상 내장 브라우저에 하나 이상의 웹 페이지 URL을 로드하는 것부터 시작합니다. 이 과정을 "웹 페이지로 이동" 단계라고 합니다.

참고로 상품 페이지 URL과 같은 직접적인 웹페이지 URL을 사용하는 것이 사이트의 메인 도메인 URL에서 시작하는 것보다 훨씬 효율적입니다.

이제 대상 URL이 준비되어 있다면 바로 시작해 볼까요?


1. 단일 웹페이지 열기

웹 페이지를 내장 브라우저에서 여는 방법은 여러 가지가 있습니다.

예를 들어 eBay의 다음 페이지를 스크래핑한다고 가정해 보겠습니다.

1.1 홈 화면에서 열기

홈 화면에는 검색창이 있습니다. 이 검색창은 관련 스크래핑 템플릿을 검색하거나, 특정 웹페이지 URL을 입력해 새 작업을 시작할 때 사용할 수 있습니다.

  • 대상 페이지의 URL을 복사해 검색창에 붙여넣고 시작 버튼을 클릭하면 새 작업이 자동으로 생성됩니다.

1.2 사용자 지정 작업에서 열기

  • 홈 화면의 “사용자 지정 작업이란” 아래에서 + 새 작업 클릭

  • URL 입력란에 대상 페이지 URL을 붙여넣고 저장 클릭

  • 워크플로우에 자동으로 “웹 페이지로 이동” 단계가 생성됩니다.

1.3 워크플로우 내에서 단계 추가로 열기

웹 페이지로 이동 단계는 워크플로우에 언제든 직접 추가할 수 있습니다. 이는 워크플로우의 첫 단계로 추가할 수도 있고, 필요한 시점에 맞춰 중간 단계로 삽입할 수도 있습니다.

  • 워크플로우 영역에 마우스를 올리면 “+” 버튼이 나타납니다.

  • “+” 버튼(보조 추가)를 클릭하여 페이지 열기를 선택합니다.

  • 해당 보조를 클릭하면 설정으로 이동하여 URL 입력란에 대상 페이지의 주소를 붙여넣고 적용을 클릭합니다.

    mceclip6.png


2. 여러 웹 페이지(URL 다중 입력) 열기

항상 단일 웹페이지 URL로 시작할 필요는 없습니다.
아래 예시처럼 비슷한 웹 구조를 가진 여러 웹 페이지 URL로 작업을 시작할 수도 있습니다.

전자상거래 사이트에서 상품 정보를 수집할 때 먼저 상품 페이지의 URL을 수집하는 1차 스크래핑 작업을 만든 뒤, 그 URL들을 이용해 상품 상세 정보를 추출하는 2차 작업을 만들 수 있습니다.

이렇게 여러 URL을 한 번에 추가하면 스크래핑 효율을 크게 높일 수 있습니다.

2.1  홈 화면에서 여러 URL 열기

  • 홈 탭에서 여러 URL을 복사해 검색창에 붙여넣고 저장 클릭

  • 워크플로우에 “루프 아이템” 단계가 자동 생성되며 편집 버튼을 눌러 URL 목록을 수정할 수 있습니다.

  • URL을 입력하는 방식은 다음 중에서 선택할 수 있습니다.

    • URL을 직접 입력

    • XLS 파일 등 외부 파일에서 가져오기

    • 다른 작업에서 가져오기

    • 일괄 URL 생성으로 목록 만들기 (자세한 방법은 URL 목록 일괄 가져오기를 참고하세요.)

만약 URL을 직접 입력하는 경우 엑셀 시트에서 URL 목록을 복사해 그대로 URL 입력란에 붙여넣을 수 있습니다. 이럴 때는 한 줄에 하나의 URL을 입력해야 합니다.

  • 저장 버튼 클릭

2.2 사용자 지정 작업에서 여러 URL 열기

  • 홈페이지에서 사용자 지정 작업이란을 찾아 아래 + New Task 클릭

  • URL 입력 방식 선택

  • 복사한 URL들을 URL 입력란에 붙여넣고 저장을 클릭하면 작업 시작

2.3 'URL 편집' 버튼으로 URL 추가

단일 URL로 작업을 시작했다면 나중에 URL 편집 버튼을 눌러 추가할 수 있습니다.


3. “웹 페이지로 이동” 설정

웹사이트마다 구조가 다르고 네트워크 환경도 다양하기 때문에 상황에 맞게 “웹 페이지로 이동” 단계의 설정값을 조정하는 것이 중요합니다.

3.1 일반

  • URL: 다른 웹페이지를 열어야 할 때 여기서 URL을 변경할 수 있습니다.

  • 루프 내의 URL 열기: 여러 웹페이지를 순차적으로 열 때 사용하는 옵션입니다.

  • 타임아웃: 페이지 로딩이 오래 걸릴 경우, 대기 시간을 조정할 수 있습니다.

3.2 옵션

  • 다음 조건 충족되면 실행한다: 작업 실행 전에 일정 시간 대기하도록 설정합니다.

    • 실행 전 몇 초 대기: 페이지가 완전히 로드될 때까지 기다린 후 작업을 수행하도록 설정합니다.

    • 특정 요소가 나타날 때까지 대기: 지정된 요소가 나타날 때까지 다음 작업을 실행하지 않도록 설정합니다.

  • 페이지 로딩 후: 페이지 로딩 후 실행할 추가 작업을 설정할 수 있습니다.

3.3 재시도

  • 다음 조건 충족 시 재시도: 특정 조건(예: 지정된 요소가 존재하지 않음/존재함)에 따라 페이지를 다시 로드하도록 설정할 수 있습니다.


4. 웹 페이지가 로드되지 않을 때의 대처 방법

가끔 Octoparse의 내장 브라우저에서 웹페이지가 제대로 로드되지 않아 빈 페이지(about:blank) 로 표시되는 경우가 있습니다. 이럴 때는 브라우저 User Agent를 변경해보는 것이 도움이 됩니다.

  • 작업 설정 클릭

  • 실행 설정으로 이동한 뒤 내장 브라우저 항목을 찾아 드롭다운 메뉴에서 다른 브라우저 선택

  • 저장을 클릭하여 설정 적용

브라우저 변경 후 확인 방법

  • 웹페이지 새로고침 아이콘을 클릭하여 페이지를 다시 불러온 뒤 정상적으로 페이지가 표시되는지 확인합니다.

Octoparse에는 다양한 브라우저 옵션이 제공됩니다. 대상 웹페이지에 가장 잘 맞는 브라우저 User Agent를 찾기 위해 여러 가지를 시도해보는 것이 좋습니다.

답변이 도움되었나요?