메인 콘텐츠로 건너뛰기

URL 목록으로 작업 만들기

어제 업데이트함

경우에 따라 유사한 구조를 가진 여러 개의 URL(예: 여러 상품 페이지의 URL 목록)을 이미 가지고 있어 이 URL들에서 데이터를 직접 추출하고 싶을 경우 어떻게 하면 좋을까요? 본 튜토리얼은 여려분의 이런 질문을 대답해 드립니다! 지금 바로 URL 목록을 활용하여 여러 웹페이지에서 데이터를 손쉽고 강력하게 추출하는 방법을 소개합니다.


URL 목록으로 작업 시작하기

URL 목록에서 데이터를 추출하려면 일반적으로 추출 과정은 다음의 3단계로 나눌 수 있습니다.

web scraping with octoparse - scraping with a list of urls

아래의 링크들을 참고하면 과정을 따라 하기 쉽습니다:

1. URL 목록으로 작업을 새로 시작하기

  • +신규를 선택하고 사용자 지정 작업을 클릭하여 새 작업을 만듭니다.

  • 텍스트 입력창에 URL 들을 붙여넣고 저장을 클릭합니다.

저장을 클릭하면 리스트의 각 URL을 루프하는 URL 루프 작업이 워크플로우에 자동으로 생성됩니다. 루프 URL을 클릭하면 입력한 URL이 루프 아이템에 추가된 것을 확인할 수 있습니다.

332.png
  • URL이 저장된 후 첫 페이지가 자동으로 열리며 페이지에서 추출할 데이터를 선택할 수 있습니다.


2. 워크플로우에 "URL 리스트" 루프 만들기

이 방법은 이미 작업을 시작한 상태에서 작업 내에 URL에 대한 루프를 직접 만드는 경우에 적용됩니다.

  • 워크플로우에 루프 추가

  • 루프 모드로 이동하여 URL 리스트를 선택합니다. 편집 버튼을 클릭하여 URL 목록을 붙여 넣습니다. 그리고 적용을 클릭하여 설정을 저장하는 것을 잊지 말아주세요!

333.png

  • 루프 아이템 내에 페이지 열기를 추가한 다음 루프에서 URL 로드하기를 클릭하고 적용도 클릭해주세요.

  • URL이 저장된 후 첫 페이지가 자동으로 열리며 페이지에서 추출할 데이터를 선택할 수 있습니다.

참고:

1. 때로는 Octoparse가 너무 빠르게 작동하기 때문에 데이터 추출 단계가 실행되기 전에 페이지가 완전히 로드되지 않을 상태에서 데이터가 추출되지 않거나 불완전할 수 있습니다. 이를 방지하기 위한 "실행 전 몇 초 대기" 기능을 활성화해주세요.

"데이터 추출" 단계의 "옵션"을 클릭하고 작업을 실행하기 전에 대기 시간을 설정합니다(보통 2-3초).

wait_time.png

2. 입력한 원본 URL 목록과 동일한 순서로 데이터를 내보내고 싶다면 여기에 현재 페이지 URL을 추가하면 됩니다.

339.png


URL 목록 업데이트 방법

작업을 생성한 후 URL 목록을 변경하고 싶다면, 루프 아이템으로 이동하여 편집 버튼을 클릭하면 됩니다.
자세한 내용은 링크를 참고하세요.

2.png


언제 URL 목록을 이용한 스크래핑을 고려해야 할까요?

다음과 같은 경우에는 URL 목록으로 작업을 시작하는 것이 효과적입니다.

  1. 모든 URL이 동일한 도메인에 속하고 동일한 페이지 구조를 공유하는 경우(가장 중요)

    예: 여러 개의 상품 URL 목록이 있고 이를 통해 정기적으로 최신 가격 정보를 추출하고 싶은 경우.

  2. 웹사이트가 무한 스크롤 또는 “더 보기(load more)” 방식으로 콘텐츠를 불러오는 경우
    이때는 작업을 두 단계로 나누는 것이 좋습니다. 먼저 한 작업에서 페이지를 스크롤하여 상세 페이지(URL) 를 수집합니다. 그 다음은 첫 작업에서 수집된 URL을 기반으로 새 작업에서 루프 생성하여 각 상품의 상세 정보를 수집합니다.

    예: Zara의 검색 결과 페이지는 무한 스크롤을 통해 새로운 상품을 계속 불러옵니다.
    필요한 데이터가 상품 상세 페이지에 있다면, 먼저 스크롤 횟수를 설정해 충분한 상품 URL을 수집한 다음, 새 작업에서 해당 URL 목록으로 상세 데이터를 수집하는 것이 추천드립니다.

  3. AJAX로 콘텐츠를 로드하는 웹사이트의 경우

    AJAX 방식으로 콘텐츠를 불러오는 사이트에서는 첫 번째 상세 페이지를 클릭한 뒤 시스템이 자동으로 스트 페이지로 돌아오지 못하는 경우가 종종 발생합니다. 이럴 때는 먼저 상세 페이지 URL 을 모두 추출한 후, 그 URL 목록을 이용해 필요한 데이터를 추출해야 합니다.

  4. 페이지 로딩 속도가 느려 페이지네이션 중 오류가 발생할 수 있는 경우

    일부 웹사이트는 페이지 전환 시 로딩 속도가 느려, 예약된 작업에서 데이터 누락이나 오류가 생길 수 있습니다. 이 경우에 페이지를 직접 넘기지 않고 URL 목록을 루프로 처리하는 방식이 더 안정적입니다.

“URL 리스트” 루프 모드를 사용하면 Octoparse가 ‘페이지 넘기기’ 클릭이나 ‘아이템’ 클릭처럼 상세 페이지로 이동하기 위한 추가 단계를 처리할 필요가 없습니다. 그 결과 데이터 추출 속도가 훨씬 빨라지며, 특히 클라우드 추출 환경에서는 속도 향상이 더욱 두드러집니다. 관련 자세한 내용은 링크를 통해 확인해주세요.

자주 묻는 질문:

  1. 페이지 구조가 동일한지 어떻게 확인할 수 있나요?

    특정 뉴스 사이트에서 여러 기사 페이지를 스크래핑하는 경우,
    대부분의 기사 페이지는 동일한 페이지 구조를 가지고 있습니다. 예시로 보면:

    22.png

    또 다른 예시로 구글 지도의 비즈니스 페이지는 다음과 같이
    모두 동일한 레이아웃을 공유합니다.

    23.png

  2. 서로 다른 페이지 구조를 가진 URL도 사용할 수 있나요?

    안타깝게도, 서로 다른 페이지 구조를 가진 URL은 “URL 리스트” 모드에서 일괄 추출할 수 없습니다. 데이터를 일관되고 정확하게 추출하려면 모든 페이지가 같은 레이아웃과 구조를 공유해야 합니다.

    자세한 내용은 루프 아이템 링크를 참고하세요.

  3. 한 번에 추가할 수 있는 URL의 개수에는 제한이 있나요?

    네, 있습니다.

    • 복사/붙여넣기로 직접 추가할 경우: 최대 10,000개 URL까지 가능

    • Batch URL 입력 기능을 사용할 경우: 최대 100만 개 까지 입력 가능

  4. Octoparse가 URL을 자동으로 수집하고 추가할 수 있나요?

    네, 가능합니다.

    • 다른 작업(task)에서 추출한 URL을 입력 소스로 연결할 수 있습니다.
      예를 들어, 첫 번째 작업에서 상품 상세 페이지의 URL을 수집하고,
      두 번째 작업에서 해당 URL 목록을 사용해 상세 정보를 추출하도록 설정할 수 있습니다.

    • 또한 Octoparse API를 사용하면 앱을 직접 열지 않고도 URL 목록을 업데이트할 수 있습니다.

답변이 도움되었나요?