메인 콘텐츠로 건너뛰기

웹 사이트에서 파일 추출 및 다운로드하기

오늘 업데이트함

Octoparse에서는 로컬 실행 중 이미지나 문서 파일을 로컬 폴더에 직접 다운로드할 수 있습니다. 현재 지원되는 파일 형식은 jpg, png, gif, doc, pdf, ppt, txt, xls, zip 입니다.

이 튜토리얼에서는 Octoparse를 사용해 파일과 이미지를 다운로드하는 방법을 안내합니다.

참고:

  • 파일 다운로드는 현재 로컬 실행에서만 가능합니다. 클라우드 실행에서는 파일 다운로드를 지원하지 않습니다.

  • Octoparse는 스크랩된 다운로드 URL을 기반으로만 파일을 다운로드할 수 있습니다.
    즉, 다운로드 URL을 추출하지 못하면 파일을 다운로드할 수 없습니다.

  • 다운로드 버튼 클릭으로 직접 다운로드를 실행할 수는 없습니다.


1. 파일 다운로드

다운로드 설정을 보여드리도록 아래 샘플 URL을 참고하세요:

  • 다운로드할 문서를 클릭합니다. - 클릭으로 선택된 요소가 초록색으로 표시됩니다.

  • "문서 파일" 을 클릭합니다. - 그러면 링크가 추출되고 동시에 파일이 로컬 폴더로 다운로드됩니다.

데이터 미리보기 창에는 두 개의 필드가 생성됩니다. 하나는 다운로드 URL이며 다른 하나는 파일이 저장될 로컬 경로입니다.

참고:

  • 폴더 아이콘이 있는 필드를 삭제하면 다운로드 설정이 취소됩니다.

  • 이미 다운로드 URL을 추출하도록 설정한 경우 “더 보기 → 파일 다운로드” 를 클릭해 다운로드를 추가할 수 있습니다.

  • 다운로드 파일 이름 지정하기

파일 이름은 아래 네 가지 옵션 중 하나로 지정할 수 있습니다.

( 패널의 문서 파일 클릭 후 설정 가능)

  1. MD5 Hash Value: 파일의 MD5 해시값으로 이름 지정

  2. 원래 파일 이름: 원래 파일명 (기본값)

  3. 완료 시간: 다운로드 완료 시간으로 이름 지정

  4. 데이터 필드 값: 특정 데이터 필드 값으로 이름 지정

  • 파일 이름 중복 시 처리 방법

같은 이름의 파일이 이미 폴더에 존재할 경우 아래 세 가지 방식 중 선택할 수 있습니다.

  1. 새 파일 건너뛰기: 현재 다운로드하려는 파일은 건너뜁니다.

  2. 기존 파일 덮어쓰기: 기존 파일을 새로 다운로드한 파일로 교체합니다.

  3. 새 파일 이름 변경하기: 새 파일 이름 끝에 (1) 을 붙여 구분하여 저장합니다.


2. 이미지 다운로드

이미지를 로컬 폴더에 다운로드하는 절차는 파일 다운로드와 동일합니다.

다운로드 설정을 보여드리도록 아래 샘플 URL을 참고하세요:

  • 다운로드할 이미지를 클릭합니다.

  • "이미지 파일" 선택하여 링크 추출 및 이미지 다운로드 실행합니다.

참고:

“https://” 로 시작하는 완전한 URL만 Octoparse로 직접 다운로드 가능합니다. 추출된 URL이 불완전할 경우 데이터 정제하기 기능의 접두사 붙이기 또는 다른 데이터 정제 옵션을 사용해 유효한 다운로드 링크로 변환해 주세요.

file_downlad.png


3. 다운로드 설정

3.1 파일 다운로드 설정

  • 데이터 필드 앞의 화살표 아이콘 클릭합니다.

__.png
  • 여기서 파일 이름 변경, 여러 URL 분리, 특정 URL 다운로드 제외 등의 설정 가능합니다.

REMOVE_DUPLICATES.png

3.2 다운로드 위치 설정

  • 작업을 만드는 화면에서 오른쪽 상단의 작업 설정 아이콘을 클릭합니다.

  • 다운로드를 선택합니다.

  • 저장 경로 선택 버튼을 클릭하여 다운로드 파일이 저장될 로컬 폴더를 선택합니다.

  • 로컬 실행이 시작될 때에서 상황에 따라 옵션 중 하나를 선택합니다.

  • 저장을 클릭합니다. - 모든 수정 사항이 저장됩니다.

답변이 도움되었나요?