Octoparse에서는 로컬 실행 중 이미지나 문서 파일을 로컬 폴더에 직접 다운로드할 수 있습니다. 현재 지원되는 파일 형식은 jpg, png, gif, doc, pdf, ppt, txt, xls, zip 입니다.
이 튜토리얼에서는 Octoparse를 사용해 파일과 이미지를 다운로드하는 방법을 안내합니다.
참고:
파일 다운로드는 현재 로컬 실행에서만 가능합니다. 클라우드 실행에서는 파일 다운로드를 지원하지 않습니다.
Octoparse는 스크랩된 다운로드 URL을 기반으로만 파일을 다운로드할 수 있습니다.
즉, 다운로드 URL을 추출하지 못하면 파일을 다운로드할 수 없습니다.다운로드 버튼 클릭으로 직접 다운로드를 실행할 수는 없습니다.
1. 파일 다운로드
다운로드 설정을 보여드리도록 아래 샘플 URL을 참고하세요:
다운로드할 문서를 클릭합니다. - 클릭으로 선택된 요소가 초록색으로 표시됩니다.
"문서 파일" 을 클릭합니다. - 그러면 링크가 추출되고 동시에 파일이 로컬 폴더로 다운로드됩니다.
데이터 미리보기 창에는 두 개의 필드가 생성됩니다. 하나는 다운로드 URL이며 다른 하나는 파일이 저장될 로컬 경로입니다.
참고:
폴더 아이콘이 있는 필드를 삭제하면 다운로드 설정이 취소됩니다.
이미 다운로드 URL을 추출하도록 설정한 경우 “더 보기 → 파일 다운로드” 를 클릭해 다운로드를 추가할 수 있습니다.
다운로드 파일 이름 지정하기
파일 이름은 아래 네 가지 옵션 중 하나로 지정할 수 있습니다.
(팁 패널의 문서 파일 클릭 후 설정 가능)
MD5 Hash Value: 파일의 MD5 해시값으로 이름 지정
원래 파일 이름: 원래 파일명 (기본값)
완료 시간: 다운로드 완료 시간으로 이름 지정
데이터 필드 값: 특정 데이터 필드 값으로 이름 지정
파일 이름 중복 시 처리 방법
같은 이름의 파일이 이미 폴더에 존재할 경우 아래 세 가지 방식 중 선택할 수 있습니다.
새 파일 건너뛰기: 현재 다운로드하려는 파일은 건너뜁니다.
기존 파일 덮어쓰기: 기존 파일을 새로 다운로드한 파일로 교체합니다.
새 파일 이름 변경하기: 새 파일 이름 끝에 (1) 을 붙여 구분하여 저장합니다.
2. 이미지 다운로드
이미지를 로컬 폴더에 다운로드하는 절차는 파일 다운로드와 동일합니다.
다운로드 설정을 보여드리도록 아래 샘플 URL을 참고하세요:
다운로드할 이미지를 클릭합니다.
"이미지 파일" 선택하여 링크 추출 및 이미지 다운로드 실행합니다.
참고:
“https://” 로 시작하는 완전한 URL만 Octoparse로 직접 다운로드 가능합니다. 추출된 URL이 불완전할 경우 데이터 정제하기 기능의 접두사 붙이기 또는 다른 데이터 정제 옵션을 사용해 유효한 다운로드 링크로 변환해 주세요.
3. 다운로드 설정
3.1 파일 다운로드 설정
데이터 필드 앞의 화살표 아이콘 클릭합니다.
여기서 파일 이름 변경, 여러 URL 분리, 특정 URL 다운로드 제외 등의 설정 가능합니다.
3.2 다운로드 위치 설정
작업을 만드는 화면에서 오른쪽 상단의 작업 설정 아이콘을 클릭합니다.
다운로드를 선택합니다.
저장 경로 선택 버튼을 클릭하여 다운로드 파일이 저장될 로컬 폴더를 선택합니다.
로컬 실행이 시작될 때에서 상황에 따라 옵션 중 하나를 선택합니다.
저장을 클릭합니다. - 모든 수정 사항이 저장됩니다.