메인 콘텐츠로 건너뛰기

클라우드 추출이란?

최소 10달 전에 업데이트됨

Octoparse는 프리미엄 사용자( Standard, Professional, Enterprise )를 대상으로 24시간 내내 작업을 실행할 수 있는 강력한 클라우드 플랫폼을 제공합니다 .

작업이 클라우드 추출로 실행되면 Octoparse의 IP를 사용하는 여러 노드를 활용합니다. 작업이 실행되는 동안 앱이나 컴퓨터를 종료할 수 있습니다. 하드웨어 제한에 대해 걱정할 필요가 없습니다. 추출된 데이터는 클라우드에 저장되며 언제든지 액세스할 수 있습니다.

작업 예약 기능은 Octoparse 클라우드 추출에서도 지원됩니다. 최신 정보를 빠르게 수집하려면 필요한 만큼 자주 실행되도록 작업을 스케줄링할 수 있습니다.


1. 클라우드 추출로 작업 실행:

작업 구성을 마치면 실행을 클릭하고 클라우드에서 실행에서 일반 모드 또는 부스트 모드를 선택하여 클라우드에서 실행을 시작합니다.

작업이 클라우드에서 실행되도록 설정되면 작업 목록에서 해당 상태가 실행 으로 변경됩니다 .


2. 클라우드 추출을 사용한 일괄 실행 작업:

실행해야 할 작업을 선택하고 ' 클라우드 실행 시작' 을 클릭하면 여러 작업이 한 번에 클라우드에서 실행됩니다.


3. 클라우드 추출 설정:

Octoparse 클라우드 추출을 사용하면 여러 작업을 동시에 실행할 수 있습니다.

스탠다드 플랜에서는 클라우드에서 동시 최대 6개의 작업을 실행할 수 있고 (최대 6개의 클라우드 노드 사용 가능), 프로패셔널 플랜에서는 동시 최대 20개의 작업을 실행할 수 있습니다 (최대 20개의 클라우드 노드 사용 가능). 동시 실행되는 최대 작업 수를 설정하려면 설정에서 드롭다운 옵션에서 한도를 선택합니다.

팁:

  • 클라우드 추출의 성능은 어떻습니까?

작업이 분할 가능하다면, 클라우드에서 데이터를 추출하는 것이 로컬에서 작업을 실행하는 것보다 훨씬 빠를 수 있습니다(작업이 분할 가능한 경우에 대해 알아보세요 ).

분할 가능한 작업은 여러 개의 하위 작업으로 나누어 여러 노드에서 동시에 실행할 수 있으므로 추출 속도가 더 빨라집니다.

  • 허용된 최대 노드 수보다 많은 작업을 실행할 수 있나요?

네, 가능합니다. 하지만 일부 작업은 이전 작업이 완료되어 더 많은 클라우드 노드가 사용 가능해질 때까지 대기하여야 합니다. 만약 대기 시간을 줄이고 싶으면 클라우드 노드 할당량이 더 많은 플랜으로 업그레이드 할 수도 있습니다.


4. 클라우드에서 실행 일정을 예약하세요.

4.1. 단일 작업의 경우

작업 구성을 마치면 실행을 클릭 하고 클라우드 실행 예약을 선택합니다 .

실행 빈도를 선택하고 요구 사항에 따라 시간과 날짜를 설정합니다. 예약 ON을 클릭하면 작업이 예약대로 실행됩니다.

다음 실행에 대한 시간은 "다음 실행"열의 작업 목록 에서 확인할 수 있습니다 .

6.png

예약된 실행을 취소하려면 더보기를 클릭 하고 클라우드 실행에서 예약 OFF를 선택하세요 .

7.png

4.2. 작업 그룹의 경우

작업 목록으로 가서 작업 그룹 보기로 전환하고, 대상 작업 그룹을 선택하고, 예약 아이콘을 클릭하여 작업 그룹의 일정을 설정합니다.


5. 자주 묻는 질문

5.1. Octoparse 클라우드 플랫폼의 기본 시간대는 무엇입니까?

작업 목록에 표시된 다음 실행 시간은 기본적으로 운영 체제에 따라 로컬 시간대를 기준으로 합니다. 그러나 클라우드에서 "현재 날짜 및 시간"을 추출하도록 작업을 빌드한 경우 추출된 시간 및 날짜는 실제 위치와 관계없이 UTC±00:00이 됩니다.

다음 튜토리얼을 따라 데이터 시간대를 변환할 수 있습니다: 현재 시간 필드를 다른 시간대로 변환하는 방법

5.2. 작업이 여러 번 실행될 때 중복된 데이터가 생성되는 이유는 무엇입니까?

맥세클립0.png

Octoparse는 모든 실행에서 스크래핑된 데이터를 함께 저장하고 중복 데이터를 인식합니다. 중복돤 데이터는 클라우드에서 자동으로 삭제됩니다.

예를 들어, Octoparse는 첫 번째 실행에서 중복 없이 100줄을 스크래핑합니다. 작업에 대한 모든 데이터를 확인하면 100줄이 있을 것입니다.

작업이 두 번째로 실행될 때 웹사이트가 5개의 새로운 데이터 라인을 업데이트되면 작업은 100개의 중복이 있는 105개의 라인을 스크래핑하고 자동으로 5개의 새로운 데이터 라인만 저장됩니다. 중복된 100개의 데이터 라인은 건너뛰게 되는 원리입니다.

작업의 모든 데이터(첫 번째 및 두 번째 실행에서)를 확인하면 총 105개의 데이터 라인이 표시됩니다. 두 번째 실행 배치의 데이터를 확인하면 5개의 라인만 찾을 수 있습니다.

모든 중복 항목을 보관하려면 이 튜토리얼을 확인하세요: 클라우드 실행에서 중복 항목을 어떻게 보관할 수 있나요?

5.3. 동시 클라우드 실행이란 무엇입니까?

동시 클라우드 실행은 동시에 실행할 수 있는 최대 작업 수를 의미합니다. 스탠다드 플랜을 사용하는 경우 최대 6개의 클라우드 노드가 있으므로 클라우드에서 동시 최대 6개의 작업을 실행할 수 있습니다(한 작업은 실행하기 위해 최소 1개의 노드가 필요함).

분할 가능한 작업 하나가 계정의 모든 노드나 더 많은 노드를 차지할 수 있기 때문에 일부 작업이 대기 상태에 있는 경우가 있을 수 있습니다. 한 작업이 모든 노드를 차지하면 다른 작업은 클라우드 리소스가 생길때까지 기다려야 합니다. 작업 분할에 대한 자세한 내용은 이 튜토리얼을 참조하세요. 클라우드에서 데이터를 더 빠르게 스크래핑하려면 어떻게 해야 하나요?

5.4. 동시 실행 수에 영향을 미치는 요소는 무엇입니까?

동시 실행에 영향을 미치는 주요 요소는 다음 두가지입니다.

1) 보유한 클라우드 노드 수

2) 실행 중인 작업이 차지하는 노드 수

예를 들어, 스탠다드 플랜을 사용 중이라면 최대 6개의 클라우드 노드가 있습니다. 6개의 작업이 있고 이러한 작업이 실행될 때 각각 1개의 노드만 차지한다면 동시에 6개의 작업이 실행되는 것을 볼 수 있습니다.

작업 중 하나가 2개 노드를 차지하는 경우(2개 이상의 하위 작업으로 분할된 경우) 동시에 실행되는 작업이 5개만 표시됩니다. 작업이 6개 노드를 차지하는 경우 실행되는 작업이 1개만 표시됩니다.

답변이 도움되었나요?