메인 콘텐츠로 건너뛰기

레슨 7: 총정리! 당신의 첫 번째 스크래핑 작업을 만들어 보세요

최소 1년 전에 업데이트됨

입문자 시리즈의 마지막 레슨입니다. 새롭고 유용한 것을 배우는 즐거운 시간이 되셨기를 바랍니다. 이제 모든 퍼즐 조각을 하나로 맞추기 위해 스크래핑 작업의 단계별 튜토리얼로 요약해 드리겠습니다. URL 입력부터 추출된 데이터 다운로드까지 모든 과정을 안내해 드리겠습니다. 그럼 바로 시작하겠습니다.


1. 새 작업 시작

  • 검색창에 URL을 입력하고 시작을 클릭하면 새 작업이 생성됩니다.


2. 자동 감지 시작

웹 페이지가 내장 브라우저에서 로드되면 바로 팁 패널에서 웹 페이지 데이터 자동 인식을 선택합니다. Octoparse는 즉시 자동 인식 절차를 시작합니다.

mceclip0.gif

3. 데이터 미리보기

자동 인식 프로세스가 완료되면 데이터 미리보기 섹션에서 데이터를 확인합니다. 필드 이름을 더블 클릭하고 이름을 바꾸거나 휴지통 아이콘을 눌러 필요 없는 필드를 제거합니다.

mceclip1.gif

4. 자동 인식 기능 설정 저장하기

팁 패널로 돌아가서 하기 설정을 확인합니다.

  • 페이지가 스크롤 하면서 더 많은 내용이 로딩되는 웹페이지일 경우 페이지 스크롤 추가 옵션을 클릭합니다.

808080080880.png
  • 페이지를 넘기면서 데이터를 추출해야 하는 경우 페이지 넘기기 옵션을 선택합니다.

j.png
  • 다음 페이지 버튼이 제대로 인식되었는지 확인합니다(하이라이트 표시).

rrrrr.png

이제 워크플로우 생성하기를 클릭하면 Octoparse가 워크플로우를 자동으로 생성합니다.

mceclip1.png

페이지에 열거된 데이터와 별도로 제품 상세 페이지에서 더 많은 데이터를 가져오고 싶다면 다음 단계를 수행하십시오.

  • 링크 클릭하여 링크 페이지 안의 데이터 가져오기 선택합니다.

lplpp.png
  • 추출된 데이터 필드에서 클릭하기의 드롭다운 메뉴에서 product_url을 선택하고 Confirm을 클릭합니다.

rrrrrrrrrrrrrrrrrrrrrrrrrrrrrrr.png

이상 리스트 URL 클릭하기 단계가 워크플로우에 추가 되는 방법을 소개해 드렸습니다.

mceclip2.png

5. 상세 페이지에서 데이터 가져오기

상세 페이지가 열리면 다시 한번 팁 패널에서 웹 페이지 데이터 자동 인식을 선택합니다.

팁: 자동 인식 프로세스가 끝나면 필요한 데이터 집합이 나타날 때까지 인지된 결과 집합을 전환할 수 있습니다.

mceclip2.gif

워크플로우 생성하기를 클릭하면 다음과 같이 업데이트된 워크플로우를 확인할 수 있습니다.

mceclip3.png

웹 페이지의 데이터를 수동으로 선택하여 추출할 수도 있습니다.

mceclip3.gif

6. 추출된 데이터를 정리합니다.

추출된 데이터를 보니 몇 군데 수정이 필요한 부분이 있습니다. 예를 들어, "위치" 필드의 "from"을 제거하기 위해 데이터 정제하기를 사용해야 합니다.

오른쪽 상단 모서리의 더 보기 아이콘을 클릭하고 데이터 정제하기를 선택합니다.

0890.png

그런 다음 단계 추가 - [바꾸기]를 누릅니다. 아래 GIF와 같이 "from"을 공백으로 대체해야 하는 모든 행에서 "from"을 제거할 수 있습니다.

mceclip4.gif

7. 작업 테스트 및 실행

작업이 완료되면 앞에서 언급한 바와 같이 워크플로우를 단계별로 테스트하여 각 단계 작업이 제대로 작동하는지 확인하는 것이 좋습니다. 예를 들어 웹 페이지로 이동을 클릭하면 웹 페이지가 내장 브라우저에서 정상적으로 로드되어야 합니다.

워크플로우에 대해 위에서 아래로, 안쪽에서 바깥쪽으로 모든 단계를 하나씩 클릭하며 작동 테스트합니다. 웹 페이지가 예상대로 작동하는지 관찰합니다.

mceclip5.gif

8. 예약 및 실행

작업이 완전히 테스트 되고 작동되면 클라우드에서 작업을 실행하여 데이터를 훨씬 더 빠르게 추출하거나 반복적으로 실행되도록 예약할 수 있습니다.

클라우드 추출을 시작하려면 클라우드에서 실행하기에서 스탠더드 모드 또는 부스트 모드를 클릭합니다.

작업실행을 예약하려면 로컬 스케쥴링 또는 클라우드 스케쥴링을 선택합니다.

실행 빈도와 실행 날짜와 시간을 지정합니다.

mceclip0.png

9. 데이터 내보내기

대시보드에서 해당 작업을 찾고 작업 상태를 클릭하면 추출된 데이터를 볼 수 있습니다. 하단에 있는 데이터 내보내기를 클릭하고 데이터를 다운로드할 파일 형식을 선택합니다.

FAQ:

  • 추출된 데이터는 어떤 형식으로 다운로드 받을 수 있나요?

축하합니다! 지금까지 레슨은 차세대 웹 스크래핑 전문가가 되기 위한 중요한 첫걸음입니다. 이것이 학습의 끝이 아니라 웹 스크래핑 여정의 즐거운 시작이 되기를 바랍니다.

답변이 도움되었나요?