이번은 입문 시리즈의 마지막 레슨입니다. 여러분이 새롭고 유용한 것을 배우는 재미를 입문 시리즈에서 충분히 느끼셨기를 바랍니다. 이제 모든 퍼즐 조각을 맞춰보며 스크래핑 작업을 처음부터 만드는 방법을 단계별 튜토리얼로 정리해보겠습니다. URL 입력부터 추출된 데이터 다운로드까지 한 편의 내용에서 설명해드리겠습니다! 지금 바로 시작해볼까요?
이번 레슨은 다음 샘플 URL에서 기사 정보를 스크래핑합니다:
https://www.octoparse.com/blog
1. 새 작업 시작
검색창에 대상 URL을 입력합니다. 시작을 클릭하여 새 작업을 만드세요.
2. 자동 인식 시작
내장 브라우저에 웹페이지가 로드되면 팁 패널에서 웹페이지 데이터 자동 인식을 선택합니다. Octoparse가 즉시 웹페이지 데이터를 감지하기 시작합니다.
3. 데이터 미리보기
자동 감지가 완료되면 데이터 미리보기 섹션에서 데이터를 확인할 수 있습니다.
필요 없는 항목은 휴지통 아이콘을 클릭하여 삭제할 수 있습니다.
4. 자동 인식 설정 저장
팁 패널로 돌아가서 아래 설정을 확인하세요:
페이지를 스크롤할 때 더 많은 항목이 로드된다면 페이지 스크롤 추가 옵션을 체크합니다.
여러 페이지에서 데이터를 수집하려면 페이지 넘기기 옵션을 체크합니다.
웹사이트에서 올바른 페이지네이션 버튼이 선택되어 있는지 확인하세요 (하이라이트 표시됨).
이제 워크플로우 생성하기를 클릭하면 Octoparse가 워크플로우를 자동으로 생성합니다.
리스트 페이지 외에도 기사 상세 페이지에서 더 많은 데이터를 수집하려면 아래 단계를 따르세요:
세부 페이지 URL 선택하기를 클릭합니다.
추출된 데이터 필드 선택하기 옵션을 선택합니다.
드롭다운 메뉴에서 타이틀_링크 선택 후 확인을 클릭합니다.
워크플로우에 목록 URL 클릭하기 단계가 추가된 것을 확인할 수 있습니다.
5. 서브 페이지에서 데이터 선택
이제 상세 페이지로 이동합니다. 다시 한 번 팁 패널에서 웹페이지 데이터 자동 인식 를 선택합니다.
Octoparse가 제목, 내용, 작성자 등 데이터를 자동으로 감지합니다.
팁:
자동 감지는 자동으로 시작됩니다. 올바른 데이터가 선택될 때까지 감지된 결과를 전환할 수 있습니다.
워크플로우 생성하기를 클릭하면 다음과 같은 워크플로우가 업데이트됩니다.
자동 감지가 잘 작동하지 않을 경우 웹페이지에서 직접 항목을 수동으로 선택하여 데이터 수집도 가능합니다.
6. 추출된 데이터 정리
추출한 데이터에서 간혹 몇 가지 수정을 하고 싶을 필드가 있으시겠죠?
예를 들어, 발행 날짜를 yyyy-mm-dd
형식으로 바꾸고 싶다면 데이터 정제하기 기능을 사용하세요.
우측 상단의 더 보기 아이콘 클릭 → 데이터 정제하기 선택
보조 추가하기 - 추출된 날짜/ 시간 리포맷 클릭
원하는 형식 선택
7. 작업 테스트 실행
앞 단계를 통해 스크래핑 작업 설정은 모두 완료되었으나 앞서 언급했듯이, 각 단계가 제대로 작동하는지 확인하기 위해 워크플로우를 단계별로 테스트하는 것이 좋습니다.
예를 들면 웹페이지 이동을 클릭하면, 내장 브라우저에서 해당 페이지가 정상적으로 열려야 합니다.
워크플로우를 실행하고, 상단부터 하단까지, 다른 단계 속에 포함된 단계(예: 페이지네이션, 반복 항목)는 내부에서 외부로 클릭하며 테스트해보세요.
웹페이지가 예상대로 반응하는지 관찰하세요.
8. 예약 설정 및 실행
이제 작업이 충분히 테스트되어 정상적으로 작동하므로 먼저 로컬 실행을 통해 데이터가 제대로 수집되는지 확인할 수 있습니다.
클라우드에서 작업을 실행하면 훨씬 더 빠르게 데이터를 추출할 수 있으며 반복 실행을 위한 스케줄 설정도 가능합니다.
클라우드 실행을 시작하려면 클라우드에서 실행하기에서 일반 모드 또는 부스트 모드를 클릭하세요.
작업을 예약하려면 예약 설정을 클릭한 후 편집을 클릭합니다.
원하는 실행 빈도와 요일, 시간을 지정합니다.
9. 데이터 내보내기
대시보드에서 작업을 찾아 작업 상태를 확인 후 데이터 보기를 클릭하면 추출된 데이터를 확인할 수 있습니다.
하단의 데이터 내보내기 버튼을 클릭하고 다운로드할 파일 형식을 선택하세요.
축하합니다! 여기까지 잘 해내셨습니다.
이제 웹 스크래핑 전문가가 되는 길에 한 걸음 다가섰습니다.
이번 학습이 끝이 아닌, 웹 스크래핑 여정의 시작이 되기를 바랍니다.