Octoparse를 다운로드하고 기본 사항에 대해서도 배웠으니 이제 본격적으로 웹 스크래핑을 시작할 시간입니다!
대부분의 웹 사이트(디렉토리, 전자 상거래, 부동산 사이트 등)는 같은 비슷한 구도로 설계되어 있습니다. 많은 아이템이 리스트 형태로 중복되어 나타나죠.
Bestbuy.com
Amazon.com
Octoparse의 새 자동 인식 알고리즘은 바로 이런 종류의 웹 페이지를 위해 특별히 고안되었습니다. 데이터 리스트(텍스트 및 링크 포함), "다음 페이지" 버튼, "더 보기" 버튼을 자동으로 인식하고 페이지를 스크롤 한 다음 자동으로 스크래핑 작업을 생성합니다.
본 레슨에서는 자동 인식 알고리즘을 이용하여 웹 페이지 데이터를 추출하는 방법에 대해 알아보겠습니다.
참고: Octoparse Hello World는 다양한 종류의 웹 페이지에서 데이터를 스크랩하는 연습을 도와주는 여러 테스트용 사이트를 제공합니다.
STEP 1. 새 작업 생성하기
샘플 URL(http://test-sites.octoparse.com/?product_cat=e-commerce-category-1)을 홈 화면 상단의 검색창에 입력합니다. 시작 버튼을 누르시면 커스텀 모드로 새 작업을 시작합니다.
STEP 2. 자동 인식 기능을 통해 데이터 가져오기
Octoparse는 내장 브라우저로 입력한 웹페이지 URL을 로딩하고 자동 인식 프로세스를 자동으로 시작합니다. 프로세스가 완료되고 팁 패널에 더 많은 자세한 정보가 뜰 때까지 인내심 있게 기다려 주시면 됩니다.
참고: 페이지 로딩 후 필요한 데이터를 액세스할 수 없는 경우 자동 인식 기능을 쓰기 전에 다른 추가 절차가 필요한지에 대해서는 튜토리얼을 통해 더 많은 정보 확인 부탁드립니다.
STEP 3. 데이터 미리보기로 확인하기
자동 인식이 완료되면 팁 패널에 제공된 가이드에 따라 미리 보기 섹션에서 데이터를 확인할 수 있습니다. 데이터 필드의 이름을 바꾸거나 필요 없는 필드를 삭제할 수 있습니다. 인식된 데이터는 웹 페이지에서도 하이라이트 표시됩니다.
STEP 4. 옵션 확인하기
이제 팁 패널로 이동하여 옵션을 확인합니다. 인식된 데이터 유형에 따라 선택할 수 있는 여러 가지 옵션이 제공됩니다. 본 예시에는 리스트 데이터가 인식되므로 아래와 같은 옵션을 제공받을 수 있습니다.
리스트로부터 데이터 수집하기 - 이 옵션은 디폴트 옵션입니다.
페이지 넘기기 - Octoparse가 웹 페이지에서 "다음" 버튼을 인식한 것을 볼 수 있습니다. Octoparse가 "다음" 버튼을 눌러 연속으로 더 많은 페이지에서 데이터를 수집하려면 이 옵션을 선택하세요.
참고: 자동 인식된 버튼이 당신이 클릭해야 할 버튼이 맞는지 확인하려면 웹 페이지에서 확인 버튼을 클릭한 뒤 하이라이트 된 부분이 맞는지 확인합니다. "다음" 버튼을 다시 선택해야 할 경우, "편집"을 클릭하고 팁 패널의 가이드를 따릅니다.
STEP 5. 워크플로우 만들기
설정을 재확인한 후 워크플로우 만들기를 클릭합니다.
Octoparse는 인식된 데이터와 저장된 설정에 따라 자동으로 워크플로우를 생성합니다. 또한 작업을 당장 실행하거나 워크플로우를 수동으로 편집할 수도 있습니다.