이제 Octoparse를 설치하고 기본 사항에 대해서도 익혔다면 바로 웹 스크래핑을 시작할 차례입니다!
대부분의 웹 사이트(디렉토리, 전자 상거래, 부동산 사이트 등)는 같은 비슷한 구조로 설계되어 있기 때문에 하기 예시와 같이 많은 아이템이 리스트 형태로 반복적으로 나타나게 됩니다.
Bestbuy.com
Amazon.com
Octoparse의 새 자동 인식 알고리즘은 바로 이런 종류의 웹 페이지를 위해 특별히 고안되었습니다. 데이터 리스트(텍스트 및 링크 포함), "다음 페이지" 버튼, "더 보기" 버튼을 자동으로 인식하고 페이지를 스크롤 한 다음 자동으로 스크래핑 작업을 생성합니다.
본 레슨에서는 자동 인식 알고리즘을 이용하여 웹 페이지 데이터를 추출하는 방법에 대해 알아보겠습니다.
STEP 1. 새 작업 생성하기
샘플 URL(http://test-sites.octoparse.com/?product_cat=e-commerce-category-1)을 홈 화면 상단의 검색창에 입력합니다. 시작 버튼을 누르시면 커스텀 모드로 새 지정 작업을 시작합니다.
STEP 2. 자동 인식 기능을 통해 데이터 가져오기
Octoparse는 내장 브라우저로 입력한 웹페이지 URL을 로딩하고 자동 인식 프로세스를 자동으로 시작합니다. 팁 패널에 정보가 로딩되고 프로세스가 완료될 때까지 잠시 기다려 주세요.
참고:
페이지 로딩 시 필요한 데이터에 접근할 수 없다면 자동 인식 기능을 사용하기 전에 웹페이지 나타날 수 있는 요소들을 먼저 처리해 주세요.
Octoparse를 처음 사용하는 경우, 자동 감지 기능이 기본적으로 활성화되어 있어 설정 과정을 간소화할 수 있습니다. 대상 웹사이트로 이동하면 Octoparse가 자동으로 페이지 감지를 시작하는 것을 확인할 수 있습니다. 만약 이 기능이 필요하지 않다면, 설정에서 비활성화한 후 웹페이지 데이터 자동 인식 버튼을 클릭하여 수동으로 자동 인식을 실행할 수 있습니다.
STEP 3. 데이터 미리보기로 확인하기
자동 인식이 완료되면 팁 패널에 제공된 가이드에 따라 미리 보기 섹션에서 데이터를 확인할 수 있습니다. 데이터 필드의 이름을 바꾸거나 필요 없는 필드를 삭제할 수 있습니다. 인식된 데이터는 웹 페이지에서도 하이라이트 표시됩니다.
STEP 4. 옵션 확인하기
이제 팁 패널로 이동하여 옵션을 확인합니다. 인식된 데이터 유형에 따라 선택할 수 있는 여러 가지 옵션이 제공됩니다. 본 예시에는 리스트 데이터가 인식되므로 아래와 같은 옵션을 제공받을 수 있습니다.
리스트로부터 데이터 수집하기 - 이 옵션은 디폴트 옵션입니다.
페이지 넘기기 - Octoparse가 웹 페이지에서 다음 페이지로 넘길 수 있도록 해당 페이지에 있는 "다음" 버튼을 인식할 수 있습니다. 연속으로 더 많은 페이지에서 데이터를 수집하려면 "다음" 버튼을 눌러 페이지 넘기기 옵션을 선택하세요.
페이지 스크롤 추가 - 추가 콘텐츠 로딩을 위해 페이지 스크롤이 필요한 경우 이 옵션을 추가하세요.
참고:
버튼이 정확히 인식되었는지 확인하려면 Check 버튼을 클릭하여 웹페이지에서 버튼이 하이라이트되는지 확인하세요.
만약 "다음" 버튼을 다시 선택하고 싶으면 편집 버튼을 클릭하고 팁 패널의 안내에 따라 작업을 진행하세요.
STEP 5. 워크플로우 만들기
설정을 확인한 후 워크플로우 만들기를 클릭합니다.
Octoparse는 인식된 데이터와 저장된 설정에 따라 자동으로 워크플로우를 생성합니다. 이어 작업을 바로 실행하거나 워크플로우를 수동으로 수정할 수도 있습니다.