웹페이지의 콘텐츠는 보통 일정한 패턴으로 구성되어 있습니다. 그중 가장 흔하게 볼 수 있는 패턴 중 하나가 목록입니다. 아래는 콘텐츠가 목록 형태로 배치된 예시입니다.
Octoparse의 자동 인식 기능으로 목록을 쉽고 빠르게 스크래핑할 수 있습니다. 고급 알고리즘 기반의 Octoparse는 목록 내 항목들을 자동으로 감지하고 워크플로우를 생성할 수 있습니다. Octoparse 자동 인식 기능을 이용하면 목록 데이터를 추출하는 것이 매우 쉬워집니다. 이제 예시를 통해 그 과정을 살펴보겠습니다.
이 웹페이지는 동일한 구조를 가진 여러 항목들로 구성되어 있습니다.
각 항목에는 제목, 날짜, 키워드, 기사 등이 포함되어 있습니다.
우리의 목표는 다음과 같이 데이터를 엑셀 파일로 추출하는 것입니다.
이 작업을 Octoparse에서 수행하는 몇 가지 방법을 알아보겠습니다. 따라서 연습하시려면 예시 링크를 참고하세요:
1. 자동 인식 기능으로 목록 가져오기
예시 URL을 사용하여 새 작업을 만든 후 "웹페이지 데이터 자동 인식"을 선택합니다. 이어 Octoparse가 웹 페이지의 모든 데이터를 인식하고 "워크플로우 생성하기"를 클릭하면 옆에서 워크플로우가 생성됩니다.
다음 데이터 미리보기에서 데이터 필드를 수정할 수 있습니다.
불필요한 필드 삭제
필드 이름 더블클릭하여 변경
모두 완료되면 저장을 클릭하고 작업을 실행합니다.
아래와 같이 작업 실행 모드를 선택합니다.
데이터는 다음과 같은 형태로 추출됩니다.
2. 수동으로 목록 가져오기
자동 인식 기능으로 목록 인식에 실패하거나 자동 인식 없이 직접 작업을 구상하고자 할 경우 수동으로 목록을 추출할 수 있습니다.
방법 1:
첫 번째 항목 위에 커서를 올려 전체 영역이 파란색으로 강조될 때 클릭합니다.
두 번째 항목도 똑같이 클릭하면 필요한 데이터가 모두 선택된 것을 볼 수 있습니다.
텍스트를 선택하면 Octoparse가 자동으로 루프 아이템을 생성합니다.
이제 모든 데이터가 하나의 필드로 추출됩니다. 웹페이지에서 제목, 날짜, 키워드 등을 각각 선택하여 다른 필드를 만들어줍니다.
제목을 선택하고 텍스트 선택
다른 항목들도 같은 방식으로 반복
필요 시 필드 이름을 더블클릭하여 이름 변경
방법 2:
첫 번째 항목 위에 커서를 올려 전체 영역이 파란색으로 강조될 때 클릭합니다.
Octoparse가 해당 영역의 하위 요소를 인식하며 빨간색으로 표시됩니다.
모든 하위 요소 선택 클릭
유사 그룹 모두 선택 클릭
요소 데이터 선택 클릭
그러면 페이지의 목록 항목을 스크래핑할 루프 아이템이 자동으로 생성됩니다.
최종 워크플로우는 다음과 같은 구조가 됩니다.
모두 완료되면 저장을 클릭하고 작업을 실행합니다.
아래와 같이 작업 실행 모드를 선택합니다.
데이터는 다음과 같은 형태로 추출됩니다.