웹 페이지의 내용은 보통 패턴이 있습니다. 가장 흔히 볼 수 있는 패턴 중 하나는 목록입니다. 다음은 목록식으로 구성된 웹 페이지의 예시입니다.
Octoparse의 자동 인식 기능으로 목록을 쉽고 빠르게 스크랩할 수 있습니다. 고급 알고리즘을 기반으로 Octoparse는 목록에서 아이템을 자동으로 검색하고 워크플로우를 생성할 수 있습니다. Octoparse 자동 인식 기능을 사용하면 목록 데이터를 추출하는 것이 이보다 더 쉬워질 수 없습니다. 이제 예를 들어 어떤 원리인지 알아보겠습니다.
이 웹 페이지는 동일한 구조로 된 여러 블록으로 구성되어 있습니다. 각 블록에는 제목, 날짜, 키워드, 기사 등 같은 요소를 공유하고 있습니다.
우리의 목표는 다음과 같이 데이터를 엑셀로 추출하는 것입니다.
이제 Octoparse에서 이 작업을 수행할 수 있는 다양한 방법을 알아보겠습니다. 다음 링크를 예시로 쓰겠습니다.
1. 자동 인식 기능을 사용하여 목록 가져오기
예시 URL을 사용하여 새 작업을 만든 후 "웹 페이지 데이터 자동 인식"을 선택합니다. 이제 Octoparse가 웹 페이지의 모든 데이터를 인식하고 "워크플로우 생성하기"을 눌러 워크플로우를 생성할 수 있습니다.
그런 다음 데이터 미리보기에서 데이터 필드를 수정할 수 있습니다.
필요 없는 데이터 필드 삭제하기
데이터 필드 타이틀을 더블 클릭하여 필드 이름 변경하기
2. 수동으로 목록 가져오기
자동 인식 기능이 목록 인식에 실패하거나 자동 인식 없이 직접 작업을 구축하는 경우 수동으로 목록을 추출할 수 있습니다.
방법 1:
전체 섹션이 파란색으로 강조 표시될 때까지 첫 번째 아이템 위에 커서를 놓고 클릭합니다.
두 번째 아이템을 계속 클릭하면 같은 페이지에서 같은 요소를 모두 선택할 수 있습니다.
텍스트를 선택하면 Octoparse가 아이템 순환을 자동으로 만듭니다.
이제 웹 페이지에서 제목, 날짜, 키워드 등의 정보를 선택하여 다양한 필드를 만들 수 있습니다.
제목을 선택하고 텍스트를 선택합니다.
위 단계를 반복하여 다른 정보를 가져옵니다.
필요한 경우 필드 이름을 더블 클릭하여 이름을 바꿀 수 있습니다.
방법 2:
전체 섹션이 파란색으로 강조 표시될 때까지 커서를 첫 번째 섹션 위에 놓습니다.
Octoparse가 전체 섹션에 포함된 세부 요소를 감지하고 빨간색으로 강조 표시하는 것을 확인할 수 있습니다.
모든 세부 요소 선택을 클릭합니다.
유사한 모든 그룹 선택을 선택합니다.
요소 데이터 클릭합니다.
페이지의 목록을 가져오기 위해 아이템 순환이 자동으로 생성됩니다.