메인 콘텐츠로 건너뛰기

목록 데이터 가져오기

최소 1년 전에 업데이트됨

웹 페이지의 내용은 보통 패턴이 있습니다. 가장 흔히 볼 수 있는 패턴 중 하나는 목록입니다. 다음은 목록식으로 구성된 웹 페이지의 예시입니다.

19.png

Octoparse의 자동 인식 기능으로 목록을 쉽고 빠르게 스크랩할 수 있습니다. 고급 알고리즘을 기반으로 Octoparse는 목록에서 아이템을 자동으로 검색하고 워크플로우를 생성할 수 있습니다. Octoparse 자동 인식 기능을 사용하면 목록 데이터를 추출하는 것이 이보다 더 쉬워질 수 없습니다. 이제 예를 들어 어떤 원리인지 알아보겠습니다.

이 웹 페이지는 동일한 구조로 된 여러 블록으로 구성되어 있습니다. 각 블록에는 제목, 날짜, 키워드, 기사 등 같은 요소를 공유하고 있습니다.

20.png

우리의 목표는 다음과 같이 데이터를 엑셀로 추출하는 것입니다.

21.png

이제 Octoparse에서 이 작업을 수행할 수 있는 다양한 방법을 알아보겠습니다. 다음 링크를 예시로 쓰겠습니다.


1. 자동 인식 기능을 사용하여 목록 가져오기

예시 URL을 사용하여 새 작업을 만든 후 "웹 페이지 데이터 자동 인식"을 선택합니다. 이제 Octoparse가 웹 페이지의 모든 데이터를 인식하고 "워크플로우 생성하기"을 눌러 워크플로우를 생성할 수 있습니다.

그런 다음 데이터 미리보기에서 데이터 필드를 수정할 수 있습니다.

  • 필요 없는 데이터 필드 삭제하기

  • 데이터 필드 타이틀을 더블 클릭하여 필드 이름 변경하기


2. 수동으로 목록 가져오기

자동 인식 기능이 목록 인식에 실패하거나 자동 인식 없이 직접 작업을 구축하는 경우 수동으로 목록을 추출할 수 있습니다.

방법 1:

  • 전체 섹션이 파란색으로 강조 표시될 때까지 첫 번째 아이템 위에 커서를 놓고 클릭합니다.

  • 두 번째 아이템을 계속 클릭하면 같은 페이지에서 같은 요소를 모두 선택할 수 있습니다.

  • 텍스트를 선택하면 Octoparse가 아이템 순환을 자동으로 만듭니다.

이제 웹 페이지에서 제목, 날짜, 키워드 등의 정보를 선택하여 다양한 필드를 만들 수 있습니다.

  • 제목을 선택하고 텍스트를 선택합니다.

  • 위 단계를 반복하여 다른 정보를 가져옵니다.

  • 필요한 경우 필드 이름을 더블 클릭하여 이름을 바꿀 수 있습니다.

방법 2:

  • 전체 섹션이 파란색으로 강조 표시될 때까지 커서를 첫 번째 섹션 위에 놓습니다.

Octoparse가 전체 섹션에 포함된 세부 요소를 감지하고 빨간색으로 강조 표시하는 것을 확인할 수 있습니다.

  • 모든 세부 요소 선택을 클릭합니다.

  • 유사한 모든 그룹 선택을 선택합니다.

  • 요소 데이터 클릭합니다.

페이지의 목록을 가져오기 위해 아이템 순환이 자동으로 생성됩니다.

답변이 도움되었나요?