Octoparse는 웹 페이지 본문의 정보를 가져올 뿐만 아니라 웹 페이지 URL, 웹 페이지 제목, 메타 설명, 메타 키워드 및 HTML 소스 코드를 포함한 페이지 레벨의 데이터도 가져옵니다.
아래 단계에 따라 쉽게 가져올 수 있습니다.
STEP 1. 워크플로우에서 데이터 추출 선택합니다.
STEP 2. 데이터 미리보기 섹션으로 이동한 후 커스텀 필드 추가 버튼을 클릭합니다.
STEP 3. 페이지 레벨 데이터에서 원하는 데이터 선택합니다.
STEP 4 (옵션). 데이터 필드 이름을 더블 클릭하여 데이터 필드 이름을 변경할 수 있습니다.
위와 같은 방식으로 추가할 수 있는 데이터 유형은 5가지입니다.
페이지 URL : 현재 페이지의 URL
페이지 제목 : 웹페이지에 대한 간단한 설명으로 브라우저 창 상단에 나타나는 현재 페이지 제목입니다.
메타 설명: 페이지 요약이 들어 있는 현재 페이지의 메타 설명 태그입니다.
메타 키워드 : 현재 페이지의 메타 키워드 태그
HTML 소스 코드 : 웹 페이지의 HTML 코드 전체