메인 콘텐츠로 건너뛰기

웹 요소(텍스트, URL, HTML 등)의 속성 추출하기

최소 1년 전에 업데이트됨

이 튜토리얼에서는 텍스트, URL, 이미지 URL, HTML 및 기타 속성 값을 추출하는 방법을 다룹니다.


1. 텍스트 추출

대상 데이터를 클릭한 다음 Tips 패널에서 Text(텍스트)를 선택합니다.


2. (링크 또는 이미지의) URL 추출

URL은 하이퍼링크입니다. 아마존에서 책 제목을 클릭할 때와 마찬가지로 URL을 클릭하면 새 웹 페이지를 열거나 이동할 수 있습니다.

URL을 사용하면 웹 페이지 외에도 이미지 또는 PDF 문서와 같은 특정 파일 리소스에 인터넷을 통해 액세스할 수 있습니다. 또한 URL을 통해 해당 파일이나 이미지를 인터넷에서 다운로드하실 수 있습니다.

2.1 링크의 URL 추출

대상 데이터를 클릭한 다음 Tips 패널에서 Link(링크)를 선택합니다.

팁: URL이 있는 항목을 선택할 때 "팁" 아래에 있는 선택된 태그는 "A"여야 합니다. 이 태그는 보통 한 페이지를 다른 페이지로 연결하는 앵커를 나타냅니다. 올바른 영역을 선택했는지 확인하십시오.

14.png

2.2 이미지 URL 추출

대상 데이터를 클릭한 다음 Tips 패널에서 Image URL(이미지 URL)을 선택합니다.

FAQ: Octoparse를 사용하여 웹 페이지에서 URL이 아닌 이미지를 직접 가져올 수 있나요?

네! 버전 8.5.4에 도입된 새로운 스크레이프 및 다운로드 기능을 통해 스크래핑 중에 이미지를 직접 다운로드할 수 있습니다.


3. 내부/외부 HTML 추출

텍스트 및 URL과 달리 아이콘과 같은 데이터는 직접 추출할 수 없습니다. 별점과 같이 일부 시각적 비문자 콘텐츠를 추출하려면 이러한 콘텐츠의 내부/외부 HTML을 추출해야 합니다.

아이콘 외에도 이러한 요소의 HTML을 먼저 추출하여 웹 페이지에서 숨겨진 텍스트, 차트 및 그래프를 긁어낼 수도 있습니다. HTML 코드를 받은 후에는 정규 표현식을 적용하여 데이터를 정리해야 합니다.

내부/외부 HTML을 추출하려면 대상 데이터를 클릭한 다음 Tips 패널에서 내부/외부 HTML을 선택합니다.

팁: 추출된 내부/외부 HTML을 유용한 데이터로 정제하려면 다음 튜토리얼을 확인하십시오.


4. 속성값 추출

속성은 HTML 코드 내에 있어 HTML 요소에 대한 추가 정보를 제공합니다. 예를 들어 별 점은 일반적으로 속성에 저장됩니다. 일반적으로 name="value"와 같은 이름/값 쌍으로 제공됩니다. octoparse는 이런 값을 가져오는 데 도움이 될 수 있습니다.

대상 요소(예: 별점)를 클릭하고 OuterHtml을 선택합니다.

데이터 미리 보기 섹션으로 이동하고 데이터 필드 위를 이동한 다음... 추가 버튼을 클릭하고 사용자 지정 필드(customize field)를 선택한 다음 속성 추출에서 대상 속성을 선택합니다.

17777.png
답변이 도움되었나요?