IFrame이란 무엇인가요?
IFrame (Inline Frame) 웹 페이지의 다른 HTML 문서에 내장된 HTML 문서입니다. 외부 소스의 콘텐츠를 포함할 수 있습니다. 기본적으로, 다른 온라인 콘텐츠를 보는 웹 페이지의 창입니다.
코드 측면에서 모든 Iframe에는 <iframe> HTML 태그와 함께 포함하려는 콘텐츠의 위치를 나타내는 소스 속성 src가 포함됩니다.
<iframe src="URL"></iframe>
Iframe은 사이트와 외부 콘텐츠를 분리하는 데 유용하지만, 웹 스크래퍼에게는 장애물이 되었습니다.
Octoparse로 IFrame에서 스크래핑하는 방법은?
Octoparse에 내장된 브라우저는 IFrame을 자동으로 감지하므로, 사용자는 IFrame에서 요소를 선택하여 추출하기만 하면 됩니다. 마치 인터넷에 IFrame이라는 것이 존재하지 않는 것처럼 말이죠!
iFrame 내에서 데이터를 추출하는 경우 자동 생성된 요소 XPath를 확인하여 Octoparse가 해당 요소를 이미 감지했는지 확인하세요.
하지만 Octoparse는 IFrame XPath와 Matching XPath의 조합으로 IFrame의 요소를 찾는다는 점에 유의하세요. 자동 생성된 XPath가 정확하지 않으면 두 XPath 표현식을 모두 다시 작성해야 합니다.
Octoparse가 IFrame을 자동으로 인식하지 못하면 어떻게 되나요?
당황하지 마세요. 이런 상황에는 두 가지 해결 방법이 있습니다.
Capture a page element를 클릭 하고 XPath를 작성하여 대신 IFrame 요소를 찾습니다. XPath를 수정할 때 IFrame XPath와 Matching XPath를 모두 입력하는 것을 잊지 마세요.
소스 코드에서 IFrame 링크 주소를 가져와 새 작업의 시작 URL로 사용합니다.
F12 또는 Ctrl + Shift + I를 눌러 Chrome에서 개발자 도구를 열고 IFrame 요소의 소스 코드를 찾습니다. 소스 코드에 여러 개의 IFrame 링크가 있는 경우 필요한 데이터가 있는 링크를 처리하고 있는지 확인하세요.
iframe 태그를 마우스 오른쪽 버튼으로 클릭하고 링크 주소를 복사하여 URL을 가져옵니다.
URL을 사용하여 작업을 구축하면 IFrame 없이 일반 페이지를 스크래핑하는 것만큼 쉽습니다.
Octoparse가 IFrame 내에서 IFrame을 스크래핑할 수 있나요?
아니요, Octoparse는 IFrame내에서 IFrame을 스크래핑할 수 없습니다. 그러나 먼저 브라우저에서 소스 코드에서 IFrame 링크를 가져온 다음 시작 URL로 사용하여 새 작업을 빌드할 수 있습니다.