Was ist ein IFrame?
Ein IFrame (Inline Frame) ist ein HTML-Dokument, das in ein anderes HTML-Dokument auf einer Webseite eingebettet ist. Es ermöglicht Ihnen, Inhalte aus externen Quellen einzubinden. Im Wesentlichen handelt es sich dabei um ein Fenster auf Ihrer Webseite, das einen anderen Online-Inhalt anzeigt.
Codemäßig enthält jeder Iframe das HTML-Tag <iframe> sowie ein Quellattribut src, das den Speicherort des Inhalts angibt, den Sie einbetten möchten.
<iframe src="URL"></iframe>
Obwohl Iframes hilfreich sind, um die Trennung zwischen einer Site und externen Inhalten aufrechtzuerhalten, sind sie für Web Scraper zu Hindernissen geworden.
Wie scrape ich mit Octoparse von einem IFrame?
Der integrierte Browser von Octoparse erkennt IFrames automatisch. Sie müssen also nur das Element im IFrame auswählen und es normal extrahieren – als gäbe es im Internet nichts mit der Bezeichnung IFrame!
Wenn Sie Daten innerhalb eines iFrames extrahieren, überprüfen Sie den automatisch generierten XPath-Element, um zu sehen, ob Octoparse ihn bereits erkannt hat.
Beachten Sie jedoch, dass Octoparse die Elemente in IFrames mithilfe der Kombination aus IFrame XPath und Matching XPath lokalisiert. Wenn der automatisch generierte XPath nicht korrekt ist, müssen Sie beide XPath-Ausdrücke neu schreiben.
Erkennt Octoparse den IFrame nicht automatisch?
Für das Problem gibt es zwei Lösungen.
Lösung 1: Klicken Sie auf „Ein Seitenelement scrapen“, um stattdessen das IFrame-Element zu finden. Denken Sie daran, beim Ändern des XPath sowohl den IFrame-XPath als auch den passenden XPath einzugeben.
Lösung 2: Holen Sie sich die IFrame-Linkadresse aus dem Quellcode und verwenden Sie sie als Start-URL für eine neue Aufgabe.
Drücken Sie F12 oder Strg + Umschalt + I, um die Entwicklertools in Chrome zu öffnen und den Quellcode des IFrame-Elements zu suchen. Wenn der Quellcode mehrere IFrame-Links enthält, stellen Sie sicher, dass Sie den Link mit den benötigten Daten verwenden.
Klicken Sie mit der rechten Maustaste auf das Iframe-Tag und kopieren Sie die Linkadresse, um die URL zu erhalten.
Verwenden Sie die URL, um eine Aufgabe zu erstellen. Das ist so einfach wie das Scrapen einer normalen Seite ohne IFrame.
Kann Octoparse von IFrame innerhalb von IFrame scrapen?
Nein, Octoparse kann nicht innerhalb von IFrames scrapen. Sie können jedoch zunächst den IFrame-Link aus dem Quellcode in einem Browser abrufen und ihn dann als Start-URL zum Erstellen einer neuen Aufgabe verwenden.