Zum Hauptinhalt springen

Inkrementelle Extraktion - Einfacher Erhalten der Aktualisierten Daten

Vor über 2 Jahren aktualisiert

Sie folgen jetzt einem Tutorial für die neueste Version von Octoparse. Wenn Sie zur Zeit eine ältere Version verwenden, empfehlen wir Ihnen kräftig es, ein Upgrade zu machen, weil sie schneller, leichter und stärker ist! Herunterladen und Installierung eines Upgrades hier, wenn Sie nicht so bereits machen!

Webseiten wie Nachrichtenportale oder Foren werden in der Regel schnell, wenn nicht sogar dynamisch, um neue Inhalte ergänzt. Um bei solchen Webseiten auf dem neuesten Stand zu bleiben, können Sie mit der Inkrementellen Extraktion von Octoparse aktualisierte Daten viel effektiver extrahieren, indem Sie die bereits extrahierten Seiten überspringen und nur die neuen Seiten auslesen.


Wann sollte man Inkrementelle Extraktion verwenden?

  1. Wenn Sie oft die neuesten Daten aus belibieger Webseite benötigen

  2. Wenn die neuen Informationen als neue Webseiten mit neuen URLs angezeigt werden (im Gegensatz zu neuen Informationen, die zu bestehenden Webseiten hinzugefügt/aktualisiert werden)

Ein perfektes Beispiel wäre CNN.com. Stellen Sie sich vor, Sie müssen Nachrichten-Feeds von CNN.com fast in Echtzeit abrufen. Es ist wichtig, die Aufgabe so häufig wie nötig zu planen und auszuführen, damit alles, was der Website hinzugefügt wird, zeitnah extrahiert werden kann. Damit ist das oben genannte Kriterium 1 erfüllt.

Offensichtlich hat jeder Nachricht-Artikel von CNN.com eine eindeutige URL, die leicht zu identifizieren ist - deshalb ist das oben genannte Kriterium 2 erfüllt.

Vorausgesetzt, Sie haben eine Aufgabe für den Job eingerichtet, ist es nicht wirklich sinnvoll, die Artikel, die bereits in früheren Durchläufen erfasst wurden, erneut zu scrapen. Mit der Inkrementellen Extraktion können Sie ganz einfach die URLs zuerst überprüfen, um sicherzustellen, dass sie nicht bereits extrahiert wurden, und nur die wirklich neuen Artikel erfassen.


Wie identifiziert Inkrementelle Extraktion „neue“ Daten?

Inkrementelle Extraktion wird nur funktionieren, wenn die neu hinzugefügten Daten mit neuen URLs identifiziert werden. Während des Extraktionsprozesses prüft Octoparse jede URL, um eine Entscheidung zu treffen, ob sie eine der vorherig gescrapten URL ist. Wenn eine URL als eine aus dem vorherigen Crawl identifiziert wird, wird sie automatisch übersprungen, wenn die inkrementelle Extraktion ausgeführt wird.


Wie wird Inkrementelle Extraktion erstellt?

  • Gehen Sie zur „Aufgabeneinstellung“.

Aufgabeneinstellung
  • Kreuzen Sie „Inkrementelle Extraktion aktivieren“ an.

Inkrementelle Extraktion aktivieren
  • Wählen Sie entweder „Mit der gesamten URL übereinstimmen“ oder „Mit einem Teil der URL übereinstimmen“.

mathc_URL.jpg

TIPPS!

  1. Mit der Option „Mit der gesamten URL übereinstimmen“ verwendet Octoparse die gesamte URL, um sie mit der aktuellen abzugleichen. Selbst der kleinste Unterschied wird als „neue“ URL identifiziert. Bei der Inkrementellen Extraktion erkennt Octoparse die Attribute automatisch und stellt sie als Parameter zur Verfügung. Wenn Sie ein oder mehrere Attribute als Parameter für den Abgleich auswählen, weisen Sie Octoparse an, die aktuelle URL anhand der ausgewählten Attribute zu vergleichen. Wenn eines der Attribute übereinstimmt, wird es übersprungen; andernfalls wird die Seite gescrapt.

  2. Mit der Inkrementellen Extraktion können nur Aufgaben mit einer Aktion „Daten extrahieren“ ausgeführt werden, da Octoparse die Seiten-URL nach Unterschieden durchsucht, sobald die Aktion „Daten extrahieren“ ausgeführt wird.

Hat dies deine Frage beantwortet?