メインコンテンツにスキップ

重複の削除

2か月以上前に更新

データセット内に重複があるのは、Webサイトに重複したデータが存在するか、同じデータを複数回キャプチャする設定になっているためかもしれません。このような場合、データの要件に応じて重複を削除する方法が二つあります。

一、データフィールド全体が同じ場合は重複を削除します(デフォルト設定)

実行が完了すると、Octoparseはデフォルトでデータ行全体が同じ(すべてのデータフィールドが同じ)場合にデータ行を重複として扱います。重複を削除し、ユニークな行のみを保持できます。

例:以下の1行目と3行目は、各データフィールドの値が同じため、重複しています。重複を除去した後、Octoparseは最初に抽出されたデータ行のみを保持します。この場合、1行目です。

mceclip0.png

二、選択したデータフィールドが同一の場合に重複を削除します。

タスクのワークフローを作成する際、1つ以上のデータフィールドで同じ値を共有するデータ行を削除するようにタスクをカスタマイズできます。選択されたデータフィールドの値が同じであれば、データ行は重複とみなされます。選択されていないデータフィールドは考慮されません。

例1:「フィールド2」をデータの重複比較対象に選択する場合、1行目、3行目、4行目の「フィールド2」の値が同じです。この場合、これらの行は重複と見なされます。重複を除去後、Octoparseは最初に抽出されたデータ行、つまり1行目を保持し、3行目と4行目を削除します。

mceclip1.png

例2:「「フィールド3」と「フィールド4」をデータの重複比較対象に選択すると、1行目と3行目の「フィールド3」と「フィールド4」の値が同じになります。この場合、1行目と3行目は重複と見なされます。重複を除去した後、Octoparseは最初に抽出されたデータ行を保持します。この場合、それは1行目であり、3行目は自動的に削除されます。」

mceclip2.png

重複削除設定をカスタマイズするには、以下の手順に従ってください。

  1. タスクと抽出するデータフィールドを設定します。

  2. データプレビューセクションの右上隅にあるアイコンをクリックします。

3. 重複削除の比較対象として選択するデータフィールドを選択します。選択後、[適用] をクリックして設定を保存します。

ヒント:

ローカルでの実行の場合、重複削除はタスク内で一度だけ適用されます。

一方、クラウド環境での実行では、同じ重複削除設定を用いたデータが継続的に比較され、重複データが削除されます。

ただし、重複削除は「比較対象のフィールド設定ごとに独立」して行われます。

例えば:

  • 最初に「フィールド1」を比較対象とする設定Aでデータを取得。

  • 次に「フィールド2」を比較対象とする設定Bに変更してデータを取得。

  → 設定Bのデータは設定Aのデータと重複比較されません。

  • 再び設定Aに戻すと、新たに取得したデータは過去の設定Aのデータと比較され、重複削除されます。

こちらの回答で解決しましたか?