こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
タスクの速度向上はユーザーにとって大きな課題となります。特に複雑なタスクではその問題が常に起こるでしょう。この記事では、タスクの実行が非常に遅い場合の対処法についてご説明します。問題の可能性が高い原因がローカル環境、Webサイト構成、またはタスク設定などが挙げられます。
場合1: ワークフローの手順が複雑過ぎる
対策1: タスクを簡略化する
時には、対象ページに到達するための手順が複雑過ぎる場合があります。不要なクリックアクションなどを削除してワークフローを簡略化する必要があります。可能な限り近いレイヤからURLを使用し、タスクをシンプルに整理することをおすすめします。
例えば、Amazonから3Dメガネを抽出する場合、以下のようにレイヤごとにクリックするのではなく、直接3Dメガネ商品ページのURLから開始した方が良いでしょう。
対策2: タスクを分割する
データを取得するために要素リストをクリックする必要がある場合は、タスクを2つに分割する方法があります。
タスク1: 一覧ページから各エントリのURLを取得する
タスク2: 前のステップで抽出されたURLリストを使用して、詳細ページからデータを取得する新しいタスクを設定する
場合2:ウェブサイトはAJAX読み込みですが、タスクにAJAX読み込みを設定ていない
対策:適切なAJAXの時間を設定する
多くのウェブサイトでは、AJAX技術を使用してウェブページ全体を繰り返しリロードせずに情報を更新しています。ページがAJAXでロードされている場合でも、設定を忘れてしまった場合、タスクは停止したり、非常に遅くなったりする可能性があります。適切なAJAXの時間設定により、抽出プロセスがスムーズに進行します。
ヒント:AJAXの時間設定の詳細については、「Ajax読み込み」をチェックしてください。
場合3:ローカル環境の条件が不十分(ローカルでの実行)
対策1:ローカル環境を改善する
ローカル抽出が非常に遅い場合、オペレーティングシステム、ハードウェアの容量、IPアドレス、ネットワーク帯域幅、CPUのパフォーマンスなど、ローカル環境によるものである可能性があります。上記にリストされている関連要素の現在の状況を手動で確認する必要があります。
対策2:クラウドでタスクを実行する(プレミアムユーザーのみ)
ただし、このような問題を解決したり修正したりすることは難しい場合があります。しかし、クラウドでタスクを実行することで、Octoparseを使用してより速くデータを抽出することができます。
「クラウド上でデータを高速にスクレイピングする方法はありますか?」のチュートリアルを参照してください。
注意:この機能はプレミアムユーザーのみ利用可能です。
場合4:ウェブサイトのコンテンツの完全な読み込みに時間がかかる
ウェブサイトに画像や動画などの要素が多い場合、ウェブページの全体的な読み込み速度が遅くなる可能性があります。これは、特定のタスクの全体的な実行速度を遅くする別の主要な要因となります。
対策:画像の読み込みを無効にする
ウェブページの画像を読み込まないように選択することで、ページの読み込み時間を短縮することができます。
タスク設定に移動します。
「タスク分割を無効にする」にチェックを入れ、保存をクリックします。
注意:画像の読み込みを無効にすると、ページの読み込みに失敗することがあります。このオプションを選択した後にタスクが正常に動作しない場合は、このオプションをキャンセルしてください。