こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
このチュートリアルでは、世界中の企業のレビューを収集する消費者レビューウェブサイトであるTrustpilot.comから顧客のレビューをスクレイピングする方法をご紹介します。
以下のリンクを使用して、個人輸入代行NC モバイルのレビューをスクレイピングします:
今回は、ユーザー名、投稿されたレビューの総数、場所、評価、投稿日、タイトル、およびレビューの内容など、すべての情報をスクレイピングします。
主な手順は右側のメニューに表示されており、サンプルのタスクファイルはこちらからダウンロードできます。
1.「Webページを開く」- 対象のウェブページを開く
2. ページネーションループの設定 - 複数のページからデータをスクレイピングするように設定する
ページの最後までスクロールダウンし、次のページをクリックします。
操作提案パネルで「ループクリック」をクリックします。
AJAXタイムアウトを5秒に設定します(ローカルネットワークの速度に依存するオプション設定ですが、5〜10秒が推奨されます)。
設定を保存するために「保存」をクリックします。
3. ページネーションのXPathを変更する
自動生成されたXPathがうまく機能しない場合、ページネーションのXPathを変更して、すべてのページをスクレイピングできるようにします。
「ページネーション」をクリックします。
XPathを//a[@name="pagination-button-next"]に置き換えます。
設定を保存するために「保存」をクリックします。
4. ループアイテムを設定 - レビューを繰り返し抽出するように設定する
最初のレビューブロックを選択します。
レビューブロック全体が緑色でハイライト表示され、タイトル、ユーザー名、日付などのサブ要素がすべて赤色で表示されるようにする必要があります。これにより、以下のセクションでの正確な位置決めが行われます。
2番目のレビューブロックを選択します。
レビューセクション全体が選択された後、「テキスト」をクリックします。
ループアイテムが作成されたら、それをページネーションにドラッグします。ワークフローは次のようになります:
5. 「データを抽出」 - 必要なデータを選択する
最初のレビューセクションのブロックから、必要なデータ(例:ユーザー名)をクリックします。
操作提案パネルで「テキスト」を選択します。
同様に、レビューの内容、レビュータイトルなど、他の情報をスクレイピングするためにも同じ手順を行います。
6. データフィールドを修正 - 名前変更、削除、データフォーマット
評価のスクレイピングは少し複雑なので、以下の手順に従ってください。
評価情報をクリックし、OuterHtmlを選択します。
評価からHTMLコードを抽出した後、自動生成されたXPathが正常に機能しないため、XPathを変更する必要があります。
評価データフィールドでほかのオプションをクリックし、要素のXPathを設定を選択します。
ループアイテムへの相対XPathをクリックし、//img[contains(@alt,"評価")]を貼り付けます。
保存をクリックします。
データタイプを設定をクリックし、要素の属性値を選択し、altを抽出します。
「投稿日」フィールドのいくつかのデータは「X 日前」と表示されており、正確な日付がわかりにくい場合があります。この場合、「年/月/日」の形式に変更する必要があります。したがって、「データタイプを設定」と「データを再フォーマット」を実行して抽出された内容を修正する必要があります。
データタイプを設定をクリックし、要素の属性値を選択し、datetimeを抽出します。
データを再フォーマットをクリックし、ステップを追加を選択して、抽出された日付/時刻を再フォーマットして内容を修正します。
注意:データ再フォーマットについて詳しくは、以下の記事をご覧ください。
7.「抽出を実行」 - タスクを実行してデータを収集する
右上隅にある「保存」をクリックして「実行」をクリックします。
ローカル抽出を選択するか、クラウド抽出を選択してクラウド上でタスクを実行します(プレミアムユーザーのみ)。
以下は、参考の出力サンプルです。