メインコンテンツにスキップ

星の評価情報を抽出する

一週間前以上前にアップデートされました

最新バージョンのOctoparseチュートリアルガイドについて説明していきます。まだ古いバージョンのOctoparseを利用している場合は、アップグレードを強くおすすめします。最新バージョンはより高速かつ簡単になりました! まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください!

時には、ページタイトルのような他のテキスト形式の情報をスクレイピングするのと同じように、直接的に評価情報を抽出することができません。下記のケースでは、評価情報は「img」要素内の「alt」属性の値に保存されています。このチュートリアルでは、ウェブページからこの種の星評価情報をスクレイピングする方法を示します。

星の評価情報を取得するには2つの方法があります:


1. ソースコード(HTML)から属性を抽出する

✅ 最適な用途

altsrc、その他の属性から 評価(レーティング) をシンプルに抽出する場合。

手順:

  1. ページ上の星評価要素を選択します。

  2. Tips パネルで以下を選びます:

    • Image URL → 評価が画像(例:星アイコン)で表示されている場合。

    • OuterHtml → 属性情報を含む生のHTMLを抽出したい場合(例:alt="4.5 stars")。

  3. データを抽出 アクションをクリックし、「...」アイコンをクリックします。次にデータタイプを設定を選択します。

  4. 要素の属性値を選択して、alt もしくは src を選択します。

  5. 抽出された値をプレビューして確認します(例:alt="4.5")。


2. HTMLコードを抽出してデータを再フォーマットする

最適なケース

HTML 内に評価が埋め込まれている複雑なケースに対応。

手順:

  1. ウェブページ上の評価領域を選択し、OuterHTMLを選択します。

  2. 「...」アイコンをクリックします。次に データを再フォーマットを選択します。

  3. 次に、ステップを追加 をクリックして、正規表現によるマッチング を選択します。

  4. 正規表現の使い方を知っている場合は、正規表現のボックスに直接式を入力できます。

    正規表現に詳しくない場合は、「正規表現ツールを試す」をクリックしてください。

5.正規表現ツールでの操作:

  • 選択した段落の中で抽出したい部分を選ぶ(青色でハイライト)と、右側のターゲットフィールドに自動的にその内容が表示されます。

  • その後、下の【AI生成】をクリックすると、【生成結果】に正規表現が表示されます。

  • 内容に問題がなければ、【適用して保存】をクリックします。

  • その後、正規表現の適用結果が表示され、正規表現マッチ設定に名前を付けることができます。
    内容を確認して問題がなければ、「はい」をクリックします。

6.設定に戻って確認します。テストして確認した後、保存をクリックして保存します。

  • この時点で、ターゲットフィールドに変わります。

こちらの回答で解決しましたか?