最新バージョンのOctoparseチュートリアルガイドについて説明していきます。まだ古いバージョンのOctoparseを利用している場合は、アップグレードを強くおすすめします。最新バージョンはより高速かつ簡単になりました! まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください!
時には、ページタイトルのような他のテキスト形式の情報をスクレイピングするのと同じように、直接的に評価情報を抽出することができません。下記のケースでは、評価情報は「img」要素内の「alt」属性の値に保存されています。このチュートリアルでは、ウェブページからこの種の星評価情報をスクレイピングする方法を示します。
星の評価情報を取得するには2つの方法があります:
1. ソースコード(HTML)から属性を抽出する
✅ 最適な用途
alt
、src
、その他の属性から 評価(レーティング) をシンプルに抽出する場合。
手順:
ページ上の星評価要素を選択します。
Tips パネルで以下を選びます:
Image URL → 評価が画像(例:星アイコン)で表示されている場合。
OuterHtml → 属性情報を含む生のHTMLを抽出したい場合(例:
alt="4.5 stars"
)。
データを抽出 アクションをクリックし、「...」アイコンをクリックします。次にデータタイプを設定を選択します。
要素の属性値を選択して、
alt
もしくはsrc
を選択します。抽出された値をプレビューして確認します(例:alt="4.5")。
2. HTMLコードを抽出してデータを再フォーマットする
✅ 最適なケース
HTML 内に評価が埋め込まれている複雑なケースに対応。
手順:
ウェブページ上の評価領域を選択し、OuterHTMLを選択します。
「...」アイコンをクリックします。次に データを再フォーマットを選択します。
次に、ステップを追加 をクリックして、正規表現によるマッチング を選択します。
正規表現の使い方を知っている場合は、正規表現のボックスに直接式を入力できます。
正規表現に詳しくない場合は、「正規表現ツールを試す」をクリックしてください。
5.正規表現ツールでの操作:
「で始める」 をクリックして、必要な実際の情報の前の文字列の部分を入力します(例:
alt="
)。次に、「で終わる」をクリックして、必要な実際の情報の後の文字列の部分を入力します(例:
"
)。それに、生成をクリックします。次に マッチング をクリックして、マッチした情報が必要なものであるか確認してください。その後、応用をクリックします。
6.設定に戻って確認します。すべての設定後、保存をクリックして保存します。