ウェブページはHTMLドキュメントです。HTMLタグは、HTMLドキュメント内のウェブ要素の開始と終了を示すために使用されるマークアップ言語の一部です。
正しいHTMLタグを選択するには、タスクで通常出るタグを見てみましょう。タグの意味を知ることで、さまざまなケースでどのタグを選択すべきかを理解するのに役立ちます。
<a> </a> | ハイパーリンクを定義し、クリックで新しいページを開くことができます。 |
<p> </p> | テキストコンテンツを整理するときに段落を定義します。 |
<div> </div> | ページの異なるエリアをセグメント化するためのブロック または ノブを定義します。 |
<li> </li> | リスト アイテムを定義します。 |
<img> </img> | ページの画像 要素を定義します。 |
<table> </table> | HTMLのテーブル 要素を定義します。 |
<tr> </tr> | HTMLテーブルの行 を定義します。 |
<td> </td> | HTMLテーブルの標準のデータセルを定義します。 |
異なるタグが配置されると、OctoparseはTipsに異なるオプションを表示します。Tipsの下部にはHTMLパスが表示され、最後のタグが現在配置されているタグです。
現在配置されているタグが目的のタグではない場合は、パスから目的の他のタグをクリックできます。
現在のパスで正しいタグが見つからない場合は、>をクリックして中を見ることもできます。
「選択範囲を拡大」ボタンは、選択領域を拡大するのに役立ちます。ターゲット領域を直接選択するのが難しい場合は、最初に一部を選択し、ターゲット領域が選択されるまでこのボタンをクリックし続けます。
例として、いくつかの要素を取り上げます:
1. 画像の抽出
画像URLをスクレイプしたい場合は、imgタグを探す必要があります。このタグには画像URLが含まれています。
画像をクリックすると、IMGタグが最後のタグであることがわかります。つまり、正しいタグを検出していることになります。
2. リンクの抽出
要素のリンクを取得するには、URLが含まれる要素を検出する必要があります。通常、Aタグに目的のURLが含まれています。
Aタグをクリックした場合にのみ、「リンク」 というオプションが表示されます。