Octoparse

1. Web クローラーと XPath の関係とは？

Web クローラー（Web Scraper）は、Web上のページを自動的に巡回し、データを収集するプログラムです。

その際、収集対象の HTML から「どの要素を取得するか」を指定する方法として、XPath が使われます。

___________________________________________________________

XPath は、HTML / XML 内の要素・属性・テキストを正確に特定する言語です。

画像 など必要な部分だけを抽出できます。

- タイトル
- 価格
- リンク
- 画像 など必要な部分だけを抽出できます。

3. なぜ XPath がクローラーで重要なのか？

HTML 構造が複雑でも狙った要素にピンポイントでアクセスできる

CSS セレクタより柔軟な条件指定ができる

テキスト内容、属性値、位置、部分一致など高度な抽出が可能

Scrapy / Octoparse / Puppeteer など幅広いツールで標準採用

- HTML 構造が複雑でも狙った要素にピンポイントでアクセスできる
- CSS セレクタより柔軟な条件指定ができる
- テキスト内容、属性値、位置、部分一致など高度な抽出が可能
- Scrapy / Octoparse / Puppeteer など幅広いツールで標準採用

4. よく使う XPath 基本構文（Web向け）

5. よく使う XPath 関数（Web クローラーで必須）

- text() 
  ノードのテキストを取得

部分一致検索 HTML はクラスが複数なので重宝する

- contains()
 部分一致検索 HTML はクラスが複数なので重宝する

余分な空白を削除（実務で最重要）

- normalize-space()
  余分な空白を削除（実務で最重要）

//div[normalize-space(text())='ログイン']

&lt;ul&gt; &lt;li class="item fruit"&gt;Apple&lt;/li&gt; &lt;li class="item"&gt;Banana&lt;/li&gt; &lt;li class="item fruit"&gt;Orange&lt;/li&gt; &lt;/ul&gt;

③ 「fruit を含む li のテキストを取得」：

7. XML を例にした基本 XPath の書き方

&lt;books&gt; &lt;book id="1"&gt; &lt;title&gt;Harry Potter&lt;/title&gt; &lt;/book&gt; &lt;/books&gt;

<a href="https://helpcenter.octoparse.com/ja/articles/8204822">要素のソースコードを確認</a>してから：

① Chrome DevTools で目的の要素を右クリック → 「検証」 → Elements パネルで該当ノードを表示

② <code>Ctrl + F</code> で検索バーを開く

③ XPath を入力する → マッチした要素がハイライトされる → 0/1/2 と一致数が表示されるので検証が簡単

<a href="https://helpcenter.octoparse.com/ja/articles/8204824">XPath基礎編 - 2.書き方</a>

XPath基礎編 - 1.クローラーとxpathの関係とは？

Go to Octoparse.com

Octoparse DE

Octoparse FR

Octoparse ES

Octoparse JP

ダウンロード

ブログ

API Docs

Intercom のサポートやコミュニティのエキスパートに質問し、答えてもらいましょう。

メッセンジャーを介して開始した会話はこちらに表示されます。

作成されている会話はありません

別のキーワードを使用するか、入力ミスがないか確認してみてください。

別のキーワードやフィルタを使用してみてください。

会話が見つかりません

タイトル

このサイトでは、当社および当社の第三者ベンダーが、当社のクッキーポリシーに記載された目的のために、お客様とサイトでのやりとり（閲覧したコンテンツ、カーソルの動き、画面の記録、チャット内容を含む）に関する個人情報を監視および記録するために、クッキーやその他の技術を使用しています。当サイトを引き続きご利用いただくことで、{websiteTermsLink}、{privacyPolicyLink}および{cookiePolicyLink}に同意したことになります。

このサイトでは、サイトの運営に必要不可欠なCookieおよび類似のテクノロジー（以下「Cookie」）を使用します。また、当社とパートナーは、サイトのパフォーマンス分析、機能、広告、ソーシャルメディア機能を有効にするために、追加のクッキーを設定したいと考えています。詳細については、{cookiePolicyLink}をご覧ください。クッキーの設定は、[クッキー設定] で変更することができます。

当社では、ウェブサイトの機能維持、分析、そして広告表示のためにクッキーを使用しています。オプションで必要に応じて希望するクッキーを有効または無効にできます。詳細については、{cookiePolicyLink}をご覧ください。

広告クッキーは、さまざまなブラウザやデバイスで利用されているサイト、コミュニケーション、その他のオンラインサービスの利用状況に関する情報を長期にわたって収集するために、広告パートナーによって設定されます。ここでの情報を使用して、利用者が興味を持つと思われるオンライン広告を表示し、広告のパフォーマンスを測定します。ソーシャルメディアクッキーは、ソーシャルメディアプラットフォームでコンテンツを共有するために当該のソーシャルメディアプラットフォームによって設定されます。また、他のオンラインサービスでの活動情報を追跡し、プライバシーポリシーに記載されている目的で使用することができます。

これらのクッキーにより、ウェブサイトは強化された機能とパーソナライズを提供できるようになります。当社または当社のページにサービスを追加したサードパーティプロバイダーによって設定される場合があり、許可しない場合、これらのサービスの一部またはすべてが正常に機能しない可能性があります。

ウェブサイトが機能するために不可欠なクッキーであり、当社のシステムで無効にすることはできません。

これらのクッキーを使用することで、訪問数やトラフィックソースをカウントし、サイトのパフォーマンスを測定および改善できます。これにより、どのページが最も人気があり、どのページが最も人気がないかを把握し、訪問者がサイト内をどのように移動しているかを確認できます。

お客様には、個人情報の販売をオプトアウトする権利があります。お客様のデータの使用方法について詳しくは、{cookiePolicyLink}をご覧ください。

お客様のプライバシーに関する選択

当社では、お客様の体験を向上させるためにクッキーを使用しています。クッキーの設定は以下でカスタマイズすることができます。詳細については、{cookiePolicyLink}をご覧ください。

クッキー設定

ヘルプセンターは空です

エラーが発生しました。そのページは存在しません。

ホーム

検索結果

がっかり

無表情

笑顔

考えています...

ソースを検索しています...

分析しています...

メッセンジャー経由で送信されたチケット、または会話内でサポートエージェントによって送信されたチケットがここに表示されます。

お客様が作成したチケットはありません

チケットが見つかりませんでした

御社に関連するすべてのチケットと会話の進捗状況を追跡

カスタマーポータル。

御社に関連するすべてのチケットの進捗状況を追跡

チケットポータル。

{assigneeName}さんがこちらに対応中です！

{assigneeName}さんがチケットを完了しました

{assigneeName}さんが近日中に対応する予定です

{assigneeName}さんが詳細情報を必要としています

あなたのチケットは完了しました

チケット

チケットポータルへのアクセス権限がありません

検索

検索をスキップしてください。あなたが何をしようとしているのかを説明し、根拠に基づいた回答を得てください。

このトピックに関する記事やガイドをご覧ください。

ワークスペースを作成し、一緒に働く人たちを招待しましょう。

アカウントを設定してください

最初のワークフローを作成し、それが最初から最後まで実行される様子を見てみましょう。

発送する

チームがすでに使用しているツールと連携して、データを取り込みましょう。

スタックを接続してください

製品内の各機能がどこにあるかをすばやく把握できるツアーです。

60秒で{appName}

このプロトタイプデモは、あなたが「 {title} 」を読んでいることを認識しています。現在の記事に戻ることはできますが、本番環境向けの記事対応 Fin 契約の実装は、まだ今後の課題となっています。

記事対応プロトタイプ版回答

すでに招待についてお尋ねいただいているため、このプロトタイプデモには次の機能を追加できます：各招待を送信する前に役割セレクターを使用して、チームメイトの担当業務に応じてアクセスを制限してください。

プロトタイプの役割制限に関するフォローアップ

このプロトタイプデモでは、まずワークスペースのプロフィールから始め、アクセスが必要なチームメンバーを招待し、その後使用している統合を接続することをお勧めします。

プロトタイプの利用開始に関する回答

このプロトタイプデモでは、統合はワークスペース設定から構成します。統合を選択し、アカウントを接続して、有効になっている権限を確認します。

統合機能プロトタイプ版回答

このプロトタイプデモでは、ワークスペースの設定からチームメイトを招待し、招待を送信する前に、各チームメイトに必要なアクセス権を選択してください。

チーム招待プロトタイプ版回答

このプロトタイプデモには、その質問に対するスクリプト化された回答はまだ含まれていません。チームの招待方法やソース記事の開き方について試しに尋ねてみてください。本番環境の Fin API は呼び出されませんでした。

プロトタイプ版の回答は利用できません

このページを開いています。これについて何でも聞いてください。ドキュメントをもとにお答えします。

構文	意味	例
`//`	文書全体から検索	`//div`
`.`	現在のノード	`.//a`
`@属性名`	属性を選択	`@href`
`text()`	テキストを取得	`//h1/text()`
`contains()`	部分一致検索	`contains(@class,'btn')`

XPath基礎編 - 1.クローラーとxpathの関係とは？

1. Web クローラーと XPath の関係とは？

2. XPath の役割

3. なぜ XPath がクローラーで重要なのか？

4. よく使う XPath 基本構文（Web向け）

5. よく使う XPath 関数（Web クローラーで必須）

6. XPath の実例（HTML 版）

7. XML を例にした基本 XPath の書き方

8. XPathを書くには