メインコンテンツにスキップ

Yellowpagesからリード情報をスクレイピング

12か月以上前に更新

リード生成は、あらゆる営業プロセスにおいて最も重要な部分の一つです。Yellowpagesは、どの業界の企業にとってもリードを収集するための優れたデータリソースです。このチュートリアルでは、Yellowpagesからリードをスクレイピングする方法をご紹介します。

Yellowpagesのリードを取得するには、Octoparseのテンプレートギャラリーにある使いやすい「テンプレートタスク」をご利用いただけます。検索ボックスに「Yellowpages」と入力すると、いくつかのテンプレートが表示されます。必要なパラメータを入力するだけで、タスクがすぐに実行できるようになります。詳細については、こちらをご確認ください。

以下の手順に従って、Octoparseでタスクをゼロから作成する方法を学ぶことができます。このチュートリアルでは、以下のURLを使用して、タイトル、住所、電話番号などのデータをスクレイピングします。

主な手順は右側のメニューに表示されており、サンプルタスクファイルはここからダウンロードできます。


1. 「Webページを開く」を作成 - ターゲットのウェブページを開く

  • ホームページの検索ボックスにURLを入力し、「スタート」をクリックします。


2. ウェブページのデータを自動検出 - ワークフローを作成

  • ウェブページのデータを自動検出」をクリックし、検出が完了するまで待ちます。

  • ワークフローを生成」をクリックします。

必要なデータがすべてリスティングページから取得できる場合は、スクレイピング速度を調整するために「実行前の待機時間を設定」を選択します。もし各詳細リンクをクリックして追加情報を取得したい場合は、次のステップに進みます。

  • データプレビューに移動して、現在のデータ出力に満足しているか確認します。

  • 「...」をクリックして「削除」を選択し、不要なデータフィールドを削除します。

  • ヘッダーをダブルクリックして、データフィールド名を変更します。


3. サブページのURLを選択 - 各詳細ページのリンクをクリック

  • 操作提案の「サブページのURLを選択」をクリックします。

  • 抽出したデータフィールドをクリックし、ドロップダウンメニューからクリックしたいリンクを選択します(データプレビューで正しいリンクかどうか確認できます)。

  • 保存」をクリックします。


4. データを収集 - 詳細ページからデータをスクレイピング

  • ウェブページからデータを選択します。

  • 操作提案の「テキスト」をクリックします。

  • 上記の手順を繰り返して、必要なすべてのデータを抽出します。

  • 必要に応じてフィールド名を変更するには、フィールド名をダブルクリックします。


5. スクレイピング速度を遅くするために待機時間を設定

Yellowpagesでは過剰なスクレイピングを行うとIPがブロックされる可能性があるため、スクレイピング速度をコントロールする必要があります。

  • データを収集1」を選択します。

  • 詳細設定の「実行前に数秒を待機」を設定します。

  • 待機時間を5秒から10秒に設定します。


6. データ抽出を実行 - タスクを実行してデータを取得

  • 保存」をクリックします。

  • 左上の「実行」をクリックします。

  • ローカル収集」セクションの下で「通常モード」を選択してタスクをコンピューターで実行するか、「クラウド収集」でタスクを実行する(プレミアムユーザーのみ)ことを選びます。


こちらがサンプルの出力:

こちらの回答で解決しましたか?