リード生成は、あらゆる営業プロセスにおいて最も重要な部分の一つです。Yellowpagesは、どの業界の企業にとってもリードを収集するための優れたデータリソースです。このチュートリアルでは、Yellowpagesからリードをスクレイピングする方法をご紹介します。
Yellowpagesのリードを取得するには、Octoparseのテンプレートギャラリーにある使いやすい「テンプレートタスク」をご利用いただけます。検索ボックスに「Yellowpages」と入力すると、いくつかのテンプレートが表示されます。必要なパラメータを入力するだけで、タスクがすぐに実行できるようになります。詳細については、こちらをご確認ください。
以下の手順に従って、Octoparseでタスクをゼロから作成する方法を学ぶことができます。このチュートリアルでは、以下のURLを使用して、タイトル、住所、電話番号などのデータをスクレイピングします。
主な手順は右側のメニューに表示されており、サンプルタスクファイルはここからダウンロードできます。
1. 「Webページを開く」を作成 - ターゲットのウェブページを開く
ホームページの検索ボックスにURLを入力し、「スタート」をクリックします。
2. ウェブページのデータを自動検出 - ワークフローを作成
必要なデータがすべてリスティングページから取得できる場合は、スクレイピング速度を調整するために「実行前の待機時間を設定」を選択します。もし各詳細リンクをクリックして追加情報を取得したい場合は、次のステップに進みます。
データプレビューに移動して、現在のデータ出力に満足しているか確認します。
「...」をクリックして「削除」を選択し、不要なデータフィールドを削除します。
3. サブページのURLを選択 - 各詳細ページのリンクをクリック
操作提案の「サブページのURLを選択」をクリックします。
抽出したデータフィールドをクリックし、ドロップダウンメニューからクリックしたいリンクを選択します(データプレビューで正しいリンクかどうか確認できます)。
「保存」をクリックします。
4. データを収集 - 詳細ページからデータをスクレイピング
ウェブページからデータを選択します。
操作提案の「テキスト」をクリックします。
上記の手順を繰り返して、必要なすべてのデータを抽出します。
必要に応じてフィールド名を変更するには、フィールド名をダブルクリックします。
5. スクレイピング速度を遅くするために待機時間を設定
Yellowpagesでは過剰なスクレイピングを行うとIPがブロックされる可能性があるため、スクレイピング速度をコントロールする必要があります。
「データを収集1」を選択します。
詳細設定の「実行前に数秒を待機」を設定します。
待機時間を5秒から10秒に設定します。
6. データ抽出を実行 - タスクを実行してデータを取得
「保存」をクリックします。
左上の「実行」をクリックします。
「ローカル収集」セクションの下で「通常モード」を選択してタスクをコンピューターで実行するか、「クラウド収集」でタスクを実行する(プレミアムユーザーのみ)ことを選びます。
こちらがサンプルの出力: