メインコンテンツにスキップ

Google Scholarの検索結果をスクレイピング

12か月以上前に更新

こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください

Google Scholarは、学術文献を幅広く検索できるシンプルな方法を提供しています。無料で利用できるウェブ検索エンジンとして、学術関連データをスクレイピングするのに最適なサイトです。

このチュートリアルでは、Octoparseを使用してGoogle Scholarの検索結果をスクレイピングする方法をご紹介します。

クローラーをご自分で構築する前に、事前に作成されたGoogle Scholarのテンプレートを確認することをお勧めします。キーワードを入力するだけで、数分でデータを抽出できます!

テンプレートがご希望に合わない場合や、クローラーをゼロから作成したい場合は、引き続きチュートリアルをご覧ください。以下はサンプルURLです: https://scholar.google.com/ncr

複数のキーワードで検索を行い、検索結果ページから各論文のタイトル、著者、および説明情報をスクレイピングします。

主な手順は右側のメニューに表示されています。[タスクファイルをこちらからダウンロード]


1. 「Webページを開く」を作成 - 目標ページを開くため

Octoparseのすべてのワークフローは、最初にどのウェブページから始めるかを指定することから始まります。

  • サンプルURLをホーム画面の検索ボックスに入力し、「スタート」をクリックします。

ワークフローに「Webページを開く」アクションが生成されているか確認してください。複数のURLがある場合は、OctoparseがURLのリストをどのように処理するかについては、こちらの記事をご覧ください。

これで、目標のウェブページに入ります。


2. ループアイテムを作成 - 複数のキーワードを入力するため

Google Scholarで複数のキーワードを検索する場合、キーワードリストのためにループ検索アクションを作成する必要があります。

  • 検索ボックスをクリックします。

  • 操作提案の「テキストを入力する」を選択します。

  • 一括入力」を選択します。

  • 検索したいリストを入力します(1行に1つのキーワード)。

  • はい」をクリックし設定を保存します。

ループアイテムをクリックし、ワークフロー内の「組み合わせテキストを入力」を選択することで、手順が正しく設定されているか確認できます。この操作により、テキストが検索ボックスに入力されます。

  • ページ内のGoogle Scholar検索ボタンをクリックします。

  • 操作提案の「選択した要素をクリックする」をクリックし、ワークフローに「アイテムをクリック」アクションが追加されるのがわかります。

  • アイテムをクリック」の詳細設定を開いて、AJAXタイムアウトを延長します。

これで、Octoparseはリスト内の各検索語を検索ボックスに自動的に入力し、検索アイコンをクリックします。


3. 検索結果ページを自動検出してデータをスクレイピング

  • ウェブページのデータを自動検出」をクリックし、終了まで待ちます。

  • ページネーションを設定する」オプションをチェックして、Octoparseが正しい次のページボタンを検出しているか確認できます。

  • スクロールダウンを設定する」のチェックを外します。このウェブページはスクロールして読み込む必要がありません。

  • ワークフローを生成」をクリックします。

これで、Octoparseは各検索結果ページに移動し、ご希望のデータを収集します。

さらに、データプレビューセクションに移動して、キャプチャされたデータフィールドの名前を変更したり、削除したりすることができます。

  • 不要なデータフィールドは、「ほかのオプション」をクリックして直接削除できます。

  • ヘッダーをダブルクリックして、データフィールドの名前が変更できます。


4. アクション前の待機時間を設定 - スクレイピングの速度を遅くさせる

このステップは必須です。Google Scholarはスクレイピング対策を講じており、スクレイピングが速すぎるとreCAPTCHAテストを通過するよう求められることがあります。

  • データを収集」をクリックします。

  • 詳細設定の「実行前に数秒を待機」を3秒設定します。

  • 保存」をクリックします。

これで、Octoparseは、データ収集アクションを実行するたびに3秒間待機します。


5. タスクを実行 - 目標データを収集

  • 右上の「保存」をクリックしてタスクを保存します。

  • その隣の「実行」をクリックし、実行タスクのウィンドウが表示されるのを待ちます。

  • ローカル収集」セクションの下にある「通常モード」を選択して、ローカルデバイスでタスクを実行します。

  • タスクの実行が終了まで待ちます。

こちらがローカル実行からのサンプル出力です。

ヒントローカル実行はタスクのトラブルシューティングや迅速な実行に最適です。より複雑なタスクに取り組む場合は、Octoparseのクラウドプラットフォームでタスクを高速で実行するために「クラウドで実行」を選択することをお勧めします。このプレミアム機能は、こちらから14日間の無料トライアルにサインアップしてお試しいただけます。また、タスクを毎時、毎日、または毎週実行するようにスケジュール設定し、定期的にデータを受け取ることも可能です。

こちらの回答で解決しましたか?