こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください
。
Google Scholarは、学術文献を幅広く検索できるシンプルな方法を提供しています。無料で利用できるウェブ検索エンジンとして、学術関連データをスクレイピングするのに最適なサイトです。
このチュートリアルでは、Octoparseを使用してGoogle Scholarの検索結果をスクレイピングする方法をご紹介します。
クローラーをご自分で構築する前に、事前に作成されたGoogle Scholarのテンプレートを確認することをお勧めします。キーワードを入力するだけで、数分でデータを抽出できます!
テンプレートがご希望に合わない場合や、クローラーをゼロから作成したい場合は、引き続きチュートリアルをご覧ください。以下はサンプルURLです: https://scholar.google.com/ncr
複数のキーワードで検索を行い、検索結果ページから各論文のタイトル、著者、および説明情報をスクレイピングします。
主な手順は右側のメニューに表示されています。[タスクファイルをこちらからダウンロード]
1. 「Webページを開く」を作成 - 目標ページを開くため
Octoparseのすべてのワークフローは、最初にどのウェブページから始めるかを指定することから始まります。
サンプルURLをホーム画面の検索ボックスに入力し、「スタート」をクリックします。
ワークフローに「Webページを開く」アクションが生成されているか確認してください。複数のURLがある場合は、OctoparseがURLのリストをどのように処理するかについては、こちらの記事をご覧ください。
これで、目標のウェブページに入ります。
2. ループアイテムを作成 - 複数のキーワードを入力するため
Google Scholarで複数のキーワードを検索する場合、キーワードリストのためにループ検索アクションを作成する必要があります。
検索ボックスをクリックします。
操作提案の「テキストを入力する」を選択します。
「一括入力」を選択します。
検索したいリストを入力します(1行に1つのキーワード)。
「はい」をクリックし設定を保存します。
ループアイテムをクリックし、ワークフロー内の「組み合わせテキストを入力」を選択することで、手順が正しく設定されているか確認できます。この操作により、テキストが検索ボックスに入力されます。
ページ内のGoogle Scholar検索ボタンをクリックします。
操作提案の「選択した要素をクリックする」をクリックし、ワークフローに「アイテムをクリック」アクションが追加されるのがわかります。
「アイテムをクリック」の詳細設定を開いて、AJAXタイムアウトを延長します。
これで、Octoparseはリスト内の各検索語を検索ボックスに自動的に入力し、検索アイコンをクリックします。
3. 検索結果ページを自動検出してデータをスクレイピング
「ウェブページのデータを自動検出」をクリックし、終了まで待ちます。
「ページネーションを設定する」オプションをチェックして、Octoparseが正しい次のページボタンを検出しているか確認できます。
「スクロールダウンを設定する」のチェックを外します。このウェブページはスクロールして読み込む必要がありません。
「ワークフローを生成」をクリックします。
これで、Octoparseは各検索結果ページに移動し、ご希望のデータを収集します。
さらに、データプレビューセクションに移動して、キャプチャされたデータフィールドの名前を変更したり、削除したりすることができます。
4. アクション前の待機時間を設定 - スクレイピングの速度を遅くさせる
このステップは必須です。Google Scholarはスクレイピング対策を講じており、スクレイピングが速すぎるとreCAPTCHAテストを通過するよう求められることがあります。
「データを収集」をクリックします。
詳細設定の「実行前に数秒を待機」を3秒設定します。
「保存」をクリックします。
これで、Octoparseは、データ収集アクションを実行するたびに3秒間待機します。
5. タスクを実行 - 目標データを収集
右上の「保存」をクリックしてタスクを保存します。
その隣の「実行」をクリックし、実行タスクのウィンドウが表示されるのを待ちます。
「ローカル収集」セクションの下にある「通常モード」を選択して、ローカルデバイスでタスクを実行します。
タスクの実行が終了まで待ちます。
こちらがローカル実行からのサンプル出力です。
ヒント:ローカル実行はタスクのトラブルシューティングや迅速な実行に最適です。より複雑なタスクに取り組む場合は、Octoparseのクラウドプラットフォームでタスクを高速で実行するために「クラウドで実行」を選択することをお勧めします。このプレミアム機能は、こちらから14日間の無料トライアルにサインアップしてお試しいただけます。また、タスクを毎時、毎日、または毎週実行するようにスケジュール設定し、定期的にデータを受け取ることも可能です。