こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください
。
Bloombergは、世界最大の金融ウェブサイトの一つで、ビジネスや市場に関するニュース、データ、分析、ビデオを提供しています。ビジネスウィークやブルームバーグニュースのストーリーも掲載されています。このウェブサイトからは、市場、テクノロジー、政治、さらには富に関するニュースを取得できます。今回は、BloombergからCovidに関するニュースをスクレイピングし、画像URL、ニュースタイトル、著者、ニュースの要約などのデータをOctoparseを使用して取得します。
以下にケースのURLを提供いたします:
主な手順は右側のメニューに表示されています。
[こちらからタスクファイルをダウンロード]
1. 「Webページを開く」を作成 - 目標ページを開くため
ウェブスクレイピングを始めるには、まずウェブサイトのURLを入力する必要があります。
ホーム画面の中央にある検索ボックスにBloombergの検索URLを入力し、「スタート」をクリックして、新しいタスクを作成します。
注意:ロボット確認が表示された場合は、ブラウザモードで確認を完了し、その後の操作ではオフにしてください。
2. ウェブページを自動検出 - ワークフローを作成
このページでは、自動検出機能を使うことでデータを簡単に取得できます。
「ウェブページのデータを自動検出」をクリックし、終了まで待ちます。
「ワークフローを作成」をクリックして、ワークフローを生成します。
ワークフローは以下のように作成されます:
データプレビューでデータフィールドを確認し、不要なフィールドを削除するか、必要に応じて名前を変更してください。
3. ループアイテムのXPathを修正 - ニュースアイテムを正確に特定できるため
「ループアイテム1」をクリックして設定を開きます。
各ニュースセクションの一致するXPathを入力してください。これは次のようになります://div[contains(@class,'storyItem')]
「保存」をクリックします。
4. タスクを実行 - 目標データを収集
まず「保存」ボタンをクリックして、これまでの設定を保存します。
次に、「実行」ボタンをクリックして、タスクをローカルまたはクラウドで実行します。
ここでは「ローカル収集」を選択し、タスクをローカルデバイスで実行して完了を待ちます。
こちらがローカル収集からのサンプル出力です:
ヒント:ローカル収集は、短時間で少量のデータを処理するのに最適です。より複雑なタスクや大量のデータを扱う場合は、クラウドでの収集をおすすめします。こちらで14日間の無料トライアルに登録してプレミアム機能をお試しいただけます。タスクは毎時、毎日、または毎週スケジュール可能で、データを定期的に受け取ることができます。