こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください
。
暗号通貨とは、中央機関に依存せず、コンピュータネットワーク上で取引の手段として機能するように設計されたデジタル通貨です。
このチュートリアルでは、暗号通貨プレイヤーが市場を監視するためのプラットフォームであるCoinGeckoから暗号通貨の価格をスクレイピングする方法をお教えします。
チュートリアルを進めるために、以下のURLをご利用ください:
主な手順は右側のメニューに表示されています。
[こちらからタスクファイルをダウンロード]
1. 「Webページを開く」を作成 - 目標ページを開くため
ホーム画面の検索ボックスにターゲットURLを入力し、「スタート」をクリックします。
2. ウェブページを自動検出 - ワークフローを作成
Octoparseの自動検出機能を使うと、ターゲットウェブサイトのデザインに基づいて迅速にワークフローを作成できます。
「ウェブページのデータを自動検出」をクリックし、終了まで待ちます。
ヒント:Octoparseがウェブページ上のデータを検出する際、ページ全体をスキャンし、機械学習アルゴリズムを使用して1つ以上のデータセットを取得します。最初の試行でターゲットデータが検出されない場合は、「検出結果を切り替える」をクリックして、別のデータセットに切り替えることができます。
「スクロールダウンを設定する」をオフにします。
「ワークフローを生成」をクリックします。
以下のようなワークフローが作成されます:
データプレビューでデータフィールドを確認し、不要なフィールドを削除するか、必要に応じて名前を変更します。
3. ページネーションのXPathを修正 - 無限スクレイピングを防ぐため
自動生成されたページネーションのXPathを修正する必要があります。そうしないと、Octoparseが最後のページで「次へ」ボタンをクリックし続け、スクレイピングが停止できなくなります。
「ページネーション」をクリックして「基本設定」を開きます
XPathを次のように入力します: //a[@aria-label="next"and not (@href='#')]
「保存」をクリックします。
4. タスクを実行 - 目標データを収集
右上の「保存」をクリックしてタスクを保存します。
次に「実行」をクリックし、タスク実行ウィンドウが表示されるのを待ちます。
「ローカル収集」を選択して、ローカルデバイスでタスクを実行します。
タスクが完了するのを待ちます。
こちらがローカル収集からのサンプル出力です: