こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
Google Playには膨大な数のアプリケーション情報が格納されています。このチュートリアルでは、Google Playからアプリケーションの基本情報をスクレイピングする方法を紹介します。
Octoparseのホーム画面から簡単に使用できる「テンプレートタスク」があります。必要な作業はパラメータを入力するだけで、タスクはすぐに実行できます。詳細はこちらでご確認ください: テンプレートタスクとは?
チュートリアルに沿って作業する場合は、次のURLを使用してください:
Octoparseを使用して、詳細ページのURL、アプリ名、作成者名、評価などのデータをスクレイピングします。
主な手順は右側のメニューに表示されています。サンプルのタスクファイルはこちらからダウンロードできます。
1. ウェブページを開く - ターゲットのウェブページを開く
2. ウェブページのデータを自動検出 - ワークフローを作成する
ウェブページのデータを自動検出をクリックします。
検出が完了するのを待ちます。
スクロールダウンを設定するのチェックを外し、操作提案のワークフローを生成をクリックします。
データプレビューセクションのデータフィールドを確認し、不要なフィールドを削除したり、ヘッダーをダブルクリックしてフィールド名を変更できます。
3. データ抽出を開始 - タスクを実行してデータを取得する
最終的なワークフローは次のようになります:
保存をクリックします。
右上の実行をクリックします。
コンピューターでタスクを実行するにはローカル抽出を選択します。クラウドで実行するにはクラウド抽出(プレミアムユーザー限定)を選択します。
以下はサンプルの出力です。