インターフェース
Octoparseのインターフェイスは二つのセクションに分かれています。ホームとサイドバーメニューです。
ホーム画面
ホーム画面の上部(下図①)には検索バーがあり、データ取得を開始したい対象ウェブページのURLを入力することができます。
また、「Amazon」や「eBay」などのテンプレート名を入力して、事前に用意された公開スクレイピングテンプレートを検索することも可能です。
ホーム画面の下部(下図②)には人気のスクレイピングテンプレートが表示され、右側(下図③)には人気のチュートリアルが掲載されており、そこから直接アクセス・閲覧が可能です。
さらに、画面の右下(下図④)にはサポートボタンがあり、クリックすることでチュートリアルを検索したり、Octoparseサポートチームのメンバーと素早くチャットを開始したりして、サポートを受けることもできます。
サイドバーメニュー
左側のサイドバーメニューには、Octoparse内を操作するための全ての機能が含まれています。
新規作成:新しいタスクの作成やインポート、タスクグループを作成できます。
タスクリスト:作成した全てのスクレイピングタスクを確認できる場所です。タスクの編集、削除、名前変更、整理のほか、実行、停止、スケジュール設定も簡単に行えます。
テンプレート:利用可能な全てのテンプレートを確認できます。
サイドバーの各種ツール
新規作成
ダッシュボード
すべてのスクレイピングタスクを管理する場所
タスクの整理:削除、名前変更、移動
タスク起動、停止、スケジュール
コア機能
テンプレートタスク
テンプレート名(twitter、マップなど)を入力し、用意された百種類のテンプレートを検索できます。
選択するだけで、URL、キーワードなどのパラメーターを入力してから、データ取得を始めます。
カスタマイズタスク
テンプレートと異なり、カスタマイズモードは非常に柔軟で強力なスクレイピングモードであり、ニーズに合わせて自由にカスタマイズできます。AJAXが使われている複雑なWebページにも対応できます。
自動識別機能で、リストの抽出、次のページへの移動、さらに詳細ページに飛んでからのデータ取得などのステップを自動的に追加することができます。
クラウド抽出
Octoparseは、プレミアムユーザー(スタンダードプラン以上)が24時間タスクを実行できる強力なクラウドプラットフォームを提供します。「クラウド抽出」でタスクを実行すると、IPを使用して複数のサーバーでクラウドで実行されます。タスクの実行中にアプリまたはコンピューターをシャットダウンできます。ハードウェアの制限について心配する必要はありません。
抽出されたデータはクラウドに保存され、いつでもアクセスできます。自動IPローテーション、タスクスケジューリング、抽出の高速化、Octoparse APIなどの高度な機能は、すべてOctoparse クラウドサービスの一部です。
次へ
レッスン1:自動識別機能でデータを抽出する