こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
Googleに次いで2番目に人気のある検索エンジンであるYouTubeは、世界中の人々に多くの素晴らしい動画を提供しています。そして、その動画に関連するデータも貴重なものとなります。
このチュートリアルでは、Octoparseの自動検出機能を使用して、YouTubeの動画からコメントをわずか3つのステップでスクレイピングする方法を紹介します。
チュートリアルに従うために、以下のURLを使用することをおすすめします:
主な手順は右側のメニューに表示されており、サンプルのタスクファイルはこちらからダウンロードできます。
1. 「ウェブページを開く」を作成-対象のウェブサイトを開く
ホーム画面の検索バーに対象のURLを入力し、スタートをクリックします。
2. ウェブページのデータを自動検出 - ワークフローを作成する
操作提案パネルでウェブページのデータを自動検出をクリックし、検出が完了するのを待ちます。
ワークフローを生成をクリックします。
注意:YouTubeでは、コメントを読み込むためにページをスクロールダウンします。そのため、すべてのデータを読み込んで抽出するようには、「ページをスクロール」アクションに適切な実行間隔時間を設定する必要があります。
ワークフローで「ページをスクロール」をクリックします。
実行間隔を設定します:2〜3秒がおすすめです。
保存をクリックします。
ページのスクロールダウンについて詳しくはこちらをご覧ください。
データプレビューでデータフィールドを確認し、不要なフィールドを削除したり、必要に応じて名前を変更します。
ほかのオプションと削除をクリックして直接不要なデータフィールドを削除します。
ヘッダーをダブルクリックしてデータフィールドの名前を変更します。
3. タスクを実行 - 目標のデータを取得する
右上の保存をクリックしてタスクを保存します。
その横にある実行をクリックし、タスク実行のウィンドウが表示されるのを待ちます。
ローカル抽出を選択して、タスクをローカルデバイス上で実行します。
タスクが完了するのを待ちます。
以下は、ローカル実行のサンプル出力です。