こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
報告されている211百万人以上のアクティブユーザーを持つTwitterは、ソーシャルメディアマーケティングでその価値を証明しています。Twitterのユーザーは平均して秒間6000件のツイートを投稿し、1日に5億件以上のツイートが投稿されています。これらのツイートにはテキスト、動画、写真、またはリンクが含まれることがあり、ユーザーはツイートに対して返信を送ることでお互いとやり取りすることができます。
このチュートリアルでは、Twitter上のツイートの返信をスクレイピングする方法を紹介します。
チュートリアルに沿って進める場合は、以下のURLを使用することをお勧めします:
主な手順は右側のメニューに表示されており、サンプルのタスクファイルはこちらからダウンロードできます。
1. ウェブページを開くアクションを作成 - ターゲットのウェブサイトを開く
ホーム画面の検索バーにターゲットのURLを入力し、「スタート」をクリックします。
2. Twitterにログイン - 返信を読み込む
ブラウズモードをオンにし、通常のブラウザと同様にTwitterにログインします。
[ウェブページを開く]アクションをクリックして、詳細設定パネルを開きます(右下にあります)。
詳細設定タブをクリックし、特定のCookieを使用にチェックを入れます。
該当ページのCookieを使用をクリックします。
設定を保存するために保存をクリックします。
ブラウズモードをオフにします。
3. ウェブページのデータを自動検出 - ワークフローを作成する
Octoparseの自動検出機能を使用すると、ターゲットのウェブサイトのデザインに基づいて簡単にワークフローを作成できます。
操作提案の中の「ウェブページのデータを自動検出」をクリックし、検出が完了するのを待ちます。
「ワークフローを生成」をクリックします。
4. ページのスクロールダウンの設定を変更 - ページをスクロールダウンしてデータを完全に読み込む
ページをスクロールをクリックします。
実行間隔を設定します:2-3秒が推奨です。
変更を保存するために保存をクリックします。
5. ループのXPathを変更 - データフィールドをより正確に特定する
ワークフロー内のループアイテムをクリックします。
要素のXPathに次のように入力します://section[@aria-labelledby="accessible-list-0"]/div/div/div[position()>1]//article
変更を保存するために保存をクリックします。
データプレビューでデータフィールドを確認し、ほかのオプションをクリックして削除を選択し不要なフィールドを削除します。
6. テキストを抽出 - 抽出したいデータを選択する
ご希望の要素をクリックします。
操作提案パネルでテキストを選択します。
データを選択した後、必要に応じてデータプレビューセクションに移動し、データフィールドの名前を変更することができます。
7. タスクを実行 - 目的のデータを取得する
以下は、ローカル実行からのサンプル出力です:
ご注意:ローカル実行はタスクのトラブルシューティングや簡単なタスク実行に最適です。より複雑なタスクに取り組む場合は、Octoparseのクラウドベースのプラットフォームでより高速にタスクを実行するように、クラウド抽出を選択することをおすすめします。こちらの14日間の無料トライアルにサインアップして、このプレミアム機能を試してみてください。また、タスクを一回のみ、毎週、または毎月のスケジュールに設定し、定期的にデータを取得こともできます。














