こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
報告されている2億1,100万人以上のアクティブユーザーを持つTwitter(X)は、ソーシャルメディアマーケティングにおいてその価値を証明しています。Twitterのユーザーは平均して秒間6,000件のツイートを投稿し、1日に5億件以上のツイートが行われています。これらの言論や意見は、マーケターやブランド、研究者、アナリストにとって貴重な情報の宝庫です。マーケターやブランドは、エンゲージメントを分析し、効果的な戦略を計画するために、しばしば特定のアカウント(インフルエンサーや競合他社)からTwitterデータをスクレイピングします。
この記事では、公開のアカウントからフォロワー/フォロー中の一覧をスクレイピングする方法についてご説明します。
任天堂株式会社のフォロワー/フォロー中の一覧をスクレイピングします。以下の2つのサンプルURLをご覧ください。
注意:ワークフローは非常に似ていますが、異なるXPathを使用して2つのリストをスクレイピングするように、2つの別々のタスクを作成する必要があります。
1. Webページを開くアクションを作成 - 対象のWebページを開く
Octoparse のすべてのワークフローは、Octoparse にWeb ページを開くように指示することから始まります。
今回は「https://twitter.com/Nintendo/followers」だけを例に、ワークフロー作成手順をご紹介します。
ホーム画面の上部の検索バーに、フォロワーのURLリンクを入力し、スタートをクリックします。
2. ブラウザモードでTwitterに自動ログインを設定する
Twitter・Xは、最初にログインしない限り、直接フォロワー/フォロー中一覧にアクセスすることを禁止しています。
自動ログインの設定方法に関しては、以下のリンクをクリックしてご確認いただけます。
自動ログイン後、下図のように右上の「自動ログイン」のマークが青い状態になる。
これで、タスクのワークフローにログイン情報が正常に保存されましたので、タスクを実行する際に自動にTwitterアカウントにログインできるようになります。
3. データ抽出のステップを作成 - ページの見出しから公開アカウントの基本情報をスクレイピングする
表示名(例:任天堂株式会社)をクリックし、操作提案パネルで「テキスト」を選択します。
同じステップを繰り返して、ユーザー名を取得します。
さらにフィールドを追加のマークをクリックし、該当ページの情報を追加からURLを選択してプロフィールのURLを取得します。
ヒント:Twitterは見出しエリアのXPathが時に変更となる場合があります。データプレビューセクションに正しい情報が表示されない場合は、XPathを再作成する必要があります。
表示名のXPathは//h2[@dir="ltr" and @aria-level="2"]/spanです。
ユーザー名のXPathは//h2[@dir="ltr" and @aria-level="2"]/following-sibling::div/spanです。
4. ウェブページのデータを自動検出し、ワークフローを作成する
Twitterの無限スクロールパターンは、コンテンツを動的に読み込むように設計されています。Octoparseの自動検出機能を使用すると、このようなページを簡単に特定し、ワークフローを迅速に作成することができます。
Tipsの[ウェブページのデータを自動検出]をクリックし、検出が完了するのを待ちます。
データプレビューでデータフィールドを確認し、不要なフィールドを削除します。それから、「スクロールダウンを設定する」にチェックして、「ワークフローを生成」をクリックします。
5. 抽出されたデータに新しいフィールドを追加する
自動検出では自己紹介の情報をスクレイピングできませんでした。
6. スクロール設定を変更し、ページをスクロールさせてさらにフォロワーのデータを読み込む
「スクロール」ステップをクリックして設定を開きます。
スクロールパターンを「1画面ずつスクロール」にチェックし、ループ回数を600回(またはそれ以上)に設定します。
リストのコンテンツを完全に読み込むために、実行間隔を3秒に設定します(重要です!)。
データの損失を最小限に抑えるために、「スクロール時にループアイテムにある重複件を自動的に削除しません」にチェックを入れます。
設定を保存するために「保存」をクリックします。
7. タスクを実行し、 必要なデータを取得する
右上の保存をクリックしてタスクを保存します。
その横にある実行をクリックし、タスク実行のウィンドウが表示されます。
ローカル抽出を選択して、タスクをローカルデバイスで実行します。
タスクが完了するまで待ちます。
以下は、ローカル実行のサンプル出力です。
ご注意:ローカル実行はタスクのトラブルシューティングや簡単なタスクの実行に最適です。より複雑なタスクに取り組む場合や、Octoparseのクラウドプラットフォームで高速にタスクを実行したい場合は、クラウド収集を選択してください。また、Twitter・X関連のパブリックテンプレートもご利用いただけます。
こちらの14日間の無料トライアルにサインアップして、このプレミアム機能を試してみてください。また、タスクを一回のみ、毎週、または毎月のスケジュールに設定し、定期的にデータを取得こともできます。