メインコンテンツにスキップ

Twitter・Xのアカウントのフォロワー/フォロー中の一覧をスクレイピングする

10か月以上前に更新

こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。

報告されている2億1,100万人以上のアクティブユーザーを持つTwitter(X)は、ソーシャルメディアマーケティングにおいてその価値を証明しています。Twitterのユーザーは平均して秒間6,000件のツイートを投稿し、1日に5億件以上のツイートが行われています。これらの言論や意見は、マーケターやブランド、研究者、アナリストにとって貴重な情報の宝庫です。マーケターやブランドは、エンゲージメントを分析し、効果的な戦略を計画するために、しばしば特定のアカウント(インフルエンサーや競合他社)からTwitterデータをスクレイピングします。

この記事では、公開のアカウントからフォロワー/フォロー中の一覧をスクレイピングする方法についてご説明します。

任天堂株式会社のフォロワー/フォロー中の一覧をスクレイピングします。以下の2つのサンプルURLをご覧ください。

注意:ワークフローは非常に似ていますが、異なるXPathを使用して2つのリストをスクレイピングするように、2つの別々のタスクを作成する必要があります。


1. Webページを開くアクションを作成 - 対象のWebページを開く

Octoparse のすべてのワークフローは、Octoparse にWeb ページを開くように指示することから始まります。

今回は「https://twitter.com/Nintendo/followers」だけを例に、ワークフロー作成手順をご紹介します。

  • ホーム画面の上部の検索バーに、フォロワーのURLリンクを入力し、スタートをクリックします。


2. ブラウザモードでTwitterに自動ログインを設定する

Twitter・Xは、最初にログインしない限り、直接フォロワー/フォロー中一覧にアクセスすることを禁止しています。

自動ログインの設定方法に関しては、以下のリンクをクリックしてご確認いただけます。

自動ログイン後、下図のように右上の「自動ログイン」のマークが青い状態になる。

これで、タスクのワークフローにログイン情報が正常に保存されましたので、タスクを実行する際に自動にTwitterアカウントにログインできるようになります。


3. データ抽出のステップを作成 - ページの見出しから公開アカウントの基本情報をスクレイピングする

  • 表示名(例:任天堂株式会社)をクリックし、操作提案パネルで「テキスト」を選択します。

  • 同じステップを繰り返して、ユーザー名を取得します。

  • さらにフィールドを追加のマークをクリックし、該当ページの情報を追加からURLを選択してプロフィールのURLを取得します。

  • 全体的な操作流れを以下の画像でもう一度示します:

ヒント:Twitterは見出しエリアのXPathが時に変更となる場合があります。データプレビューセクションに正しい情報が表示されない場合は、XPathを再作成する必要があります。

表示名のXPathは//h2[@dir="ltr" and @aria-level="2"]/spanです。

ユーザー名のXPathは//h2[@dir="ltr" and @aria-level="2"]/following-sibling::div/spanです。


4. ウェブページのデータを自動検出し、ワークフローを作成する

Twitterの無限スクロールパターンは、コンテンツを動的に読み込むように設計されています。Octoparseの自動検出機能を使用すると、このようなページを簡単に特定し、ワークフローを迅速に作成することができます。

  • Tipsの[ウェブページのデータを自動検出]をクリックし、検出が完了するのを待ちます。

  • データプレビューでデータフィールドを確認し、不要なフィールドを削除します。それから、「スクロールダウンを設定する」にチェックして、「ワークフローを生成」をクリックします。

  • そうしたら、以下のように作成されたワークフローが表示されます:

  • 必要に応じて、フィールド名をダブルクリックして名前を変更します


5. 抽出されたデータに新しいフィールドを追加する

自動検出では自己紹介の情報をスクレイピングできませんでした。

  • 自己紹介の情報をクリックし(①)、操作提案パネルでテキスト(②)を選択します。​


6. スクロール設定を変更し、ページをスクロールさせてさらにフォロワーのデータを読み込む

  • 「スクロール」ステップをクリックして設定を開きます。

  • スクロールパターンを「1画面ずつスクロール」にチェックし、ループ回数を600回(またはそれ以上)に設定します。

  • リストのコンテンツを完全に読み込むために、実行間隔を3秒に設定します(重要です!)。

  • データの損失を最小限に抑えるために、「スクロール時にループアイテムにある重複件を自動的に削除しません」にチェックを入れます。

  • 設定を保存するために「保存」をクリックします。


7. タスクを実行し、 必要なデータを取得する

  • 右上の保存をクリックしてタスクを保存します。

  • その横にある実行をクリックし、タスク実行のウィンドウが表示されます。

  • ローカル抽出を選択して、タスクをローカルデバイスで実行します。

  • タスクが完了するまで待ちます。


以下は、ローカル実行のサンプル出力です。

ご注意:ローカル実行はタスクのトラブルシューティングや簡単なタスクの実行に最適です。より複雑なタスクに取り組む場合や、Octoparseのクラウドプラットフォームで高速にタスクを実行したい場合は、クラウド収集を選択してください。また、Twitter・X関連のパブリックテンプレートもご利用いただけます。

こちらの14日間の無料トライアルにサインアップして、このプレミアム機能を試してみてください。また、タスクを一回のみ、毎週、または毎月のスケジュールに設定し、定期的にデータを取得こともできます。

こちらの回答で解決しましたか?