こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
Google詳細検索は、より詳細な方法で情報を探す手段です。これは、特定の文字やコマンドで構成された「検索演算子」(通称「高度な演算子」 )を使って、通常のGoogle検索を超えた検索を行うことができます。これらの演算子を利用することで、検索結果を絞り込んだり、特定の用語を除外したり、特定のウェブサイトやファイル形式、日付やフレーズに絞って検索を行うことが可能になり、より正確で関連性の高い情報を得るために非常に便利です。
以下の画像に例が示されています:
ウェブページの下部にある「詳細検索」ボタンをクリックすると、検索結果ページに移動します:
このチュートリアルでは、上記のURLを使用してOctoparseでGoogle詳細検索の結果からデータをスクレイピングする方法を説明します。
また、Octoparseのメイン画面の「テンプレートギャラリー」に移動し、Google 詳細検索用の使い方が準備された「Googleアドバンストサーチ」を直接使用することで、時間を節約することもできます。テンプレートタスクの詳細については、こちらをご覧ください。
主な手順は、右側のメニューに示されています。[こちらからタスクファイルをダウンロード]
1.「ウェブページへ移動」を作成-ターゲットウェブサイトを開くため
ホーム画面の検索ボックスにターゲットURLを入力し、「スタート」をクリックします。
2.「スクロール」および「ページネーション」を設定して、より多くのデータを読み込むようにします
「Webページへ移動」をクリックします。
「詳細設定」に移動します。
「スクロールダウン」をクリックします。
スクロールを6回設定します。
「保存」をクリックします。
ウェブページの一番下の「次へ」をクリックします。
操作提案の「ループクリック」を選択します。
3.ループアイテムを作る-データを特定するため
ページネーションループ内の「+」アイコンをクリックし、「ループアイテム」を選択します。
ループアイテムをクリックし、ループモードを「可変リスト」に転換します。
要素のXPathに //div[@lang="en"] を入力します。
「保存」をクリックします。
4.データ抽出を作成-検索結果を抽出するため
ウェブページ上の最初の項目のタイトルをクリックします。
操作提案の「テキスト」を選択します。
他のデータフィールドを抽出するために、上記の2つのステップを繰り返します。
データフィールドの横にある「ほかのオプション」ボタンをクリックし、「要素のXPathを設定」を選択します。
データフィールドのXPathを以下のように修正します:
タイトル: //h3
コンテンツ: //div[@style="-webkit-line-clamp:2"]/span[2]
5.データが完全に読み込まれるように、アクション前の待機時間を設定
「実行前に数秒待を機能」は、ワークフロー内の各アクションに設定できる機能で、アクションが実行される前にタスクを一時的に停止させることができます。
この場合、ループアイテムやデータ抽出に対して、アクション前の待機を追加することで、データが確実に読み込まれるようにするのが良いでしょう。
それぞれのステップをクリックして > 「詳細設定」を選択します。
「実行前に数秒待を機能」を3秒に設定します。
保存をクリックします。
6.タスクを実行-希望のデータを抽出ため
右上にある「保存」をクリックしてタスクを保存します。
次に「実行」をクリックし、タスク実行画面が表示されるのを待ちます。
「ローカル収集」を選択して、ローカルデバイスでタスクを実行します。
タスクが完了するまでお待ちください。
こちらがローカル実行からのサンプル出力です。
ヒント: ローカル実行は、タスクのトラブルシューティングや簡単な実行に最適です。もし、より複雑なタスクに取り組んでいる場合は、「クラウド収集」を選択し、Octoparseのクラウドベースプラットフォームでタスクを実行することをお勧めします。クラウド実行では高速での処理が可能です。14日間の無料トライアルにサインアップして、このプレミアム機能をお試しください。
さらに、タスクの実行を毎時、毎日、毎週などでスケジュール設定し、定期的にデータを受け取ることも可能です