こちらは最新バージョンのOctoparse向けのチュートリアルガイドです。お使いのOctoparseが古いバージョンの場合は、最新バージョンへのアップグレードを強くおすすめします。最新バージョンは高速で、より使いやすく、強力になりました。まだアップグレードしていない場合は、こちらからダウンロードとアップグレードを行ってください。
ウェブスクレイピングやクローリング自体は、競合データのマイニング、オンライン詐欺、アカウント乗っ取り、データの盗難、知的財産の窃盗などの悪意のある活動に使用されない限り、違法ではありません。
ウェブスクレイピングの定義は、自動的にウェブページのデータをダウンロードし、そこから非常に具体的な情報を抽出する行為です。抽出された情報は、ほぼどこにでも保存できます(データベース、ファイルなど)。ウェブクローリングは、自動的にウェブページのデータをダウンロードし、それが含むハイパーリンクを抽出してそれらをたどる行為です。ダウンロードされたデータは一般的にインデックスやデータベースに保存され、簡単に検索可能になります。すべての結果は理論的にはウェブブラウザから直接データを取得することでも達成できますが、ウェブスクレイピングやクローリングは、そのデータを手動で収集する手間を軽減するツールのようなものです。
このトピックについて詳しくは、以下の記事をご覧ください。
Reddit, Lobsters, Web Scraping and Crawling Are Perfectly Legal, Right?