Webサイトから特定のデータを抽出する技術であるスクレイピング。
効率が良い情報収集手段として、活用されることも多いです。
しかし他社のサイトから情報を抜き取る行為から、「スクレイピングは違法ではないの?」と懸念されている方もいらっしゃるかと思います。
そこでこの記事では、スクレイピングの違法性や正しい活用方法について解説します。
スクレイピングによるリスクを負わないために、ぜひご覧ください。
▼この記事でわかること
- スクレイピングが違法なのかわかります
- 法律違反にあたるスクレイピング方法や法的根拠を把握できます
- 違法性のないスクレイピング活用方法がわかります
▼こんな方におすすめ
- 競合他社のWebサイトからスクレイピングをしたい方
- スクレイピングをしたいが違法なのか不安な方
- 違法ではないスクレイピングの活用方法が知りたい方
スクレイピングとは?違法なの?
スクレイピングとは、Webサイトの情報を自動収集し、特定のデータを抽出・使いやすいよう加工して新たな情報へと再生成する技術です。
Webスクレイピングとも呼ばれ、余分な情報を削り落とす特徴から「scraping(削る)」が語源となっています。
スクレイピングと似ている技術に、「クローリング」があります。
クローリングもWeb上の情報を自動で収集しますが、データの抽出・加工は行いません。
スクレイピングを活用すれば、Web上のデータの収集・加工作業の効率化が可能です。
しかし、「勝手に第三者のデータを集めてもいいの?」と疑問に思う方もいるかもしれません。
そこで次は、スクレイピングの違法性や活用方法から見ていきましょう。
スクレイピングそのものに違法性はない
結論から伝えると、スクレイピング自体に違法性はありません。
スクレイピングは情報収集におけるひとつの手段でしかなく、民間企業だけでなく政府も活用している技術です。
実際に総務省でも令和元年の「消費者物価指数(CPI)」の調査のため、Webスクレイピングの活用を公表(※1)しています。
ただし、違法にあたる使用方法もありますので、詳しくは後述します。
※1:出典:総務省「消費者物価指数(CPI) へのウェブスクレイピングの活用について」
スクレイピングの活用例
スクレイピングの活用方法として、以下の例が挙げられます。
|
このように、スクレイピングの活用事例は多数あり、民間企業に多く見られるのが「データベースへの活用」です。
しかし上記の例と同じ活用方法でも、スクレイピングの使い方を誤って問題となった事例も存在します。
スクレイピングが問題となった事例
実際にスクレイピングが問題となった事例として、「岡崎市中央図書館事件」と「LinkedInの訴訟」についてご紹介します。
どのような問題点があったのか、参考にしてみてください。
岡崎市中央図書館事件(Librahack事件)
2010年3月、愛知県岡崎市中央図書館の蔵書システムにアクセス障害が発生しました。
原因は、利用者による蔵書システムへのスクレイピングです。
スクレイピングによって蔵書システムに負荷がかかり、アクセス障害が起きたと判断されています。
スクレイピングをした利用者は「偽計業務妨害罪」の容疑で逮捕され、後に起訴猶予処分となりました。
スクレイピング自体に違法性はないものの、対象に過剰な負荷をかける使い方をしていたことが問題となった例です。
LinkedInの訴訟
アメリカのビジネス向けSNS「LinkedIn」は、ライバル会社であるhiQ Labsによるスクレイピング行為の禁止を求める訴訟を起こしました。
「LinkedInに登録された公開プロフィール情報を集めるのは違法」と訴えましたが、2019年に敗訴しています。
ところが2021年に一転して、米最高裁はLinkedInの訴訟を再審問するよう指示を出しました。
2022年現在でも訴訟は決着しておらず、アメリカにおけるスクレイピングのあり方は結論が出ていない状況です。
法律違反にあたるスクレイピングの方法
スクレイピング自体に違法性はありませんが、やり方によっては問題になってしまうケースもあります。
スクレイピングが法律違反にあたるリスクがあるのは、下記4つの使用方法です。
|
それぞれ、具体的に解説します。
著作権を侵害している
スクレイピングは、著作権を侵害するリスクがあります。
そもそも著作物とは、著作権法にて「思想・感情を創作的に表現したもの」と定められています。
スクレイピングの収集対象であるWebデータは、第三者の著作物であるケースも多くあります。
第三者の著作物の使用やコピーは原則として違法となり、もし使用する場合は著作権者の同意が必要になります。
とはいえ、スクレイピングが収集するデータは膨大で、全データの著作権者に同意を得て回るのは非現実的です。
そのため、著作権法は次のように違法にならない例を定義しています。
違法にならない例
スクレイピングに関連する例外は、以下の通りです。
|
スクレイピングは、上記の範疇で使用する分には著作権法違反にはあたりません。
一方で、違反にあたる利用方法も定義されています。
違法になる可能性がある例
情報解析や情報解析のための利用は認められていますが、次の行為は違反になる可能性があります。
|
スクレイピングによって取得した情報を、そのまま第三者に譲渡してはいけません。
取得した情報をもとにして、オリジナリティある新たな情報を作る過程が必要です。
そのため、「情報解析」以外を目的とするスクレイピングも違法となります。
スクレイピング禁止の利用規約に同意している
続いて違法となるのは、スクレイピング禁止の利用規約に同意しているケースです。
「利用規約に同意した」と言えるのは、以下の条件を満たしている場合です。
|
会員登録制のWebサイトやアプリは、スクレイピング禁止の利用規約を設けている場合があります。
こうした利用規約に同意した上でスクレイピングをすると、利用規約違反になります。
規約違反が発覚すれば、民事上の不法行為・債務不履行の責任を負い、事業者からの損害賠償請求や差止請求に発展するかもしれません。
ただし、会員登録をせず誰でも閲覧できるWebサイトであれば、利用規約違反のリスクは原則生じません。
サーバへ過剰な負荷をかけている
スクレイピングによってサーバに過剰な負荷をかけた場合、法律違反となる恐れがあります。
2022年現在、Webサイトへの過剰なアクセスそのものを禁じる法律はありません。
しかし過剰なサーバ負荷により、先述の「岡崎市中央図書館事件」のスクレイピング実行者は、偽計業務妨害罪の容疑で逮捕されてしまいました。
この事件は最終的に起訴猶予処分になりましたが、過剰なアクセスによってアクセス障害などの実害を与えてしまうと、「偽計業務妨害罪」や「電子計算機損壊等業務妨害罪」に該当するリスクがあるということです。
とはいえ、スクレイピングによって「偽計業務妨害罪」が成立する明確な線引きはなく、「1秒間に何回までアクセスしても良い」といった規定もありません。
スクレイピングをする際は、対象のサーバに過剰な負荷を与えないよう配慮が必要です。
同意なく個人情報を取得・公開・売買している
本人の同意なく個人情報を取得・公開・売買する行為は、個人情報保護法違反になる可能性があります。
個人情報を取得した際は、すみやかに本人へ利用目的を通知または公表しなくてはいけません。
スクレイピングで取得した個人情報について、1人ひとりに通達するのは難しいでしょう。
そのためプライバシーポリシー等で、スクレイピングで取得した個人情報の利用目的をあらかじめ公表するなどの準備が必要です。
また取得した個人情報の公開・売買は「第三者提供」にあたる可能性があり、その場合には、原則事前の本人の同意が必要です。
さらに、人種や病歴、犯罪歴などの「要配慮個人情報」の取り扱いには、特段の注意が求められます。
要配慮個人情報は、原則として本人の同意なく取得してはいけないため、スクレイピングの対象に含めないよう気をつけましょう。
違法性なくスクレイピングをするための注意点
偽計業務妨害罪や著作権法違反にあたるリスクを回避し、違法性なくスクレイピングを行うためには、下記2点に注意しましょう。
|
詳しく説明します。
合法的な範疇のみで利用する
スクレイピングは、以下のように合法的な範疇のみで利用しましょう。
|
上記の項目に注意すれば、スクレイピングが違法となるリスクを下げられます。
スクレイピングを適切に活用するためには、法令遵守の意識が重要です。
Webサービスの利用規約を確認し従う
スクレイピングをする前に、対象のWebサービスの利用規約をチェックし、同意した利用規約に従うことが大切です。
また、Webサイトの中には、アクセス制限を示す「robots.txt」ファイルを設置しているサイトがあります。
「robots.txt」ファイルとは、クロールを許可・禁止するページの指定や、スクレイピングの間隔などの制限を記した指示書です。
「robots.txt」ファイルの指示に従わないと、アクセスをブロックされてしまうかもしれません。
利用規約のみならず、「robots.txt」ファイルの記述内容も必ず確認し遵守しましょう。
まとめ
スクレイピングは技術そのものに違法性はなく、ツールを活用すれば誰でも実行できます。
しかし、使用方法を間違えると、著作権法や個人情報保護法に抵触する恐れがある技術です。
スクレイピングを活用する際は、合法的な使用方法の事前確認が必須と言えます。
効率良く情報収集して新たなサービスを構築したいのであれば、正しい方法でスクレイピングを行いましょう。