データサイエンスは、人口に膾炙した言葉ですが、定義がよくわかりません。使う人によってかなり幅が広いと思います。さまざまな定義を拾い集めてみました。
『Rによるデータサイエンス入門』
データサイエンスの定番の教科書、金明哲『Rによるデータサイエンス入門第2版』では、以下のように定義しています。
データサイエンスは、データの収集、加工、蓄積、流通、解析などの総称…
ただし、これは広義のデータサイエンスの定義で、同書では、データマイニングを取り上げ、それが狭義のデータサイエンスだと述べています。
データサイエンティスト協会の定義
データサイエンス検定を実施している、データサイエンスティスト協会の定義は、以下のものです。
データサイエンティストとは、データサイエンス力、データエンジニアリング力を
ベースにデータから価値を創出し、ビジネス課題に答えを出すプロフェッショナル
また、それぞれの力に関しては以下のように定義しています。
ここでいう「ビジネス」とは、社会に役に立つ意味のある活動全般を指します。また、
「プロフェッショナル」とは、体系的にトレーニングされた専門性を持つスキルを持ち、
それをベースに顧客(お客様、クライアント)にコミットした価値を提供し、その結果
に対して認識された価値の対価として報酬を得る人を示します
以下の図がわかりやすいです。データサイエンティストには、データサイエンス力に加え、ビジネス力やデータエンジニアリング力が必要だということです。
滋賀大学データサイエンス学部
滋賀大学データサイエンス学部では、学部紹介に最初に、「データサイエンスとは?」という項目を設けています。
データサイエンスとは、社会に溢れているデータから《価値》を引き出す学問です。
かなり幅広い分野を含む定義になっています。
東京大学データサイエンススクール
東京大学エクステンションの中に、東京大学データサイエンススクールがあり、一般の人も受講できます。データサイエンスとは?に明確に答える記述はないですが、以下の記述があります。
東大データサイエンススクールでは、AIやデータの活用を本格的に担える人材の育成を目的として、さまざまなデータ活用講座を開設しています。
この記述によると、AIやデータの活用に関する学問ということになります。
まとめ
最近では、コンピューターの普及に伴って、テキストマイニングや機械学習といった手法が普及し、これらの手法を狭義のデータサイエンスと呼ぶことが多いです。
統計学とデータサイエンスの違いは微妙ですが、ビッグデータなど多量のデータをコンピューターを使って、分析可能にするのがデータサイエンスだと考えられます。その分析の基礎には統計学があります。データサイエンスについては、学問分野はあまり意識されないように思えます。以下のような図式が考えられます。
統計学+プログラミング=データサイエンス