データサイエンス

データは「21世紀の石油」と呼ばれています。これはICTの浸透、及び、今後進むIoTや5Gという技術革新によって、データの生成、蓄積が継続的に行われる状況を指しています。放っておいても価値を生まないデータを、より高価値なものに変換する、即ち、20世紀において石油エネルギーというものを元にして産業と暮らしが変わったように、21世紀においてはデータというものが、世界変革のエネルギーになると考えられているわけです。

また、データがより大きな価値を持つ、ということは、見方によっては価値体系が転換することをも意味します。すなわち、21世紀において石油よりもデータが価値を持つということは、現実の価値よりもデジタル上のデータである仮想現実が上回る、といった構図とも読めます。

本章でお話するデータサイエンスは、蓄積されたデータというものの価値を高める技術であると同時に、新しい時代の価値を生み出す技術、という捉え方も出来るのです。仮想世界≒世界を正確に認識して進む方法として、データサイエンスは必須の技術なのです。

データサイエンスとは

データサイエンスは、膨大なデータから価値を抽出することです。それはビジネスにおける意思決定のシーンで必要なものです。従来、その判断は限られたデータや、経験や知識の蓄積といった属人的なものに拠って行われてきました。

しかし現在はデータが常に生み出され蓄積されてく時代です。これらデータから、より正確に傾向や特異点を発見する技術がデータサイエンスです。それは数学的な解析理論と、システムインフラに支えられています。

数学理論である統計学や線形代数といった知識を駆使することは、人間がデータを眺め、並べ替えるだけでは取り出しえなかった傾向や予測を表現し得ることを可能にします。 また、大量のデータをインプットし、計算を行えるだけの高性能な計算機が必要になりますが、現在はそれを可能にするクラウド技術があります。クラウド上の高速処理用のデータベースを用い、また高性能なGPUを活用して演算を行うことが可能です。

データサイエンスの方式

蓄積されたデータに対して繰り返し仮説を立て、傾向の発見を行うデータドリブンと、そもそもデータの解析目的を明確にして行う目的ドリブン。それぞれ利用シーンは異なりますが、一般的に解析の現場では目的ドリブンが求められることが多くなっています。これは従来人間によって行われてきた業務の精度を上げるという目的で解析が行われているという現状によるものであり、今後IoTなど多種多用なデータを取り扱うようになれば、データドリブン方式で人間では気づきえなかった傾向の発見といった役割への期待が大きくなるでしょう。

データサイエンスの実用化

データサイエンスは既に実用化された技術です。製造、小売、販売、サービス、公共、医療など、蓄積されたデータの有効活用と潜在的な問題の洗い出しなど、業務を問わず、無くてはならない技術になりました。

集客や店舗運営などのマーケティング、需要予測、製造現場の効率化、金融製品のレコメンテーションや、天気予報などの分野でも活用され、既に我々の日常生活にも深く関係しています。

DX(トランスフォーメーション)の実現が謳われる社会において、データサイエンスを活用した判断は経営層だけではなく、あらゆる現場において求められることになります。全ての業務の担当者がデータというものを、判断材料として活用を意識し、データサイエンティストと協力し合いながら、判断を行う時代が訪れるのです。

データサイエンスの技術

既に実用化されているデータサイエンスの世界では、理論やツールといったものも数多く存在し、それに携わるエンジニアもそれぞれ専門的です。

データサイエンスを実現するために、例えば、以下のエンジニア達がいます。

「データエンジニア」はデータ解析を行う環境を作る技術者と捉えるのが良いでしょう。解析対象となるデータを収集するシステムを構築し、また、解析結果を見せる仕組みも準備します。収集したデータについて、解析に適した形式に成形する、という作業も担います。

「データサイエンティスト」は、数学理論を用いて、傾向や予測を算出します。先述のデータドリブンであれば、与えられたデータから各種理論を適用し、パラメータを変えつつ傾向を見つけ出します。目的ドリブンであれば、知りたい結果のために、与えられたデータを演算していきます。

「データリサーチャー」は、対象となるデータの解析の方法を発見する研究者のような役割です。新たなデータを元に、新たな目的のために、数学理論を用いた新たな解析を提案する、と考えると分かりやすいかと思います。

実際にはこれらの役割を技術者は兼務し、技術者によって得意とする分野や、役割の重みが異なるといった具合です。

また、データ解析の技術としては、システム面も肝要です。膨大な情報収集し管理するシステムとネットワーク基盤、それらは従来の業務系システムとは異なる技術が求められます。解析を行うためのツールや、解析のための専用プログラミング言語、レポート出力するための仕組み駆使して行います。

最後に、データ解析は人間の力だけで行うわけでもありません。機械学習やディープラーニングといった最新のAIとの協働という側面があります。AIの進化と共に深化するデータサイエンス技術が、データの価値をより大きなものとし、データサイエンスという分野は益々存在感を増しています。