データサイエンスは、近年、非常に注目されていますが、「データサイエンス」自体は非常に理解しにくい分野です。理解しにくいひとつの要因は、この分野に関わる技術や理論が急に発展・表面化してきたことによるでしょう。あまりにもたくさんの新しい用語がでてきていますので、10のキーワードを厳選してデータサイエンスとの関わりについて解説したいと思います。
目次
ビッグデータは、その名称通り、大容量のデータという意味です。その大きさが厳密に定義されているわけではありませんが、一番低いハードルとしては、エクセルで扱えなくなる1,048,576 行より多いレコード数でしょう。ただし、エクセルでもパワークエリーを使えばそれ以上のデータを扱うこともできますが効率は悪いです。また、1つのテーブル(ファイル)だけでビッグデータと定義するのは安易すぎると思いますので、複数の異なるデータを結合したり、分割したり、リレーションして新しく作られた大容量のデータをビッグデータと呼びましょう。
データは何かしらの処理を行わなければ、ただのデータです。中学数学からでも出てくる統計や方程式が非常に有用です。残念ながら、高校の統計は中途半端でほとんど役に立ちません。大学でようやく使えそうな統計学を履修できます。ただし、進んで履修しようとする学生は少ないでしょう。統計学の基礎を学びたい方は、「マーケターが知っておくべき統計学サイト3選」をご覧ください。データをどのように可視化するのか、数理モデルを使って予測をするのか、データサイエンスの基礎となるのが統計学です。
AI=artificial intelligence 日本語では人工知能と訳されています。AIは、データを自動的に取得し、それを解析し、組み込まれたモデルを更新する技術です。データがどのように取得されるのか、外部環境によって大きく影響されると推測すると、柔軟な数理モデルを使うことが非常に重要になります。その柔軟性の高いモデルが後述するディープラーニングの基礎理論であるニューラルネットワークモデル(NNモデル)です。AIと聞くとスゴイと思う方がまだ多いと思いますが、理論が新しいわけではなく(アルゴリズムは進化しています)、コンピュータの演算速度、データ取得の精度、データの保存容量といった環境が進歩したおかげで使いやすくなっただけと理解した方がいいです。
IoTは、どこでもいつでも何でもインターネットにつながっていることの総称です。あなたの持っているスマートフォンがまさにIoTそのものです。IoTの大きな問題としては、電気の供給、セキュリティ、無線規格です。まず、電気が供給されなければ、Wi-Fiに代表される通信が行えません。通信にアクセスすると、全世界からアクセス可能になりますので、セキュリティリスクが発生します。暗号化技術も発展していますし、重要でないIoTへの攻撃は考えにくいかもしれません。しかし、スマートスピーカーやスマートキーの普及によって、想定外の脅威にさらされる可能性があります。IoTの多くはWi-FiかBlue Toothを使っています。無線規格は日進月歩ですし、無線は目に見えませんが公益性の高いインフラであり、空いている周波数帯が少ないという実態があります。規格が変わってアクセスできないなどの問題が生じる可能性があります。
ディープラーニングという言葉だけですごいように感じますが、その理論は新しいものではありません。基礎的なモデルは、鉄道の駅と線路(リンクとノード)を脳を形成する神経網のニューロン、シナプスを見立てたモデルであるニューラルネットワークモデル(NNモデル)です。モデルとは、簡単に言えば方程式であり、Y=aX+bのa、bの係数を求めることです。ニューラルネットワークモデルは連立方程式を解いていると考えればわかりやすいでしょう。
ディープラーニングでは、畳み込みニューラルネットワークモデル(Convolutional Neural Network:CNN)が使われています。畳み込むモデルと畳み込まないモデルがあるわけですが、畳み込まない普通のモデルは全ての指定されたリンクとノードを使ってモデルを構築しますが、畳み込むモデルは多層化したより複雑なネットワークのモデルを解くことができます。それを可能にしたのが、コンピュータの演算速度の向上です。
Finacial+Technologyの造語です。主に株の売買や保険商品の開発を指すことが多いです。そもそも保険商品の開発には、アクチュアリーという資格が必要であり、アクチュアリーの数学レベルは国公立大学数学系学科卒レベルは必要です。また、株の売買は、東京証券取引所では売買を500マイクロ秒で終わらせるほど速い処理能力を有しており、大量の取引データが収集されています。株の取引は、人が介して行うのではなく、コンピュータが勝手に売買する日も近いでしょう。証券会社選びは、どのようなフィンテック技術を持っている会社なのか、つまり、上がる株を見つけ売買する技術を持った会社を選ぶ時代になってきました。
ブロックチェーンは、ビットコインで一躍注目されることになった技術です。概念的に非常にわかにくい技術ですが、1番はじめに生成されたデータに次から次へとデータを追加していく技術です。この1番はじめのデータがどう生成されたのか解き明かすことや途中を改ざんしようとしても、その都度、データが更新されるので、コピーや改ざんができない仕組みになっています。フォークダンスのジェンカの先頭が必ず違うので、同じ組み合わせてできる隊列がない、でも、何となくどのように連結していったのかの履歴はわかるといった具合です。
データサイエンスが主流になる前は、データマイニングという言葉が主流でした。データからどのような特性を見出すのか、どのような予測をするのかといったことを指していたと思います。どちらかというと、データを分析することを強く推し出している言い方です。データサイエンスは、データマイニング+可視化、モデリング、自動化などを含めたものを示していると言えます。
データサイエンスは、手元になるエクセルでは扱えないようなビッグデータを対象しています。したがって、何かしらのプログラミング技術が必要になります。数値計算と言えば、Fortranという時代もありましたが、今では、Pythonが主流で、限定的にRが使われています。また、Webとの相性の良いPHPを組み合わせ使うことも多いでしょう。データは、Mysqlやjsonで扱われることが多いです。
データサイエンスでは、ビッグデータをプログラム言語で処理していきますが、データの規模によってコンピュータへの負荷が非常に高くなる場合があります。この時救世主となるのが、並列計算です。並列計算自体は、何か解をもたらしてくれることはありませんが、同じ式を計算するにあたって、別のコンピュータで作業するにはそれを分け、さらに結合する技術が必要になります。例えば、折り鶴を大勢で折る作業を工程を分けた場合に、それぞれでどこまで折っておくのか決めておかないと、後工程でどこから折ればいいかわからなくなります。結果、折り鶴にならない場合も出てくるかもしれません。このようなルールを定めて効率的に処理してくれるのが並列計算です。
オススメ記事