機械学習で時系列データって出てくるけど何が何だかわからない!
機械学習について勉強していると必ずと言ってもいいくらい時系列データという用語が出てきますよね。
時系列データとはデータの中で時間とともに変化した情報も持ったもののこと。
時系列データには様々な種類やモデルがあり一言だけで済ませるとかなりふわっとした理解に終始してしまうことに。しかし用語の数は少なくなくなかなか骨が折れるというのも事実。
それではまず、時系列データとは何かについて解説から始めていきましょう。
まずは時系列データが何か、を解説
先程も述べたように時系列データは時間とともに変化した情報を持つデータのことを指します。
データ集めでは人間の手で直接入力されたデータや観測センサーで集められたもの、シミュレーションモデルから作られたものなど様々な手段を用います。
時系列で並べることで過去の様子を分析するのはもちろん、これからどう変化していくか予測することも可能となるのです。
時系列データの種類
時系列データの種類は大きく分けて2つ。
それは定常時系列と非定常時系列です。
定常性とは確率の性質が様々な時点に影響されることなく一定であるということ。
定常時系列はそういった定常性のある時系列データを指すことになります。
逆に定常性がないのが非定常時系列。
確率の性質が一定ではないため様々な時点の値から影響を受けるということになります。見方を変えれば影響される要素が多いから解析する必要性が出てくることに。
よく使う時系列データの解析モデル
時系列データの解析モデルにはかなりの種類があります。ここでは代表的なものを見ていきましょう。
自己回帰モデル
自己回帰モデルはAR(Auto Regression model)と言うことのある解析モデル。
現在の値は過去の値から影響を受けて記述されるというモデルで定常時系列データの方を用います。
このモデルは時間に対し変数というある値を入れる箱のようなものをある確率の分布を線形で表示。
ここで株式相場をイメージしてみましょう。
株式相場のグラフが線形に表すというわかりやすい例となります。
移動平均モデル
移動平均モデルはMA(Moving Average model)とも言う解析モデル。
このモデルではある時点のデータを時間によって生成されたランダムな数の線形和によって表します。
和分過程
和分過程はI(Integrated)と略称されることのある解析モデル。
時系列データを解析するとできること
時系列データについて種類や解析モデルについて見ていきましたがこれを通してどういったことができるか疑問が残りますよね。
時系列データを解析することでできるのはこれまでの様子を分析したり今後の予測を立てることだけではありません。
これは他の大多数のデータと明らかに異なっている異なるデータを検出する技術のことで為替レートの急激な変化や心電図での不整脈、ワードの検索数の急激な変化といったものへの検知などで応用することが可能。
実際に時系列データを解析するときの注意点
実際に時系列データを解析する時注意しなくてはいけない点があります。
パンを作り店に並ぶまでを例に考えてみましょう。
ここでパンの美味しさを目的変数で表す場合温度などが説明変数。工程が多くなるほど時間がかかることは言うまでもありません。
パンの美味しさと大きく関係するのは店でまさに今並んでいる状態での気温よりも焼いた時にどれくらいの温度でしっかり焼いたか。
時系列データついてさらに学びたくなったら、この本を読もう!
ここまで時系列データについて種類やモデル、できること、そして注意点について言及してきました。最後にさらに学習していくのにオススメの本をご紹介します。
Excelでやさしく学ぶ時系列―明日を支配する時系列
この本は時系列データについて初学者でも実際に手を動かしながら学べるよう工夫された本。
現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~
この本も時系列データの初学者でも十分に取り組みやすい本。
そもそも時系列データと他のデータは何がどう違うかや扱う時の基本的な考え方、そして分析を進めていく上で最適な手順がそれぞれ丁寧に説明されています。
今まで統計やデータ分析に触れる機会のなかった人でもわかるよう正規分布や検定といった基本的な内容も。
時系列解析: 自己回帰型モデル・状態空間モデル・異常検知 (Advanced Python)
最後にご紹介するのは「時系列解析: 自己回帰型モデル・状態空間モデル・異常検知 (Advanced Python)」。
「現場ですぐ使える時系列データ分析 ~データサイエンティストのための基礎知識~」と序盤の内容は良く似ています。大きな違いはAdvanced Pythonとあるように時系列データについてPythonで書かれており、「現場で〜」よりも触れられている範囲が広いこと。
今回は時系列データに焦点を当てこれがそもそもどのようなものであるかやどういった種類やモデルがあるかについて言及し、使われ方や実際に利用する際の注意点、さらに学んでいくのにオススメの本をご紹介しました。
時系列データは時間とともに変化した情報を持つデータのこと。
定常時系列と非定常時系列の2種類が存在し、後者が主に使われます。
モデルは自己回帰モデル、移動平均モデル、和分過程がメインとなりそれらを組み合わせたものも。
おすすめの本3冊と併せ時系列データについて理解し、自分でも活用できるようになるといいですよね。