2024/06/22

データ解析モデル

この本では「データ解析モデル」という用語が頻繁に出てくる。原著ではdata modelsと書かれているが、訳では下記の理由でデータ解析モデルで統一している。

著者のエドワーズによると、元来「データモデル(data models)」という用語は、コンピュータサイエンスでは技術的な意味を持ち、特定のアプリケーションまたはワークフロー内でのデータ要素、構造、表現、相互関係の抽象的な概念を指している。なお、科学に関する哲学者は「データのモデル(models of data)」という語句を使用していると述べている。

しかし、著者はデータモデルを、数学的手法、アルゴリズム、および測定器の読み取り値から経験的に導き出された調整法の集まりとし、それらを「data analysis modelsまたは略してdata modelsと呼ぶ」とし、その後はdata model(s) という言葉で統一している。少なくとも日本語では、データモデルという言葉は抽象的かつ概念的であると私は思っている。しかしこの本では、data model(s) はほとんどが上記の処理のためのモデルプログラムを指しているため、その訳を「データ解析モデル」で統一した。

この本では、データ解析モデルの役割は大きく見て、以下の6つに分けられている。

  1. 生の信号データの気象要素の値への変換。これは、通常センサーからの出力信号そのものは気象要素ではなく、当然気象データとは呼べない。この信号に何らかの処理を施して気象要素のデータに変換する。
  2. 観測所データの平均や補間。かつての観測所での観測は1時間、あるいは数時間に1回程度だった。これを気候データとして用いるために、日平均値、月平均値、年平均値、地域平均値などを算出する。また観測所のない必要な地点での値に補間することもある。
  3. さまざまな観測所のデータの統合。かつては各気象観測所は、それが属している組織固有の観測手法で観測し、固有の様式でそれを保存していた(今でも分野によってはそれが残っている)。過去データを含めて異なる観測所のデータをまとめて使えるようにするため、それらを均質で統一的な様式を持つ単一のデータセットへと変換する。その際にはインフラストラクチャの遡及のために、メタデータが必要になる場合がある。
  4. 異なる観測期間を持つデータの統合。かつて観測を行っている全ての地点が今でも観測を行っているとは限らない。さまざまな状況や制約で観測を止めた観測地点もある。そういうある一時期の観測値を現在まで続く長期データセットに融合させることが望ましい。そのために、その地域の重みやトレンドを考慮した補正を行って融合させることがある。インフラストラクチャの遡及が必要になる場合もある。
  5. 衛星搭載観測装置からの信号処理。衛星に搭載された観測装置はリモートセンシングで大気を通した信号を観測する。能動的センサーの場合は、信号を受信するまでの時間を用いて高度に応じた解析によって気象要素等への変換を行う。受動的なセンサーの場合は直下の大気全体からの信号を使っているので、大気の鉛直分布を考慮した解析による気象要素等への変換が必要になることが多い。これらの解析を行って大気中の対象要素を測定する。
  6. データ同化。これは「データのグローバル化 」のところで述べたデータ同化を行う。

データ解析モデルによる処理の概念図

1.の例はサーミスタで、これは検出器内部で接合された2種の金属から発生する電流で周囲の温度を測定する。この電流を温度に変換するためには、それぞれの金属の透磁率のパラメータを含んだ数学モデルによる処理が必要である。哲学者スティーブン・ノートンとフレデリック・サッピは、センサーからの測定温度は、物理学的に示された数学モデル(データ解析モデル)の出力として理解されなければならないと主張している。

上記に示したように、観測データといえども、ほとんどは何らかの形でデータ解析モデルで処理されていることになる。その結果、同化モデルによって全球のデータイメージは「データに縛られている」一方で、観測データもデータ解析モデルによって「理論に縛られている」。そのため、著者エドワーズは、気候科学においては、純粋なデータも純粋なモデルも存在しないと主張している。

モデルとデータとの共生

このように、気象学における理論とモデルとデータの関係は非常に複雑である。モデルにはパラメタリゼーションと呼ばれる「半経験的」なパラメータという発見的な原理が含まれている。これはモデルはデータに縛られたもの(data-laden)であることを示している。一方、モデルによって作成された全球データは、観測データによる拘束を受けるが、それによって直接決定されることはない。

著者のエドワーズは、この関係を「モデルとデータとの共生」、つまり相互に依存しながら相互に有益となる関係と説明している。これは、現実世界と観測と理論の間の空間で機能する科学の例である。これによって、カナダの哲学者マーガレット・モリソンとイギリスの哲学者マリー・モーガンは、「モデルは知識への手段であり、知識の源でもある。」と論じている。

我々は知識の多くを観測や測定から得ているように思っているかもしれないが、上記のサーミスタの例のように、多くの測定データは、センサーからの信号を測定要素に変換する際に、ある種のデータ解析モデルを介している。同様に観測データをある地域や全球規模に平均する際にも、データ解析モデルによる何らかの解析的処理が必要になる(観測値を足して地点数で割っているわけではない)。これは、観測もある種のモデルに依存していることを示している。結局、観測結果の多くはモデルへと帰結しているのである。

例として、予報精度の基本的な尺度として使われているS1スキルスコアを挙げる。これは500hPa高度の予報を観測と比較したものである。しかし、この本では観測としている500hPaの格子点データ自体が、実際の観測結果を解析モデルで処理して得られたものであることを指摘している。

S1スキルスコアの例
気象庁ホームページより(https://www.jma.go.jp/jma/kishou/books/hakusho/2015/01-2.html
)

これは、あるモデルの結果の現実世界との合致性、整合性を調べようとして、観測データではなく、別のモデル、つまりデータのモデルと比較していることになる。これが「データのグローバル化 」で述べたような、計算科学の特徴である。著者のエドワーズによると、この情報技術をそれ自身の設計に再帰的に適用することは、気象学だけではなくあらゆる種類のITベースのインフラストラクチャに特有の特徴になっている。

全球規模の気象・気候科学(そしておそらくすべてのモデルベースの科学)では、純粋なデータも純粋なモデルも存在しない。同化モデルは「データに縛られている」が、それだけでなくデータも「理論に縛られている」のである。これが「モデルとデータとの共生」である。

これは、アメリカで議論が起こった「健全な科学」とは何か?という議論とも関連する考えとなる。