2024/05/25

データのグローバル化

 データのグローバル化

この本において「データのグローバル化」とは、偏在している観測地点での気象データを、全世界の規則正しい3次元格子点での値へ変換することを指している。この変換のやり方は、現在では単なる内挿や推定とは全く異なる手法へと発展している。これは、これは単なる技術の問題だけではなく、科学として「データとは何か」という考えにも影響を与えた。ここは、本書の核となる部分の一つであろう。

気象の数値予報モデルには、計算を開始する際に格子点での初期値が必要となる。ところが、現実の気象観測地点の配置は格子状になっておらず、広大な観測空白域があるところもある。数値予報モデルは、世界気象監視(WWW)によって集められたバラバラの地点での地上気象、高層気象、衛星による観測データそのもの(これは「グローバルデータの収集」である)では動作しない。そのため数値予報の場合、グローバルな格子点の初期値を、どうやって適切に作るかが大きな課題となった。これは予報では「解析」と呼ばれる部分に該当する。

当初は、人間が天気図のような等値線から、格子点値を目分量で内挿して読み取ることが行われたが、人間が読み取れるのはせいぜい1次微分を考慮した値までだった。数値予報の計算式には2次微分、3次微分が含まれる。人間が読み取った値は、そこで大きな誤差が発生することがあった。しかも観測値そのものにも必ず誤差が含まれる。最初に設定した初期値が適切でないと、モデルが計算を進めるうちに、現実の大気の振る舞いとのずれ(誤差)が発達するだけでなく、現実とはまったく異なる結果を予測する場合もある。

また観測の空白域が広いと、そこにある格子点値をどうするかも問題となった。ロスビーが率いるストックホルムの国際数値予報グループは、各格子点での前回の予報値を「第一推定値」とした。このような「先験情報」を使うことは、全く白紙の大気状態から何らかの初期値を推定して予報を行うよりも理にかなっていた。このように、内挿法と推定法を組み合わせて、数値予報モデル用の3次元格子の初期値を作成するようになった。これは人間の主観を排した「客観解析」と呼ばれた。

データ同化とは?

現在では、数値予報モデルの計算の際には、変分法を用いたデータ解析モデル(同化モデル)によって、観測データと前回予報値を用いて時空間から見て物理学的に一貫した最適な値になるように、初期値データを生成している。これがデータ同化である。同化データは、空間的だけでなく、時間的に見ても最適な値になるように調整されている。そのため、この手法は、時間軸を加えて4次元同化と呼ばれている(ただし数値予報の場合は、観測時点以降のデータはないので、3.5次元同化と呼ばれることがある)。

変分法によるデータ同化(気象庁・令和5年度数値予報解説資料集より)

このデータ同化によって、物理学的に最適な一貫した3次元格子点での初期値が、全世界くまなく作成されている。これは内挿法と推定法を組み合わせた客観解析とは全く異なる。データ同化によって物理学的に一貫したデータをグローバルな3次元格子点で作成することを、著者であるエドワーズは、「データのグローバル化(making data global)」と呼んでいる。

その結果、データ同化を用いて、わずか数万個の観測値を用いて数百万個の格子点値が創作されている。創作ではあるが、この格子点値は時空間的に見て物理学的な矛盾が極めて小さいものとなる。この手法で創作されたデータは、観測に基づいたものとは簡単に言えない(むしろこの同化したデータから観測の誤りがわかることもある)。データ同化は、予報解析を「計算科学」と呼ばれる新しい領域に移行させたといえる。

このデータ同化によって、過去の全球格子点値を時空間的に作成したものが「再解析データ」である。

同化されたデータの意義

同化モデルは、物理学的に矛盾のない全球のデータを、現実とは無関係に日々生成し続けることも可能である。観測データは、この同化データに拘束(観測に近づける何らかの制限)を与えるが、作成された同化データは、通常の「決定」という意味とは異なる(別な観測データが加わると、結果が微妙に変わることがあり得る)。

伝統的な科学を見ると、科学者も哲学者も、ある理論を検証するためにモデルを作ってきた。例えば、それはアリストテレスの宇宙モデルからプトレマイオスの宇宙モデル、コペルニクスの宇宙モデルへの発達を見ればわかる。

 これまでの科学哲学におけるモデルの役割の概念図

しかし気象予報の観点からは、同化モデルを用いた気象解析の主目的は、理論を検証して気象を説明することではなく、気象を再現することにある。これをエドワーズはそれまでの科学の還元主義に対比させて、再現主義(reproductionism)と呼んでいる。

同化によって、全球シミュレーションと観測が同時に行われ、シミュレーション結果と観測値は互いに確認され調整される。哲学者のエリック・ヴィンズバーグは、「モデルは理論を検証するのではなく、理論の適用を実践している」と主張している。このようなやり方は、他の科学ではほとんど馴染みがない。

このように同化によって作成された格子点値は、アメリカの科学哲学者パトリック・サップスによれば、データのモデル(models of data)となる。これは数学的構造が内部に組み込まれたデータである。データ同化技術は、大気科学における「データ」という言葉の意味を、観測値から解析を含んだ値へと変えてしまった。

同化モデルは、データと理論を融合させ、滑らかで一貫性のある、連続的で均質な格子点値を作成する。エドワーズは、これによって作成された全球3次元の数時間毎のデータを、動画のような「データイメージ」と呼んでいる(実際にデータを連続再生すると滑らかな動画のように見える)。そして、実際に客観解析より数値予報の精度が上がったように、グローバルに見ると、同化データの方が個々の観測値よりも正確であることが証明されるようになっている。

(当初ここに入れたモデルとデータとの共生は、「データ解析モデル」へと移した)