経済教室

統計学と感染症

正確・迅速なデータ収集を

竹村彰通滋賀大学教授

たけむら・あきみち　52年生まれ。東京大経卒。スタンフォード大博士（統計学）。専門は数理統計学

ポイント

○　将来予測と政策立案に数理モデル活用を

○　PCRは誤りが起きる確率の確定が重要

○　接触確認アプリの精緻化と普及を進めよ

新型コロナウイルス感染の急激な拡大は、大きな社会的なショックを引き起こし、世界を一変させた。見えないものへの恐怖心と、逆にそのような恐怖から逃れたいという心理が働く中で、「感染防止か経済活動か」という二者択一の両極端の議論がなされ、混乱を引き起こしている。

特にソーシャルメディア上では、読者の心理を見越して注目を引くことを狙った発言が多い。また新聞やテレビでも誇張気味の報道が散見される。これは「正しく恐れる」ためのデータが不足していることが原因の一つとして挙げられる。混乱を収めるためには、最新の状況を迅速に反映したデータの収集体制を整備し、データに基づく冷静な議論をおこなうことが必須である。以下では、このような観点から、数理モデルの有効性、PCR検査の精度、接触確認アプリの役割について論じる。

◇　　　◇

　第1の論点は、感染拡大の数理モデルについてである。感染症の数理モデルとは、感染症の発生から拡大、そして感染者がどのように回復するか（あるいは死亡するか）を記述する微分方程式だ。この式を用いると、実効再生産数（1人の感染者が平均何人を感染させるか）や平均潜伏期間など、式のパラメーター（変数）を定めることで、将来の感染者数を予測できる。

数を予測できるだけでなく、パラメーターを変化させたときに、感染者数がどのくらい減るか、あるいは増えるかを分析できる。このため、外出制限や感染者の隔離といった政策の効果をパラメーターに反映させることで、政策の数量的な評価ができるわけだ。これが数理モデルの利点である。新規感染者数のグラフを見てから後付けでおこなう定性的な議論とは、本質的に異なる。

実際には政府からの要請などで人々の行動が変化し、それに伴ってパラメーターは変化していくから、当初の数理モデル予測は外れることとなる。しかし、深刻な予測を実現させないことこそが数理モデルの意味であると言ってよい。

また、数理モデルを感染症対策の事後評価に利用することも重要である。

新型コロナの感染から診断には、潜伏期間の約5日に加え、発症から診断まで約7日を要するため、毎日の新規感染者数は12日くらい前の感染状況を表す。パラメーターが時々刻々と変化することを織り込んだモデルを構築し、新規感染者数からそのパラメーターを推定すれば、人々の接触機会や実効再生産数の過去の変化を数値的に評価することが可能となる。

図は滋賀大学データサイエンス教育研究センターの山口崇幸助教のモデルによる実効再生産数の推定結果であり、緊急事態宣言の効果が明確に示されている。

このようにモデルのパラメーターはデータから推定されるため、データの信頼性がモデルの有効性の基礎である。感染者情報を保健所や医療機関がオンラインで登録し共有するHER-SYSに関する最近の報道にもあるように、残念ながら日本では重要なデータのタイムリーな収集が遅れており、一刻も早い体制整備が求められる。

第2の論点は、PCR検査の精度、より具体的には同検査の「偽陽性」と「偽陰性」に関してである。偽陽性は「感染していない人が検査で陽性と出てしまう誤り」であり、より日常的な用語を用いれば「誤検出」である。逆に、偽陰性は「感染している人が検査で陰性と出てしまう誤り」であり「見逃し」である。

検査は完璧ではないから誤りは一定の確率で起きる。偽陽性率、偽陰性率は、これらの誤りがおこる確率（割合）である。データサイエンスの観点から興味があるのは、PCR検査の偽陽性率、偽陰性率の実際の値であるが、実は正確にはわかっていないようだ。7月6日の政府の第1回新型コロナウイルス感染症対策分科会の資料では、「偽陰性率は30%、偽陽性率は1%」と「仮定」して、PCR検査の拡大の影響を論じているが、数字の根拠は与えられていない。

PCR検査で注目されるのは、偽陽性率が低い、すなわち誤検出がまれであるという点だ。これは、新型コロナに特徴的な遺伝子を増幅するというPCR検査の原理からも理解される。ただし偽陽性率の実際の値が1%なのか、あるいは0.01%なのかは、PCR検査の拡大の影響を論じる際には重要だ。

もし偽陽性率が1%ならば、陰性の人を1万人調べると100人が陽性と誤判定され、無駄な隔離などの措置が必要となる。日本ではこのことをもってPCR検査の拡大は必ずしも望ましくないという議論がなされているが、偽陽性率が0.01%であれば医療体制への負荷は大きくない。

香港では、12万8千人を検査して陽性が6人だったというデータも発表されており、偽陽性率は1%よりはかなり小さいと考えられる。なお、最近では様々な簡易的な検査が利用されるようになっているが、それらの偽陽性率については、まだ十分なデータが得られていないと思われる。

一方でPCR検査の偽陰性率は30%程度で、見逃しが3割程度あると考えられている。これでは「陰性証明書」の信頼性は低い。実は偽陰性率はウイルス量や感染からの日数によることが観察されており、単一の数字では表せないことがわかっている。今後、さらなるデータと研究成果の蓄積が求められる。

偽陰性率が大きいことへの対処法は、検査の繰り返しが考えられる。実際、厚生労働省の新型コロナ感染症患者の退院基準（6月12日）では、24時間以上の間隔をおいて2回の検査で続けて陰性となることを退院の基準の一つとしている。

◇　　　◇

　第3の論点は、接触確認アプリの役割についてである。感染防止のための有効な手段がなく、感染経路の不明な陽性者が増える中で、デジタル技術を用いて感染を追跡することは重要だ。スマートフォンから得られるデジタルデータの利用により、陽性者の記憶をたどる人海戦術の感染追跡では不可能な情報が得られる。しかし、日本では個人情報の利用に関する懸念が強く、接触確認アプリの利用数がまだまだ少ない。

米グーグル、アップルの仕様の制限もあるが、アプリから得られる情報が少ないことも改善点だ。接触確認アプリでは、感染者との接触情報は「何月何日に接触があった」という形でのみ通知され、正確な時間は通知されない。時間情報があれば、例えば通勤時間に感染したなどの可能性がわかる。現在、「通勤電車の中で感染がおこり得るかどうか」という重要な情報が明確にはわかっていない中で、このような情報の価値は高い。

また「無症状者がどの程度感染を広げているか」についても、無症状者が複数の陽性者と接触していることがわかれば、その人が感染を広げた可能性が示唆される。新型コロナとの共存のためには、正確かつ広範なデジタルデータの活用こそが不可欠なのである。

統計学と感染症

全員感染のリスクも考慮を　統計学と感染症

佐藤彰洋横浜市立大学教授

さとう・あきひろ　75年生まれ。東北大博士（情報科学）。専門は計算科学、社会システム工学、データ科学

　

　

ポイント

○　統計には測定誤差と推計誤差が存在する

○　データの数字と結果の遅れの違いに注意

○　対策にはデータに基づく先行指標活用を

新型コロナウイルス（以下、新型コロナと略）の感染拡大下にあって、政府や各種機関がデータに基づいて意思決定ができるよう様々な種類のデータ、指標が提唱されてきた。しかし、多くは全数調査ではなく標本調査に基づいている。データを集める場合、全数調査は時間的・資源的制約から実質的に困難である。

統計学では調査対象全体を母集団とし、調査により得られた母集団の部分集合を標本と定義して、標本から母集団を推計する方法を発展させてきた。加えて、推計のもととなるデータには計測誤差もある。例えばPCR検査では偽陽性（本当は陰性なのに陽性と結果が得られる）が存在し、また偽陰性（本当は陽性なのに陰性と結果が得られる）も2～3割は存在しているとされる。

PCR検査の判定誤りの問題は慎重な検討が必要である。陰性判定であったからといっても、実際はウイルスを保有している場合があるためだ。このため、データが標本調査であること、また偽陰性を考慮して、世界保健機関（WHO）は、潜伏期間の2倍の日数（約28日間）感染者が確認されないことが、感染終息のために必要な条件であるとしている。

このように統計データを議論する場合には、測定誤差や推計誤差（ゆらぎ）があるということを理解した上で議論をしなければならない。しかし新型コロナ感染拡大において、特に理性的、論理的議論を困難にしているのは「遅れ」の問題であることを強調したい。

◇　　　◇

経済社会活動を行いながら、新型コロナの感染拡大抑止を行うためには、経済社会活動と新型コロナの感染状況の両方のデータを取り扱う必要がある。しかも、両者の統計データには遅れ、すなわち、統計数字と着目する結果との間にタイムラグが生ずる「遅行指標」という性質がある。

一般に、このような遅行指標を使っての意思決定はとても大変だ。我々はある活動を計画し、活動を実行して、その結果を理解するという過程で、計画がどの程度の影響を与えたかの評価をしながら、活動計画の改善を行っている。そのため、結果を理解するための指標が遅行指標であると、評価できるまでに遅れが生じ、活動の改善にも遅れが生じるのだ。

現状の新型コロナ対応では、感染抑制のための活動計画を作り、実行した後、その結果の検証ができて活動計画が良いか悪いかがわかるようになるまで、最低でも2カ月を要していると考えられる。活動を計画しているとき、または、実行している初期段階ではその影響は不明であるので、その間に様々な議論が噴出して理性的、論理的な議論ができずに終わっているふしがある。

図は、国内の新型コロナの累積感染者数と累積死亡者数を示している。この図から、2020年7月以降感染者数の再増加（いわゆる第2波）が確認されるようになってから、その後死亡者数の増加が確認できるようになるまで、約40日の遅れが確認できる。

感染者数が増加に転じてから、すぐには重症者数や死亡者数は増加に転じない。だいたい、感染が確認されてから7～10日後に重症化して、最悪の場合はさらに3週間後に死亡する。このことが、40日程度の感染者数と死亡者数の遅れの仕組みである。

しかし、この遅れの影響を正確にとらえている人は実はあまり多くない。感染者数が増加し始めてもすぐには重症者や死亡者が増えないため、日本人には、重症者や死亡者が出にくい要因が備わっている、ウイルスは弱毒化している、などの意見がたびたび流布した。その後、40日が経過したころに死亡者が増加し始めて、特殊な要因説や、ウイルス弱毒化説が勢いを失っていくという現象が繰り返されている。

我々は、新型コロナの感染状況に関する統計データや、経済社会活動に関する多くの指標は、遅れを伴う遅行指標であるということを、まずはその遅れの程度も含め正確に理解すべきだろう。さらに付け加えると、予測や計画のために、我々は、遅行指標ではなく、先行指標または一致指標を必要としているということである。

厚生労働省の8月12日発表の重症者割合は、40歳代で1.0%、50歳代で1.8%、60歳代で4.9%、70歳代で3.9%、80歳以上で5.8%となっているが、死亡率は40歳代で0.2%、50歳代で0.6%、60歳代で2.9%、70歳代で9.5%、80歳以上で19.9%となっている。60歳以上では、重症化または死亡することがそれなりの確率で発生する。

他方、我が国の年齢階級別就業者数（総務省統計局労働力調査20年7月）によると、15～24歳は577万人、25～34歳は1087万人、35～44歳は1341万人、45～54歳は1575万人、55～64歳は1165万人、65歳以上は910万人である。日本人全員が新型コロナに感染することとなった場合、死亡率を単純に掛け合わせると、40歳代の就業者では2.6万人、50歳代の就業者では9.5万人、60歳代では34万人、65歳以上（70歳代死亡率9.5%を適用）では86.5万人の就労者が最終的に死亡し、日本全体で単純計算では就労者が132.4万人減少すると試算される。

◇　　　◇

全世界的な新型コロナの感染拡大の状況を見ていると、9月現在、1日30万人ほどの新規感染者が確認されているから、初動における封じ込めは全世界的にはできなかったと分析すべきである。そのため、長期的に見た場合、最終的には日本国民全員が新型コロナに一度以上感染するというリスクシナリオについて、今から検討が必要である。

重症化しにくい若年層といえども、新型コロナの感染力はかなり高く、それらの人々が一定の物理的接触を続けていると様々な年代に感染が広がり、場合によっては集団感染が起こることになる。その結果、重症化する可能性のある年齢層の人々は流行地域へ近づくことができない環境が生まれるだろう。

日本においては、55歳以上の就業者が31%程度いることを踏まえると、感染が単純に広がっていき、重症化する人々や死亡する人々が増えていくことは、社会経済的活動が「結果として」停滞することも覚悟しなければならない。

常識とは、ある前提条件において多くの人々が効率的に物事を行える状況ではじめて成立する。前提条件が変化すれば、効率的に実行できる物事も変化してくる。その結果、常識も変化せざるを得ない。新型コロナ感染症の流行により、効率的に実行できていたことが、非効率となっている一方で、これまで非効率であったことが効率的になる可能性もある。

新型コロナ流行前に常識であったことを行おうとする努力とともに、我々は現在の前提条件で効率的に実行できることを見つけ出し、これまでとは異なる常識を作り出していく努力もまた必要なのである。

もどる