RiskとRateとOdds; Measure of association; Standardization

前回はProbabilityを使う際の論理や公理について解説してきました。

疫学研究・統計を使用する時に知っておくとよい確率の公理今回はこちらの論文をピックアップしました。今回はGreenland教授の記載した確率の論理（probabilistic logi...

Probabilityの論理を知ることは、疫学研究をする上で必須ですし、使用する統計や疫学の手法が洗練されるほど、この基本が重要になってきます。

今回は、前回説明したProbabilityから、さらに基本的な疫学用語（prevalence, risk, rate, odds)の意味づけをし、実際に数式としてどのように表現するかを交えて説明していきます。

定義について

まずは数式の定義を記載していきます。

Y	アウトカム (Outcome)
X	治療 (Treatment) or 暴露 (Exposure)
Z	共変数 (Covariate)
P(X=1)	X=1になる確率（e.g., 治療を受ける確率)
E(Y)	アウトカムの平均
I(Y)	アウトカムの発症率：Incidence Rate
O(Y)	アウトカムのオッズ

Measure of Outcome/ Ocurrenceについて

Measure of ocurrenceやMeasure of outcomeは

Prevalence
Incidence Rate (Rate)
Cumulative Incidence (Risk)
Odds
Mean

などが代表的です。それぞれの用語について簡単に説明していきましょう。

Prevalence

Prevalenceは日本語で有病率といます。
有病率とは、最初に罹患した時期とは無関係に、ある時点（検査時）において集団の中で疾病に罹患している人の割合をいい、横断研究などでよく使用されます。

いわば確率ですので、アウトカムをY = yとすると、

P(Y = y)

と表現できます。

Incidence Rate

Incidence Rateは罹患率などと言われ、疫学者の中では「Rate」と略しています。Incidence Rateは、とある集団を一定期間追跡して発見された症例の割合を出します。

このため、分子と分母は以下のようになります：

分子：新規症例の数
分母：追跡された期間（person-timeを使用）

分母は人年法(person-time)を使用するため、例えば100人を平均1年間追跡すれば100 person-yearsと記載します。

例えば、100人を1年追跡して10症例（Y = 1) 認めたとなると、

Incidence Rate
= I(Y=1)
= 10 cases/ 100 person-years

となります。

Cumulative Incidence

Cumulative Incidenceは、日本語で累積罹患率などといわれています。
疫学者はriskなどと略して記載することもあります。

Incidence Rateとの違いは、対象集団を追跡した期間が固定されている点です。
Incidence Rateの場合は、person-timeを利用しているため、追跡期間が異なることをある程度許容していますが、cumularitve incidenceの場合は対象者の追跡期間は等しくなければなりません。

このため、（ドロップアウトが少ない）比較的短期的なアウトカムに使用されたり、確実にコホートを追跡できる状況でのアウトカムに使用されることがあります。

例えば、100人の母集団で全員1年追跡し、10人がアウトカムを発症した場合、

Cumulative Incidence = 10/100 over 1-year period

となります。
Cumulative Incidenceを記載する際には、”over the 1-year period”のように、期間を指定する必要があります。

Odds

Oddsはその名の通り、オッズでして

Odds
= O(Y=1)
= P(Y=1)/P(Y=0)

となります。つまり、oddsは発症する確率を発症しない確率で割ったものです。

Mean

Meanはその名の通り平均です。これを数式で表すと、

Mean
= E(Y=y)
= Σyy×P(Y=y)

となります。Yが Y = 1 とY = 0のようにbinaryの場合だけ、以下の等式が成り立ちます。

E(Y=1)
= Σyy×P(Y=y)
= P(Y=1)

確率の表記について慣れていない方は、以下の記事を読んでみてください。

Measure of Association

Measure of ocurrenceはprevalence, risk, rate, oddsなどですが、”association”となると比較をすることになります。具体的には、

Prevalence ratio
Risk ratio/ Risk difference
Rate ratio/ Rate difference
Odds ratio

あたりが該当します。
世の中に出ている論文は、ほとんどが差 (difference)や比 (ratio)を使用していますね。
考えてみれば当たり前のことですが、比較をしないと治療効果や危険因子の特定ができないからです。
このため, measure of associationを有効性の指標として使用しているのです。

Measure of associationを数式で理解する

Measure of associationを数式で理解するには、conditional probability (条件付き確率）の理解が必須です。
よくわからない方は、以下の記事を読んでください。

例えば、治療した人をX = x, 治療しなかった人を X = x*としましょう。
とある集団でアウトカムを発症 (Y=1)をする確率は、

治療した人：P(Y=1|X=x)
治療しない人: P(Y=1|X=x*)

となります。このため、risk ratio やrisk differenceは以下のようになります。

Risk ratio = P(Y=1|X=x)/P(Y=1|X=x*)
Risk difference = P(Y=1|X=x) – P(Y=1|X=x*)

となります。治療がアウトカムに影響しない場合、risk ratio (RR) は１に、 risk difference (RD)は 0になるため、

RR = P(Y=1|X=x)/P(Y=1|X=x*) = 1
RD = P(Y=1|X=x) – P(Y=1|X=x*) = 0

となります。つまり、

P(Y=1|X=x) = P(Y=1|X=x*)

となるのです。

逆に、治療効果がある場合、RRは１にならないですし、RDも0にはなりません。このため、

RR = P(Y=1|X=x)/P(Y=1|X=x*) ≠ 1
RD = P(Y=1|X=x) – P(Y=1|X=x*) ≠ 0

となります。つまり、

P(Y=1|X=x) ≠ P(Y=1|X=x*)

となります。

Marginal と Conditionalについて

次にMarginalとConditionalについて理解しましょう。

Marginalは母集団全体を意味します。このため、RD, RR, RRを記載すると

RDYX = P(Y=1|X=x) – P(Y=1|X=x*)
RRYX = P(Y=1|X=x) / P(Y=1|X=x*)
ORYX = O(Y=1|X=x) / O(Y=1|X=x*)

となります。MarginalとCrudeはほぼ意味が同じで、Marginal risk differenceはCrude risk differenceと呼ばれることもあります。
あくまで私の基準ですが、MarginalはInverse probability weightingなどを使用した場合に使っています。Crudeは粗解析 (unadjusted analyses)などで、バイアス混じりのまま報告する場合に使用しています。

次にConditionalについて。Conditionalは「条件付き」という意味でした。これをもう少し噛み砕くと、とある特定の集団に絞り込む（Z = z)という意味です。例えば男性のみのサブグループ解析などが該当します。
Conditional RD, RR, ORを数式で記載すると以下のようになります：

RDYX|Z = P(Y=1|X=x, Z=z) – P(Y=1|X=x*, Z=z)
RRYX|Z = P(Y=1|X=x, Z=z) / P(Y=1|X=x*, Z=z)
ORYX|Z = O(Y=1|X=x, Z=z) / O(Y=1|X=x*, Z=z)

つまり、条件付き確率で「Z=z」という条件が増えただけと言えるでしょう。

回帰分析も一種のconditional probabilityともいえます。
例えばLinear risk modelを想定した場合、

P(Y=1|X, Z)= β0 + βxX + βzZ

となります。回帰分析ではこのβたちを推定することになります。

Standardization（g-computation, g-formula)

次にstandardizationについて解説していきましょう。
例えば、SMR (standardized mortality ratio) やsRR (standardized risk ratio)はstandardizationとして有名ですが、本質的にはg-computationと一緒です。

まずはCrude Risk Difference (RD)を例に考えていきましょう。

Crude Risk Differenceは、