連鎖解析（linkage analysis）、LODスコア、Recombination fractionについて [遺伝疫学]

今回は、Genetic linkage（遺伝的連鎖）の解析で必要な背景知識と、遺伝疫学で使用しているモデルとの関連を解説していこうと思います。
具体的には、

Recombination fraction (θ)
Linkage analyses（連鎖解析）
LOD score（LODスコア）

の方法論について実用例を交えながら解説していきます。

遺伝的連鎖（genetic linkage）について詳しく知りたい方は、前回の記事をご参照ください。

遺伝的連鎖、組み換えを理解して連鎖不平衡の指標を計算する [遺伝疫学]今回は、 Genetic linkage（遺伝的連鎖） Recombination（組み換え） Identity by ...

また、遺伝疫学について一通りの学習をしたい方は、以下の教科書をお勧めしています。

Genetic Epidemiology: Methods and Applications (Modular Texts)

Genetic Linkageとは？

Genetic linkage（遺伝的連鎖）とは、特定の対立遺伝子の組み合わせが、メンデルの独立の法則に従わずに、親から子へ一緒に遺伝する遺伝学的現象のことを言います。

このgenetic linkageと遺伝疫学を結びつけて考える前に、まずは配偶子の組み換え(recombination)について理解しましょう。

Centimorgan (cM)について

前回、genetic linkage（遺伝的連鎖）の解説をしました。同一染色体の場合、遺伝子同士が近ければrecombination（組み換え）は起こりづらく、遠ければ起こる確率が高まる点を解説してきました。

遺伝的連鎖、組み換えを理解して連鎖不平衡の指標を計算する [遺伝疫学]今回は、 Genetic linkage（遺伝的連鎖） Recombination（組み換え） Identity by ...

この現象を逆から考えると、recombinationが起こる確率の高い遺伝子同士は染色体上で遠い位置に、確率が低い場合は近いい位置にいるのがわかります。

これを利用してDNAの距離を定義したのがCentimorgan (cM)となります。

Recombination fraction:θ(theta)

次に、Recombination fraction (θ)について解説していきましょう。
θは２つの遺伝子座(loci)でrecombinationが生じる確率のことを言います。

計算はシンプルでして、

θ= #Recombinants /(#Recombinants + #non-recombinants)

となります。
θも遺伝子間の距離になるため、値が小さければ近く、大きければ遠くなります。

イメージとしては以下のようになります。

θは0〜0.5の間の値をとります。

例１：θを計算する

以下の例で考えてみましょう。

２つのpaternal alleleから6つのalleleが生じたと考えましょう。
θはいくつになるでしょうか？

右の６本の染色体でrecombinantはaBのみです。よって#recombinants = 1となります。
また、#non-recombinants = 6 – 1 = 5となります。よってθは、

θ= 1 / (1 + 5) = 1/6 = 0.17

となります。

例２：θの計算

Nail-patella syndrome (NPS)は日本語で爪膝蓋症候群という疾患ですが、原因遺伝子がABP血液型の遺伝子に比較的近い場所にあるのが知られています。
この性質を利用して、θを計算してみましょう。

まず、以下の図を見てください。

●や■がNPSを発症したことを示していますが、B型の場合、NPSを起こす可能性が高いことに気がつくと思います。

ここで、ABO血液型の遺伝型を以下のように定義します：

A型= I^AI^Aor I^Ai
B型= I^BI^Bor I^Bi
AB型= I^AI^B
O型= ii

ABO型をgenotypeに変換すると上の図は以下のようになりました：

ここで、recombinantとnon-recombinantの数はいくつでしょうか？

答えは

recombinant = 3（IIの5, 8とIIIの3）
non-recombinant = 15（IIの2, 3, 6, 9, 10, 11, 12, 13, 14, 15, 16とIIの1, 2, 4, 5）

となります。

よって、

θ= 3/(3+15) = 0.167

となります。

この方法をdirect methodと呼ぶことがありますが、

浸透率100%を仮定している
欠損値はない（全員が協力してくれた）

など、かなり強い前提を置いています。このため、この前提が崩れるとバイアスが大きく出てしまうという問題点があります。

おまけ：Genetic MapとPhysical Map

cMやθ以外にも、bpやMbなどの表記があり、知識がごちゃごちゃしてしまいそうですが、これらの単位はgenetic mapとphysical mapという異なる地図なので単位が違うのです。非常に簡略化して表にすると、以下のようになります：

Genetic Map	Physical Map
cM θ	bp Mb (=100bp)

となります。

また、genetic mapとphysical mapの関連性ですが、およそ1 cM = 0.5-1Mbと考えられています。繰り返しますが「およそ」の関連性ですので、完璧に一致すると考えないでください。

Physical MapとGenetic Mapを図示すると、上の図のようになります。
Genetic Mapには実は男女差があり、女性の方が若干長く出ています。

Linkage analysesについて

ここからはLinkage analysisについて解説していきます。

まずは以下の図を見てみましょう。

常染色体優性遺伝で、浸透率が100%であったとしましょう。
この家系の祖母から父へ、父から息子１人、娘１人に疾患が遺伝しています。
祖母から父への遺伝、父から第一子（息子）にはは原因遺伝子のある染色体の100%の情報が遺伝しているのがわかります。

一方で、父から娘（第二子）には、recombinationのため染色体の70%ほどの遺伝情報しか遺伝していませんが、それでも疾患を発症しています。

最後に、第５子には、recombinationのため、原因遺伝子のある染色体の30%ほどが父から伝達されていますが、疾患は発症していません。

Recombination fractionを利用する

このRecombinationの性質を利用して、疾患遺伝子の場所を推定することができます。

例えば、祖母と父の場合はrecombinationが起こっていないため、疾患の原因遺伝子の場所を染色体上から特定するのは困難です。

ですが、子供の世代ではrecombinationが起こっているため、ある程度の推定をすることができます。

例えば、第２子には持っていて、第５子には持っていない部位が疾患の原因遺伝子のある部位が候補となります。

もちろん、１つの家族のみで行うのではなく、複数の家族のデータをできるだけ集めてこの疾患の原因遺伝子が染色体上のどこにあるのかを推定していきます。

LOD scoreについて

LOD はlogarithm of oddsを意味し、

odds for linkage: linkageを支持するodds
odds against linkage: linkageを反対するodds

の比になります。Logはnatural logではなく、10を使用します(log₁₀)。

この比はodds ratioでして、分子は計測されたデータのlinkageにおけるlikelihoodになるため、L(θ< ½)となります。

分母は、linkageがなかった場合の仮定になるため、θ=1/2になります。このため、L(0.5)となります。よって、ORは

OR = L(θ< 0.5)/L(q = 0.5)

となります。ORの解釈ですが、

OR > 1であれば、その家庭内でlinkageを示唆
OR < 1であれば、linkageがないことを示唆

となります。

さらにORをLogにしたLODスコアは、２つの座位が強く連鎖しているサンプルから得られたデータらしいか、それとも純粋に偶然にそのようなデータが得られたらしいのか、の二つの比です。
正のLODスコアはlinkageの存在を示唆し、逆に負のLODスコアはこれらの座位がlinkageしていなさそうであることを示す。