導語
乳腺癌是全球女性最常見的癌癥,發病率和死亡率較高。全基因組和外顯子組遺傳關聯研究已成功鑒定出300多個乳腺癌易感位點,但大多數基因座和特定基因變異的機制仍未得到表征,極大的限制了遺傳易感性基因座向新療法和精準醫療工具的轉化。孟德爾隨機化(Mendelian Randomization,MR)是一種基于全基因組測序數據(GWAS數據),利用單核苷酸多態(SNP)作為變量工具(Instrumental Variable,IV),用于揭示因果關系的新型流行病學方法。簡而言之,孟德爾隨機化是利用自然界中隨機分配的基因對表型的影響,來推斷表型對疾病的影響。與GWAS相比,MR利用了更狹窄的測試空間,增加了統計能力,并且本質上支持因果基因鑒定。MR可以通過暴露和結果的遺傳共定位分析得到進一步支持。MR的相關性通過隨機對照試驗(RCT)中已證實在疾病中具有病因學或因果作用的藥物靶點的回顧性分析結果可靠。
循環蛋白具有許多適合使用MR發現乳腺癌生物學的特征。首先,血漿蛋白質組已被證明可以反映癌癥的正常生理和致病生物學過程。其次,高通量和高精度測量手段可以檢測到循環蛋白。第三,最近的研究表明,大多數循環蛋白與順式作用蛋白數量性狀位點 (pQTL) 有關,即位于距離蛋白質編碼基因 1 Mbp 以內。第四,單個順式-pQTL可以解釋蛋白質中相對較大比例的方差,使其成為使用MR進行因果推斷的統計學上強大的工具。但到目前為止,還沒有關于女性群體pQTL的報告。
Olink采用PEA(Proximity Extension Assay)檢測技術,將具有特定核苷酸序列探針的一對抗體與被檢測蛋白特異性結合,探針通過末端5bp配對堿基互補結合,在延伸酶的作用下形成雙鏈模板,利用qPCR或NGS進行檢測。根據特異性的核苷酸序列信號確定常見疾病和生理過程的典型蛋白biomarker含量,用于預測疾病和治療結果、確定新的藥物靶點、驗證藥物安全性和有效性,加速蛋白組向精準醫療應用轉化。在這里,本文使用 Olink PEA Explore 檢測在采樣時未診斷為乳腺癌的598名女性的血漿樣本,一共測量了2929種獨特的蛋白質。對蛋白質水平進行了遺傳關聯分析以鑒定cis-pQTL,在BCAC乳腺癌風險的病例對照薈萃分析中使用cis-pQTL作為乳腺癌MR分析的工具變量,以及在FinnGen的第二次乳腺癌病例對照薈萃分析中復制了MR結果。最后,通過可視化和評估蛋白質和乳腺癌遺傳關聯的共定位來跟蹤MR分析中鑒定的重要蛋白質,并評估與已建立和新出現的乳腺癌風險因素的潛在因果關系。
主要技術
olink蛋白質組學;孟德爾隨機化
研究結果
1. 樣本特性
KARMA研究招募了瑞典兩個地區70877名女性進行乳房x光檢查,該項目的目的是確定乳腺癌的危險因素。該樣本選擇的目的是評估血漿蛋白生物標志物與2年內血液采樣中乳腺癌發病率的關系;來自同一地區的299名隨機對照女性,截至2021年,這些女性仍然沒有患乳腺癌(表1)。
表1
2. 蛋白質分析、檢測和質量控制
使用親和蛋白質組學方法分析血漿樣本。Olink PEA本質上偏向于被測量的蛋白質子集,需要測量盡可能多的蛋白質來最大限度地提高發現標志物的可能性。因此,使用Olink公司新推的Explore I和II panel,包含2949種蛋白質。在這組樣本中,歸一化蛋白表達水平高于檢測限時,50%的樣品可以檢測到2213個(75%)。Explore II中的一組平均蛋白不如Explore I中的蛋白豐富。
3.血漿蛋白水平與乳腺癌發病率之間的關系
為了評估蛋白質與乳腺癌風險的關聯,對每種超過QC的Olink蛋白進行回歸模型擬合,該模型調整了抽血年齡、體重指數和樣品儲存時間,使用5%的錯誤發現率來確定統計顯著性意義,所有蛋白質均未超過統計顯著性閾值,因此,聯合分析了事件病例和對照組的蛋白質水平。
4. 血漿蛋白水平與臨床特征的關系
為了檢驗觀察性蛋白質水平與KARMA女性臨床特征之間的關系,將每個測量到的蛋白質與七個因素(年齡、飲酒量、出生次數、BMI、激素替代療法(HRT)、絕經前后和當前吸煙情況)進行了回歸分析,顯示共有684種蛋白質與BMI相關,459種蛋白質與年齡相關(圖2)。已有文章報道,隨著 BMI 的增加,瘦素和脂肪酸結合蛋白 4 (FABP4) 的血漿水平升高;絕經后婦女的卵泡刺激素 (FSHB)較高,吸煙者的胎盤堿性磷酸酶(PLAP)水平較高。同時還包括一些較少描述的相關性,包括在絕經后和圍絕經期婦女中糖氨酸(PAEP)和CHRDL2水平較低,糖蛋白激素α多肽(CGA)水平較高,以及在使用(HRT)的女性中骨調節素(OMD)水平較低。已知性狀與蛋白質關聯表明,數據質量令人滿意,并且通過增加可檢測蛋白質的數量,可以實現額外的性狀與蛋白質的關聯。
5. 順式pQTL的鑒定和復制分析
為了確定使用MR進行下游因果關系測試的遺傳工具,測試了編碼2929種蛋白質中每種蛋白基因上下游1 Mbp范圍內的基因變異和蛋白水平的關聯,共觀察到超過737個蛋白質的812個獨立變異。在Explore I和II panel上很容易檢測到蛋白質的pQTL,為737種蛋白質提供了潛在的MR工具。
將KARMA中鑒定的順式pQTL在先前的報道中進行了復制分析。使用 Olink PEA 測量的 90 種蛋白質子集。KARMA研究中提供了90種蛋白質的測量結果。在這90種蛋白質中,33種蛋白質的順式 pQTL 與 KARMA 相關。先前發表的基于Somascan蛋白質組學平臺的cis-pQTL報告中查找了變異或處于高連鎖不平衡變異。在KARMA研究中質量控制后可用的Olink蛋白與先前發表的基于Somascan平臺的研究中測量的蛋白質的重疊為569種蛋白質。在KARMA中觀察到的重疊蛋白質子集的 603 個顯著順式pQTL中,我們觀察到374個蛋白質復制的證據。
6. 孟德爾隨機化分析
使用來自KARMA順式pQTL的蛋白質暴露進行了雙樣本MR分析,利用來自BCAC和FinnGen R8 - UK - biobank薈萃分析的結果數據調查乳腺癌風險的潛在因果效應。沒有確定在KARMA中具有順式pQTL的7個蛋白質的遺傳代理,對730個蛋白質暴露進行了測試。有7個蛋白在發現研究中超過了顯著性統計閾值(圖3),5個蛋白在FinnGen和UK Biobank的獨立乳腺癌病例/對照研究中復制,效果大小和方向一致(表4)。復制的蛋白按編碼基因的名稱顯示為CD160、DNPH1、LAYN、LRRC37A2和TLR1。
表4
在ER+和ER-乳腺癌風險中,效應大小相似,表明這五種蛋白與ER+和ER-乳腺癌風險同等相關(表5)。
為了驗證蛋白質在乳腺癌的病因學上的作用可能會通過乳腺癌風險因素影響,MR分析使用潛在乳腺癌危險因素的GWAS作為結果,包括初潮年齡、絕經年齡、腰臀比、乳房x線攝影密度、性激素結合球蛋白和IGF-1水平。在兩個獨立的數據集中,LRRC37A2顯示出較晚的月經初潮年齡和較早的絕經年齡,以及較高的IGF-1水平的MR證據。CD160顯示出較低的月經初潮年齡在病因學上的作用。綜上所述,MR分析顯示CD160、DNPH1、LAYN、LRRC37A2和TLR1的基因升高與乳腺癌風險相關,并且對ER+和ER -癌癥具有相似的影響。
7. 共定位分析
所有順式pQTL附近有顯著MR證據的蛋白質的變異體都通過鏡像圖與相應的基因組區域一起進行了乳腺癌風險的共定位分析。DNPH1和LRRC37A2周圍的順式區域顯示了蛋白質水平和乳腺癌風險之間的最強一致性。CD160、LAYN和TLR1順式區域的鉛pQTL不是乳腺癌風險p值最低的變異,但定位在相同的大小受限的基因組區域。我們認為順式pQTL與乳腺癌風險共定位。
為了調查在本研究中發現的五種蛋白質中是否有任何一種曾被作為藥物靶點進行過探索,在NIH Pharos Consortium, IUPHAR/BPS Guide To Pharmacology, DrugBank和http://ClinicalTrials.gov數據庫中進行系統搜索。除了透明質酸靶向的LAYN蛋白外,其他都沒有被注冊為已知的藥物靶標。
結論
在使用MR評估的730 種血漿蛋白中,五種蛋白的遺傳水平升高與乳腺癌風險相關,即 CD160、DNPH1、LAYN、LRRC37A2 和 TLR1。這表明這五種蛋白在乳腺癌中起著病因或因果作用,為進一步評估其作為藥物靶點的潛力提供了基礎。
參考文獻:
Mälarstig A, Grassmann F, Dahl L, Dimitriou M, McLeod D, Gabrielson M, Smith-Byrne K, Thomas CE, Huang TH, Forsberg SKG, Eriksson P, Ulfstedt M, Johansson M, Sokolov AV, Schiöth HB, Hall P, Schwenk JM, Czene K, Hedman ÅK. Evaluation of circulating plasma proteins in breast cancer using Mendelian randomisation. Nat Commun. 2023 Nov 24;14(1):7680. doi: 10.1038/s41467-023-43485-8. PMID: 37996402; PMCID: PMC10667261.