在自下而上的質譜蛋白質組學研究中,來自復雜生物樣品的蛋白質被酶解成多肽,然后經過多輪質譜分析生成譜圖數據,解析每張MSn譜中的離子信息,從而得到準確的產生該譜的多肽氨基酸序列,便是質譜數據分析算法研究人員的使命。最初,我們通過手動注釋單個MS2譜圖來解析數據,費時費力,對解譜人員的要求也比較高。后來,Sakulai[1]和Bartels[2]開發了早期的從頭測序算法。在過去的幾十年里,多肽從頭測序算法已經有了很大的發展。如今,與許多其他領域一樣,由于引入了深度學習方法,多肽從頭測序方法也取得了跨越式進展。“深度學習”是指任何使用多層神經網絡的機器學習算法[3]。這些方法通常具有大量的可訓練參數,并且需要相應的大量訓練數據。深度學習已成功應用于質譜蛋白質組學的各個領域,包括預測碎片離子強度[4-6],識別MS1數據中的多肽特征峰[7,8],對MS2譜圖進行大規模嵌入和聚類[9],以及預測多肽理化性質[5,10-12]。2017年,滑鐵盧大學的李明院士團隊和BSI推出首個用于從頭測序的深度學習方法DeepNovo[13],此后至少有22種其他深度學習方法衍生出來 (表1)。除了其優越的性能外,深度學習方法在質譜分析中得到迅速廣泛應用可歸因于三個因素:神經網絡架構的出現非常適合質譜和多肽,硬件的發展(包括GPU)加速了神經網絡的并行計算,以及訓練這些模型所需的大規模公共數據的公開[14-17]。
近日,來自華盛頓大學計算機科學與工程系的William Stafford Noble教授團隊發表了關于多肽從頭測序的深度學習方法的綜述,討論了這些方法的特點,并概述該領域的一些主要應用與挑戰。
表1 深度學習從頭測序算法列表
(注:表1中引用編號為文獻原文順序)
不同的深度學習方法模型
隨著深度學習的廣泛應用,各種神經網絡架構也已用于多肽從頭測序。文中作者主要將其分為兩大類進行討論:卷積神經網絡和Transformer模型。此外,文中還描述了兩種使用深度學習對現有從頭測序方法結果進行后處理的方法。
卷積神經網絡模型
圖1 de novo測序方法引用網絡圖
DeepNovo-DIA[2]將DeepNovo模型推廣到DIA數據的從頭測序分析。該模型的核心類似于DeepNovo,包括ion-CNN、spectrum-CNN和LSTM。主要區別在于,由于DIA數據可以沿著時間軸組織,并且包含有關給定分析物的多個相鄰掃描信息,因此DeepNovo-DIA的預處理步驟涉及檢測3D碎片離子特征和2D母離子特征。在實際應用時,需要首先使用外部工具處理DIA MS1數據以提取母離子特征,然后通過DeepNovo-DIA模型對每個特征進行預測。
此外,諸如SMSNet、RANovo、PepNet和BiATNovo等算法模型也是借鑒了與DeepNovo類似的思路。
Transformer模型
另一種多肽從頭測序的模型是Transformer架構(圖2b)。Transformer最初是為自然語言處理而開發的,例如語言翻譯 [19]。Transformer可以處理不固定長度的輸入,且模型體系結構與輸入信息的順序無關。因此,通常需要對每個輸入對象的位置進行編碼,并將這些編碼的位置與標記本身一起提供。這樣就可以消除離散質譜m/z軸的相應問題。此外transformer的另一個關鍵特征是能夠自動學習輸入特征對之間的重要語義關系。因此,transformer模型已經在DNA和蛋白質序列的建模領域獲得了成功應用。
Casanovo[20]使用transformer架構將從頭測序視為序列到序列的翻譯任務,將MS2譜圖中的一系列峰翻譯為一系列氨基酸。該模型包括一個編碼器和一個解碼器。編碼器學習輸入MS2譜圖的上下文表示,而解碼器根據譜圖信息和先前預測的氨基酸預測多肽序列中的下一個氨基酸。與其他深度學習模型一樣,Casanovo每次預測多肽序列的一個氨基酸,最終尋找得分最高的預測序列[21]。ContraNovo[22]、π-HelixNovo[23]、NovoB[24]、AdaNovo[25]、InstaNovo[26]、Cascadia[27]均采用了類似Casanovo的架構,各自加入了不同的特征。
DPST[28]引入了一組歸納偏差來限制search space。首先,它在貝葉斯環境中重構了從頭測序任務,其中氨基酸后驗概率是根據譜圖信息和先驗氨基酸預測的。將較高的先驗概率給予氨基酸,使母離子質量與動態規劃計算的預期多肽質量之間的差異最小。其次,DPST編碼器根據其與相鄰峰的一致性為每個峰分配置信值,優先考慮編碼譜中氨基酸質量分開的峰。
GraphNovo[29]包括三個階段的處理。首先,將觀測到的譜圖轉換成圖,其中節點對應峰,邊表示峰與峰之間的質量關系。該圖隨后由兩個網絡依次處理:GraphNovo-PathSearcher和GraphNovo-SeqFiller。前者根據邊緣編碼的質量差產生與部分肽預測和未解析質量標簽對應的最優節點序列,后者輸出完整氨基酸序列。兩種網絡都采用了六層Graphormer[30]編碼器架構,該架構將tranformer和圖形神經網絡結合在一起。
Transformer-DIA[31]是在DeepNovo-DIA上進行擴展的,用transformer自關注計算層取代了譜圖編碼器中的卷積層。在提取與DeepNovo-DIA相同的MS1 profile和理論碎片離子陣列后,該模型使用位置嵌入對連續MS2掃描的時間信息進行編碼,從而允許LSTM解碼被標準transformer解碼層所取代。此外,Transformer-DIA還包括一個類似于Casanovo所采用的beam search解碼程序。
圖2 Transformer模型示意圖
其他模型
PointNovo[32]是DeepNovo同一團隊在其基礎上衍生的新架構。PointNovo的主要創新在于消除了離散譜圖m/z軸的依賴,從而使模型能夠利用高質量精度的數據,而無需占用大量內存。DeepNovo使用長度為150,000的輸入向量來表示譜圖,而PointNovo則將每張譜圖表示為一組(m/z,intensity)對。該模型采用了一種新穎的體系結構,該結構使用了PointNet體系結構[56]的思想,旨在以一種順序不可知的方式處理一組這樣的元組。與DeepNovo不同,PointNovo的LSTM成分是可選的,盡管經驗結果表明,包括LSTM往往會提供更高質量的預測結果。PGPointNovo[33]是PointNovo的改進版,支持在多個GPU上并行處理。還有一些其他模型,如DEPS[34]使用類似于PointNovo的架構,做了一些性能提升。Denovo-GCN[35]是類似于DeepNovo的模型架構。SeqNovo[36]使用由編碼器和解碼器組成的RNN架構[37]。
Spectralis[42]模型旨在通過“bin分類”的輔助任務來對給定的從頭測序預測結果進行優化。Spectralis模型利用現有的從頭預測方法(Casanovo和Novor)做出的預測,將其轉化為更準確的預測。其中作者還提出了一種方法,Spectralis-score,用于使用機器學習后處理器重新校準Novor和Casanovo的分數。
算法性能評估標準
許多從頭測序方法借用了precision(精度)和recall(召回率)的概念,但附加了一些特殊的定義。尤其是由于de novo測序不是一個二元分類任務,因此傳統的真陽性(TP)、假陽性(FP)、真陰性(TN)和假陰性(FN)分類并不適用。對于de novo,只有三種分類:高于閾值的預測為“正確”或“不正確”,低于閾值的預測為“不可預測”(圖3a)。使用這些分類方法,我們可以做出如下新的定義:
(C 是正確預測的譜圖數量,I是不正確預測的譜圖數量,U是不可預測的譜圖數量)
這種precision(精度)的替代定義與來自二進制分類設置的傳統定義一致,后者是分數大于指定分數閾值的預測的正確比例。然而,recall(召回率)的定義則不同。在二元分類設置中,“召回率”是帶有正確標簽的樣本被正確預測為正的比例,新的定義是被正確預測的全部樣本的比例。因此,使用替代定義的precision-recall曲線與傳統precision-recall曲線有質的不同。特別是,當閾值移動到排名列表的最末尾時,U的值變為零,此時精度和召回率相等。因此,采用上述替代定義的precision-recall曲線終止于x = y線,而傳統的precision-recall曲線終止于x = 1, y等于數據集中陽性預測的比例(圖3b)。
為了避免這種術語混淆,一些從頭測序的研究采用了precision-coverage曲線,其中precision的定義如上所述,但coverage的定義是分數大于某個閾值的預測的比例,而不管預測是否正確, 這樣生成的曲線總是終止于x = 1(圖3C)。
圖3 肽段召回率和覆蓋度曲線
DeepNovo原始論文中使用的九種基準數據集,采用的是統計在特定精度閾值(95%或99%)下正確預測的譜圖數量的方法[13]。該基準在隨后的研究中被廣泛使用[43-46,23-25,47-48]。然而存在的問題是,這種簡單的譜圖水平分類方法并不能確保訓練集中的多肽序列不會出現在測試集中。因此,如果機器學習算法“記憶”了訓練集中序列的特征,那么在處理測試集中相同肽段產生的譜圖時,就會帶來不公平的優勢。為了避免這個問題,一些研究選擇了多肽水平的分類,從而防止序列信息從訓練集泄漏到測試集。但是這種情況不考慮PTMs,因為同一條肽段的修飾譜與非修飾譜極為相似。
然而,即使在多肽水平考慮,如果訓練集和測試集都包含由同一多肽產生的譜圖,也難以避免會產生算法“記憶”導致的偏好。因此,適當的訓練/測試設置應確保訓練集和測試集在任何一種意義上都不重疊。
不同算法性能比較
表1列舉了23種深度學習多肽從頭測序的方法,那問題是“哪種方法效果最好?”然而,由于不同的算法使用的評估指標、訓練數據集、測試數據集等都不盡相同,沒辦法絕對的說哪個好,哪個不好,只能說在不同的場景下,哪種方法更適合。例如,具有數百萬個參數的模型在數百萬個PSMs規模上訓練時可能表現最佳,而在相對較小的數據集上訓練時就不如人意了。此外,如AdaNovo[25],其重點是改進PTM預測,可能只有在相應的數據集中才能得到較好的預測效果。
在實踐中,每項研究通常都會與少數其他方法進行比較,從圖1中的引用圖便可看出。顯然系統的基準研究才更有意義,其中所有模型都在相同的數據上進行訓練,并在具有明確定義的度量的獨立測試數據上進行評估。下面列舉兩項外部數據上評估從頭測序方法的研究。
首先,Beslic等[49]比較了Novor、pNovo3、DeepNovo、SMSNet、PointNovo和Casanovo在抗體發現從頭測序分析上的表現。為了避免使用不同的訓練數據集造成的偏差,他們首先在MassIVE-KB人類譜圖庫上重新訓練了上述6種模型 [50]。通過對人類和小鼠抗體數據的評估,結果顯示,Casanovo和PointNovo在不同酶和數據集上顯示出更高的肽段召回率。
第二項研究中,Tran等人[51]在人類酶切、人非酶切、擬南芥,HLA-I型和Prosit生成的模擬數據的5個數據集上評估了PEAKS、PointNovo、Casanovo和GraphNovo。與之前的基準測試工作相反,不對模型進行重新訓練,而是直接使用。因為所有工具最初都是在人類數據上進行訓練的,所以它們在人類測試數據上也取得了最好的預測結果。然而,當對擬南芥數據進行評估時,性能有所下降,表明測試集與訓練集完全不同時,算法上還是存在一些不通用性的。總的來說,Casanovo和GraphNovo在所有評估數據集中都取得了最佳的預測效果。
深度學習從頭測序方法的應用
由于許多從頭測序方法都是近幾年發表的,所以應用范圍并不是很廣,然而,表1列舉的方法中,也有幾種相對來說具有比較明確的應用方向。其中,DeepNovo應用最為廣泛。DeepNovo方法及其后續方法PointNovo已被納入商業軟件PEAKS中,表2列舉的應用案例中的大多數都使用了PEAKS。在表2所有27項應用案例中,最常見的應用是檢測新生抗原和非典型抗原,其次是抗體測序,毒液蛋白組和宏蛋白質組。其次,還有些研究通過從頭測序研究短肽。隨著該領域軟件工具質量的不斷提升,未來,de novo測序的應用可能會擴展到其他領域。
表2 深度學習從頭測序方法的主要應用
(注:表2中引用編號為文獻原文順序)
圖4 錯誤的肽段標簽
此外,作者在一系列不同質量的數據集上評估了預訓練的Casanovo模型,每個數據集包含20,000張譜圖。結果如圖5,模型的表觀性能如何取決于用于評估的數據的質量:隨著總離子強度的降低,肽段平均精度變化從0.99也隨之降到0.84,再到0.37。如果采用不同質量的數據集進行訓練,這種現象應該會更加明顯。
圖5 高質量PSMs預測更準確
第三種方法是使用FDR的統計方法,這也是評估數據庫搜索算法的標準方法。比如,如果在固定的FDR閾值(例如1%)下,A從同一組譜圖中檢測到比B更多的肽,則認為方法A比方法B更好。但目前,還沒有成熟的用于從頭測序結果的FDR評估方法,開發新的FDR方法是該領域最關鍵的挑戰之一。不久前,Tran等[50]提出來一種解決方案。
評估從頭測序方法的另一個挑戰是嵌合譜的存在,以一種全新的方式預測嵌合譜是具有挑戰性的,而評估這種預測則更加復雜。另一個重要的復雜因素是PTMs。為了包括新的PTMs和擴展氨基酸字母表,大多數從頭測序工具必須完全重新訓練,納入包括這些新的PTMs的額外數據。然而許多與生物學相關的PTMs含量低且為可變的,就導致很難收集到足夠的訓練數據。識別包含多種PTMs的多肽仍然是深度學習從頭測序工具的一個巨大挑戰。
目前,深度學習從頭測序的方法通常以自回歸的方式生成肽,按順序預測每個氨基酸。這種方法存在的問題是如果前序氨基酸發生了預測錯誤,無法進行糾正,或者長肽中存在不連續碎片峰時無法進行預測,并且由于自回歸解碼不能并行化,因此計算效率很低。
最后,在對新工具進行評價時,一個經常被忽視的方面是基準測試的實際實施,特別是涉及到對相同數據的再訓練時。為了確保每個模型的最佳訓練條件,訓練過程可能需要針對這個特定的數據集進行調整。另外,原始方法提出的默認超參數可能不是最優的,導致性能降低并影響基準測試結果。
盡管這個領域面臨著許多挑戰,但都是可以通過算法的進步逐一克服的。自DeepNovo引領性論文發表以來,這一領域的發展相當迅速。隨著新的機器學習策略、越來越多的公開可用數據和質譜儀器的性能提升,從頭測序工具的使用將變得更加普遍,使許多具有挑戰性或不可能進行的分析成為可能。
彩蛋
如上所述,多肽從頭測序的各種方法通常是用一些簡單的指標來評估測序結果,但這些指標并不能完全反映它們的總體性能。而迄今為止,還沒有一種方法可以用來評估de novo PSM的錯誤發現率(FDR)和顯著性。針對這一局限,BSI開發了全面的NovoBoard模型框架,來評估de novo sequencing方法的性能。該框架涵蓋了不同的基準數據集(包括酶切、非酶切、免疫肽組學和不同物種數據),以及一套用于de novo結果碎片離子、氨基酸和肽段準確度的評估標準。更重要的是,NovoBoard創新性地基于target-decoy對de novo peptide sequencing方法進行評估,并計算其FDR。我們綜合評估了PEAKS de novo、PointNovo、Casanovo和GraphNovo方法在特定應用場景和數據類型下的性能,結果表明,GraphNovo總體表現優于其他方法。Novoboard方法文章已上線Biorxiv。
什么,算法太復雜了看不懂?不用擔心,我們已將相關算法應用到最新的PEAKS 12系列軟件中,只需將待分析的數據提交給PEAKS,分析完直接看結果就好啦,并且可以借助PEAKS優秀的可視化界面對譜圖進行手動校驗。欲了解軟件詳情或者申請軟件試用,可通過如下聯系方式咨詢我們~。
參考文獻
1. Sakurai, T., Matsuo, T., Matsuda, H., Katakuse, I. Paas 3: A computer program to determine probable sequence of peptides from mass spectrometric data. Biomedical mass spectrometry 1984, 11, 396–399.
2. Bartels, C. Fast algorithm for peptide sequencing by mass spectroscopy. Biomed. Environmental Mass Spectrometry 1990, 19, 363–368.
3. Y, L., Bengio, Y., nature, H. .-. G. Deep learning. nature 2015, DOI: 10.1038/nature14539
4. Zhou, X., Zeng, W., Chi, H., Luo, C., et al. pDeep: predicting MS/MS spectra of peptides with deep learning. Analytical Chemistry 2017, 89, 12690–12697.
5. Gessulat, S., Schmidt, T., Zolg, D. P., Samaras, P., et al. Prosit: proteome-wide prediction of peptide tandem mass spectra by deep learning. Nature Methods 2019, 16, 509.
6. Tiwary, S., Levy, R., Gutenbrunner, P., Soto, F. S., et al. High-quality MS/MS spectrum prediction for data-dependent and data-independent acquisition data analysis. Nature Methods 2019, 16, 519–525.
7. Zohora, F. T., Rahman, M. Z., Tran, N. H., Xin, L., et al. DeepIso: a deep learning model for peptide feature detection from LC-MS map. Scientific Reports 2019, 9, 17168.
8. Zohora, F. T., Rahman, M. Z., Tran, N. H., Xin, L., et al. Deep neural network for detecting arbitrary precision peptide features through attention based segmentation. Scientific Reports 2021, 11, 18249.
9. Bittremieux, W., May, D. H., Bilmes, J., Noble, W. S. A learned embedding for efficient joint analysis of millions of mass spectra. Nature Methods 2022, 19, 675–678.
10. Bouwmeester, R., Gabriels, R., Hulstaert, N., Martens, L., et al. DeepLC Can Predict Retention Times for Peptides That Carry As-yet Unseen Modifications. Nature Methods 2021, 18, 1363–1369.
11. Plante, P.-L., Francovic-Fontaine, ´E., May, J. C., McLean, J. A., et al. Predicting Ion Mobility Collision Cross-Sections Using a Deep Neural Network: DeepCCS. Analytical Chemistry 2019, 91,5191–5199.
12. Meier, F., K¨ohler, N. D., Brunner, A.-D., Wanka, J.-M. H., et al. Deep Learning the Collisional Cross Sections of the Peptide Universe from a Million Experimental Values. Nature Communications 2021,12, 1185.
13. Tran, N. H., Zhang, X., Xin, L., Shan, B., et al. De novo peptide sequencing by deep learning. Proceedings of the National Academy of Sciences of the United States of America 2017, 31, 8247–8252.
14. Perez-Riverol, Y., Csordas, A., Bai, J., Bernal-Llinares, M., et al. The PRIDE database and related tools and resources in 2019: improving support for quantification data. Nucleic Acids Res 2019, 47, D442–D450.
15. Wang, M., Wang, J., Carver, J., Pullman, B. S., et al. Assembling the Community-Scale Discoverable Human Proteome. Cell Systems 2018, 7, 412–421.e5.
16. Deutsch, E. W., Bandeira, N., Sharma, V., Perez-Riverol, Y., et al. The ProteomeXchange Consortium in 2020: Enabling ’Big Data’ Approaches in Proteomics. Nucleic Acids Research 2019, 48,D1145–D1152.
17. Zolg, D. P., Wilhelm, M., Schnatbaum, K., Zerweck, J., et al. Building ProteomeTools Based on a Complete Synthetic Human Proteome. Nature Methods 2017, 14, 259–262.
18. Hochreiter, S., Schmidhuber, J. Long short-term memory. Neural computation 1997, DOI: 10.1162/neco.1997.9.8.1735.
19. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., et al. Attention Is All You Need. Advances in Neural Information Processing Systems 2017, 30.
20. Yilmaz, M., Fondrie, W. E., Bittremieux, W., Oh, S., et al. Proceedings of the International Conference on Machine Learning, 2022, pp 25514–25522.
21. Yilmaz, M., Fondrie, W. E., Bittremieux, W., Nelson, R., et al. Sequence-to-sequence translation from mass spectra to peptides with a transformer model. bioRxiv 2023, DOI: 10.1101/2023.01.03.522621.
22. Jin, Z., Xu, S., Zhang, X., Ling, T., et al. ContraNovo: A Contrastive Learning Approach to Enhance De Novo Peptide Sequencing. arXiv preprint arXiv:2312.11584 2023.
23. Yang, T., Ling, T., Sun, B., Liang, Z., et al. Introducing π-HelixNovo for practical large-scale de novo peptide sequencing. Briefings in Bioinformatics 2024, 25, bbae021.
24. Lee, S., Kim, H. Bidirectional de novo peptide sequencing using a transformer model. PLOS Computational Biology 2024, 20, e1011892.
25. Xia, J., Chen, S., Zhou, J., Lin, T., et al. AdaNovo: Adaptive De Novo Peptide Sequencing with Conditional Mutual Information, arXiv:2043.07013v1, 2024.
26. Eloff, K., Kalogeropoulos, K., Morell, O., Mabona, A., et al. De novo peptide sequencing with InstaNovo: Accurate, database-free peptide identification for large scale proteomics experiments. bioRxiv 2023, 2023–08.
27. Sanders, J., Oh, S., Noble, W. S. A transformer model for de novo sequencing of data-independent acquisition mass spectrometry data, Manuscript in preparation.
28. Yang, Y., Hossain, Z., Asif, K., Pan, L., et al. DPST: de novo peptide sequencing with amino-acidaware transformers. arXiv preprint arXiv:2203.13132 2022.
29. Mao, Z., Zhang, R., Xin, L., Li, M. Mitigating the missing fragmentation problem in de novo peptide sequencing with a two stage graph-based deep learning model. Nature Machine Intelligence 2023, 5.
30. Ying, C., Cai, T., Luo, S., Zheng, S., et al. Advances in Neural Information Processing Systems,Curran Associates, Inc.: 2021; Vol. 34, pp 28877–28888.
31. Ebrahimi, S., Guo, X. Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry. arXiv preprint arXiv:2402.11363 2024.
32. Qiao, R., Tran, N. H., Xin, L., Chen, X., et al. Computationally instrument-resolution-independent de novo peptide sequencing for high-resolution devices. Nature Machine Intelligence 2021, 3, 420–425.
33. Xu, X., Yang, C., He, Q., Shu, K., et al. PGPointNovo: an efficient neural network-based tool for parallel de novo peptide sequencing. Bioinformatics Advances 2023, 3.
34. Ge, C., Lu, Y., Qu, J., Xie, L., et al. DePS: an improved deep learning model for de novo peptide sequencing. arXiv preprint arXiv:2203.08820 2022.
35. Wu, R., Zhang, X., Wang, R., Wang, H. Denovo-GCN: De Novo Peptide Sequencing by GraphConvolutional Neural Networks. Applied Sciences 2023, 13.
36. Wang, K., Zhu, M., Boulila, W., Driss, M., et al. SeqNovo: De Novo Peptide Sequencing Prediction in IoMT via Seq2Seq. IEEE Journal of Biomedical and Health Informatics 2023.
37. Cho, K., Van Merri¨enboer, B., Gulcehre, C., Bahdanau, D., et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation. arXiv preprint arXiv:1406.1078 2014.
38. Yang, H., Chi, H., Zeng, W., Zhou, W., et al. pNovo 3: precise de novo peptide sequencing using a learning-to-rank framework. Bioinformatics 2019, 35, i83–i90.
39. Chi, H., Chen, H., He, K., Wu, L., et al. pNovo+: de novo peptide sequencing using complementary HCD and ETD tandem mass spectra. Journal of Proteome Research 2013, 12, 615–625.
40. Zhou, X., Zeng, W., Chi, H., Luo, C., et al. pDeep: predicting MS/MS spectra of peptides with deep learning. Analytical Chemistry 2017, 89, 12690–12697.
41. Joachims, T., Finley, T., Yu, C.-N. J. Cutting-plane training of structural SVMs. Machine learning 2009, 77, 27–59.
42. Klaproth-Andrade, D., Hingerl, J., Bruns, Y., Smith, N. H., et al. Deep learning-driven fragment ion series classification enables highly precise and sensitive de novo peptide sequencing. Nature Communications 2024, 15, 151.
43. Liu, Z., Zhao, C. 2020 16th International Conference on Control, Automation, Robotics and Vision (ICARCV), 2020, pp 1165–1170.
44. Wu, S., Luan, Z., Fu, Z., Wang, Q., et al. BiATNovo: A Self-Attention based Bidirectional Peptide Sequencing Method. bioRxiv 2023, 2023–05.
45. Yilmaz, M., Fondrie, W. E., Bittremieux, W., Oh, S., et al. Proceedings of the International Conference on Machine Learning, 2022, pp 25514–25522.
46. Yang, Y., Hossain, Z., Asif, K., Pan, L., et al. DPST: de novo peptide sequencing with amino-acidaware transformers. arXiv preprint arXiv:2203.13132 2022.
47. Ebrahimi, S., Guo, X. Transformer-based de novo peptide sequencing for data-independent acquisition mass spectrometry. arXiv preprint arXiv:2402.11363 2024.
48. Qiao, R., Tran, N. H., Xin, L., Chen, X., et al. Computationally instrument-resolution-independent de novo peptide sequencing for high-resolution devices. Nature Machine Intelligence 2021, 3, 420–425.
49. Beslic, D., Tscheuschner, G., Renard, B. Y., Weller, M. G., et al. Comprehensive evaluation of peptide de novo sequencing tools for monoclonal antibody assembly. Briefings in Bioinoformatics 2022, Advance online access.
50. Wang, M., Wang, J., Carver, J., Pullman, B. S., et al. Assembling the Community-Scale Discoverable Human Proteome. Cell Systems 2018, 7, 412–421.e5.
51. Tran, N. H., Qiao, R., Mao, Z., Pan, S., et al. NovoBoard: a comprehensive framework for evaluating the false discovery rate and accuracy of de novo peptide sequencing. bioRxiv 2024, 2024–04.
52. Zolg, D. P., Wilhelm, M., Schnatbaum, K., Zerweck, J., et al. Building ProteomeTools Based on a Complete Synthetic Human Proteome. Nature Methods 2017, 14, 259–262.
53. Karunratanakul, K., Tang, H.-Y., Speicher, D. W., Chuangsuwanich, E., et al. Uncovering Thousands of New Peptides with Sequence-Mask-Search Hybrid De Novo Peptide Sequencing Framework. Molecular and Cellular Proteomics 2019, 18, 2478–2491.
54. Elias, J. E., Gygi, S. P. Target-decoy search strategy for increased confidence in large-scale protein identifications by mass spectrometry. Nature Methods 2007, 4, 207–214.
55. Lin, A., See, D., Fondrie, W. E., Keich, U., et al. Target-decoy false discovery rate estimation using Crema. Proteomics 2023, 2300084.
56. Qi, C. R., Su, H., Mo, K., Guibas, L. J. Proceedings of the IEEE Conference On Computer Vision and Pattern Recognition, 2016, pp 652–660.
-掃碼關注-
www.bioinfor.com (EN)
www.deepproteomics.cn(CN)
作為生物信息學的領軍企業,BSI專注于蛋白質組學和生物藥領域,通過機器學習和先進算法提供世界領先的質譜數據分析軟件和蛋白質組學服務解決方案,以推進生物學研究和藥物發現。我們通過基于AI的計算方案,為您提供對蛋白質組學、基因組學和醫學的卓越洞見。旗下著名的PEAKS®️系列軟件在全世界擁有數千家學術和工業用戶,包括:PEAKS®️ Studio,PEAKS®️ Online,PEAKS®️ GlycanFinder, PEAKS®️ AB,DeepImmu®️免疫肽組發現服務和抗體綜合表征服務等。
聯系方式:021-60919891;sales-china@bioinfor.com