深圳子科生物報道:來自中科院計算技術(shù)研究所的研究人員發(fā)表了題為“Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine”的文章,公布了新一代開放式搜索算法Open-pFind,可提高質(zhì)譜數(shù)據(jù)解析的數(shù)量與質(zhì)量,有望成為蛋白質(zhì)組學(xué)日常數(shù)據(jù)分析的主力工具。
這一研究成果公布在10月9日的Nature Biotechnology雜志上,文章的通訊作者為計算技術(shù)研究所賀思敏研究員,和遲浩博士(同為作者)。
質(zhì)譜數(shù)據(jù)的低解析率直接影響著肽段和蛋白質(zhì)鑒定數(shù)目和鑒定精度的提高。質(zhì)譜數(shù)據(jù)解析率一直較低,是由于質(zhì)譜數(shù)據(jù)中通常有大量存在意外修飾或發(fā)生意外酶切的肽段,傳統(tǒng)的限定式搜索因搜索空間有限,通常無法對上述肽段進行有效檢索。
新一代開放式搜索引擎Open-pFind采用基于序列標簽索引的開放式搜索流程,快速掃描蛋白質(zhì)數(shù)據(jù)庫并對部分高質(zhì)量譜圖進行鑒定。在此過程中,意外修飾、突變、半特異及非特異性酶切肽段均在引擎的搜索空間內(nèi)。Open-pFind通過基于支持向量機的肽譜匹配重打分算法,挖掘數(shù)據(jù)中的特征信息,并據(jù)此進行第二次精細搜索。同時,Open-pFind集成了前端數(shù)據(jù)處理的pParse模塊,對肽段母離子進行校準,并有效提取混合譜圖,進一步提升了譜圖解析率。
在四組典型質(zhì)譜數(shù)據(jù)集上,Open-pFind解析率均達到了70%~85%,比同類軟件鑒定結(jié)果多出50.5%~117.0%。對于高質(zhì)量的串聯(lián)質(zhì)譜圖,Open-pFind甚至基本實現(xiàn)了*解析。在搜索空間是常規(guī)引擎5個量級的基礎(chǔ)上,Open-pFind的速度仍然是常規(guī)引擎的2~3倍,是同類開放式引擎的數(shù)十倍甚至上百倍。在超大規(guī)模人類蛋白質(zhì)組數(shù)據(jù)集上,Open-pFind報告了超過12000種蛋白,且準確度遠遠超過以往常規(guī)分析結(jié)果。
原文標題:
Comprehensive identification of peptides in tandem mass spectra using an efficient open search engine