移到主要內容

讓基因資料被正確理解—前處理在精準醫療中的角色與挑戰

讓基因資料被正確理解—前處理在精準醫療中的角色與挑戰

讓基因資料被正確理解前處理在精準醫療中的角色與挑戰

醫工系 邱彥榕助理教授

現行精準醫療的研究上,基因體資料分析是不可或缺的基礎。無論是癌症的分型、免疫反應的預測,還是藥物反應的個人化的建議,這些決策背後往往仰賴一筆筆DNA定序、RNA定序、單細胞序列或空間轉錄體等定序定量資料所提供的資訊。然而,資料量的日益增加導致挑戰愈加明顯,研究者試圖以AI來解決問題。但使用AI前,基因體資料適合直接拿來分析嗎?

本團隊的研究核心,在於「AI訓練前的第一步:基因體資料的前處理」。雖然此環節經常被視為準備工作,但它影響智慧醫療能否真正落實。基因體資料前處理至關重要,例如:在不同實驗、平台、時間與場所中取得的基因資料,常混入技術性雜訊,稱之為批次效應(batch effect)。批次效應的產生原因很多,包含儀器設備差異、樣本處理流程、定序平台、甚至分析人員的操作習慣。這些因素往往會在無聲無息中影響基因表現的分析結果,使得資料之間存在「非生物性」的系統性偏移。若未經妥善處理,AI模型很可能會學習到錯誤的規則,把技術誤差估計成疾病訊號,導致預測偏差,甚至無法在不同資料集之間通用。既然這些珍貴的資料已經存在,為何不好好利用?

為了解決這些問題,本團隊已整合多來源的數據,成功且有效地建立前處理流程。這其中包含從序列資料開始分析,到基因表現值的轉換與正規化,再到最關鍵的批次效應校正。本團隊在資料整合的過程中,運用了不同的模型架構來進行分佈轉換與對齊,讓原本來自不同來源與實驗批次的資料得以被投射到特定空間中,使得不同來源的相同細胞,能夠群聚,進而降低批次效應對下游分析的干擾,保留真正具有生物學意義的訊號。

這些方法仍在持續優化之中,唯就目前的肝癌相關的研究成果中,本團隊成功整合來自不同公開資料庫的bulk RNA-Seq分析,發現與免疫細胞浸潤相關的表現趨勢。此外,本團隊亦已建立單細胞定序資料的整合分析,利用批次去除的演算法減少不同數據來源的系統錯誤,建立預測模型,用於估算大規模組織樣本中的細胞組成,進一步解讀腫瘤微環境中的異質性。目前,我們正嘗試系統性分析多來源的癌症基因體數據與其藥物反應結果,試圖預測癌症患者的預後。

未來,本團隊將發展利用Foundation Models進行前處理分析,因為這些模型具備上下文理解與跨結構資訊整合的能力,若能有效應用於基因體資料,相信更有潛力協助進行批次來源辨識、樣本間分布對齊,甚至分析細胞組成與多模態資料整合。

基因資料本身不會說話,但它們蘊藏著疾病的線索、生命的密碼與療癒的可能。我們試圖理解這些資料的脈絡,並找到合適的語言解釋疾病與健康的解方。要讓模型聽得懂、學得準,前提是給它乾淨、無偏且可信的資料,而這一切,當從最基本的資料「前處理」開始。