電子報：旗標學習報: AI 準確判讀影像、解讀基因定序及協助藥物開發都將為醫師帶來更多救命籌碼

AI 準確判讀影像、解讀基因定序及協助藥物開發都將為醫師帶來更多救命籌碼

深度學習在醫療應用上所使用的神經網路演算法，當中牽涉到的技術都是模式辨認 (pattern recognition)，也就是機器靠著成千上萬 (很快便增長到數百萬) 個範例來學習。這類系統越來越強大，以文字、語言和影像為基礎的資料學習，其錯誤率已降到 5% 以下，低於人類門檻 (如圖 1 )。

對某些大量倚賴影像的醫生 (我稱這些人為『模式醫生』) 來說十分合適。比如，放射科醫生看 X 光片，病理科醫師會看切片。所有臨床醫生每天其實多少都有模式辨認的工作，數量較少但比例仍然可觀，而 AI 演算法就有潛力支援這些工作。

圖 1：機器 AI 在辨識影像 (1. A) 與詞語 (1. B) 的準確性增加了，如今兩者處理附有分類標籤 (label) 的資料集之表現都超越人類。

深度學習演算法判讀影像的實例成效

有幾個例子可以說明 AI 適合用來協助讀取醫學影像。Mayo 醫學中心研究團隊證實，腦部磁振造影的紋理特徵能夠預測染色體 1p/19q 聯合缺失的基因組異常，而這組基因異常在某些腦癌中都可看到。同樣地，運用深度學習演算法來判讀大腸癌病患的磁振造影，能夠找出病患是否有 KRAS 基因突變，該基因與大腸癌有密切關聯，這對治療決策有著關鍵性的影響！

將深度學習應用在髖部骨折病患的 X 光影像上，所得到的結果就跟從更先進也更昂貴的醫療造影技術 (如磁振造影、核醫骨骼掃描或電腦斷層) 得到的結果一樣準確！也就是說深度學習從較低成本的影像就能獲得與高階影像同等的精確度，品質相同卻更省經費！

來自學術醫學中心的諸多報告都顯示了深度學習分類各種掃描影像的強大能力！包括對肝臟、骨骼年齡與肺結節的電腦斷層分類，都在在證實了機器具有作出準確診斷的能力！東京大學研究團隊開發了一套 6 層卷積神經網路，對來自 460 名病患的肝臟腫塊電腦斷層進行分類，所得結果與真實值相比，整體準確性高達 84%！史丹佛大學研究團隊開發的卷積神經網路使用超過 1 萬 4 千張 X 光影像的訓練，學習如何量化骨骼年齡，所得出的結果也與三位專業級放射科醫師一樣準確！韓國首爾大學資訊科學專家也開發了一種深度學習演算法，使用超過 4 萬 3 千張胸部 X 光影像來訓練，也被證實能夠檢測癌性肺結節。該演算法在 4 個回溯式世代研究 (retrospective cohorts) 中的結果也非常準確 (AUC 0.92~0.96，編註：AUC 愈接近 1 愈好，接近 0.5 則無效)，所得出的結果與專業認證的放射科醫師不分軒輊，顯示出機器能扮演好「把關者」的角色提供附加價值，若與醫師相輔相成一定能使診斷準確度再創新高！

說到這裡，你不需使用神經網路就可以知道影像演算法將帶來巨大改變了！

藉由影像還能知道更多，包含病患的各種身體狀況！

視網膜影像的神經網路能提供不只是老年黃斑部病變的資訊。一項採用 30 萬名病患的 Google 研究顯示：視網膜影像的 AI 模型不依靠臨床知識建立，而是從資料中學習規則，就能預測病患的年齡、性別、血壓、吸菸狀況、糖尿病控制 (透過糖化血色素得知) 及重大心血管疾病的風險 (如圖 2 )。

圖 2：預測關鍵指標的視網膜影像。

AI也能協助解讀腫瘤基因定序資料

AI 與基因體編輯技術 (genome editing) 的結合已被證明是一組非常強大的搭檔。微軟研究院 (Microsoft Research) 便曾開發一款名為 Elevation 的演算法，可在嘗試編輯 DNA 時，先預測到人類基因體的脫靶效應 (off-target effect)^*1，因此可以找出編輯 DNA 鏈時的最佳位置，也可以為 CRISPR^*2技術設計嚮導 RNA。它的性能表現較其他幾款 CRISPR 設計演算法都要來得好。這些演算法使用的大多是機器學習，不僅對實驗生物學 (experimental biology) 的精確率而言至關重要，未來在利用 CRISPR 編輯技術的血友病、鐮刀型紅血球疾病 (sickle cell disease)^*3與地中海貧血等疾病的臨床試驗當中，也仍會扮演重要的關鍵角色。

*1 編註：「脫靶」指的是基因編輯時並未照實驗所計畫的，在正確的目標基因上進行基因編輯，因此在非目標基因序列上，產生無法預期的變異。通常序列相似的同源基因，最有可能發生脫靶的狀況。

*2 編註：CRISPR為Clustered Regularly Interspaced Short Palindromic Repeats 的縮寫，全名為「常間回文重複序列叢集」，為基因編輯技術之一種。

*3 編註：鐮刀型紅血球疾病 (sickle cell disease) 是指由鐮刀型血紅蛋白 (Hgb S 或 Hb S) 所導致的一類遺傳性疾病總稱。紅血球因失常的鐮刀型血紅蛋白的聚合而改變形狀，由雙凹圓盤狀變為鐮刀型。這種鐮刀型的紅血球在經過微血管時，很容易破裂釋放出絲狀沉澱物導致血管堵塞。另外，紅血球的破裂會失去攜帶氧氣的能力，導致嚴重的貧血。

腫瘤的 DNA 甲基化資料已被證實非常適合做為 AI 在分類癌症時的輸入資料。柏林 Charity Hospital 的 David Capper 與同事於 2018 年進行了一項開創性的研究，利用腫瘤檢體的全基因體甲基化，將腦癌區分成 82 種不同的類別，得到的準確率為 93%，遠遠超越了病理學家。

此外，在 AI 的協助之下，也能從病患的癌症演化軌跡中辨識出隱藏訊號來改善病患的預後。AI 工具也曾用來協助發現癌症的體細胞突變 (somatic mutation) 與了解癌症基因交互作用中的複雜性。

利用 AI 預測正常細胞是否會癌化

另一個以 AI 探索癌症的著名案例，是一項利用一個複雜的生物系統來預測正常細胞是否會癌化 (cancerous) 的研究。研究人員使用能夠觀察腫瘤發展的青蛙－蝌蚪模型 (frog-tadpole model)，在幾個蝌蚪族群 (population) 中測試了三種試藥的各種組合，希望能讓某些蝌蚪的黑色素細胞發展成類癌細胞。結果令研究人員驚訝的是，雖然單一族群內的蝌蚪不會全部發展成癌症，但單一蝌蚪身上的黑色素細胞卻全都會有同樣的表現，不是全部癌化就是全部正常發展。於是研究人員便開始尋找能使生物體內只有部分細胞癌化，也就是發展成中間型 (intermediate form) 的試藥組合。

在進行了幾次研究，取得實驗的真實值之後，他們利用 AI 模型執行了 576 次的虛擬實驗，透過計算模擬胚胎在一系列試藥組合下的發育。雖然最後只有一組成功，其餘全數失敗，不過這樣的結果至少充分證實，即使是像此案例般只能在大海撈針的研究，也仍然能夠利用 AI 來建立模型，找出能引起中間型癌化的試藥組合。這項研究的發起人馬里蘭大學 (University of Maryland) 的 Daniel Lobo 表示：「如果單靠一位科學家的人力，即使模型完整、正確，也沒有辦法完全經由人工調整試藥的組合參數來找出符合期望結果的正確試藥組合。而這項研究提供了一個概念驗證 (proof-of-concept)，說明 AI 在找出正確的介入性治療用藥組合以獲得特定結果時，能夠提供相當程度的協助」。

AI協助藥物開發，經濟又省時！

成功辨識並驗證新的候選藥物 (drug candidate)，是生物醫學最大、絕對也是最昂貴的挑戰。由於耗資甚鉅，失敗風險也高，因此任何有望減少藥物研發費用或難度的技術，業界都樂於迅速採用。2018 年時，已經有超過 60 家的新創公司與 16 家製藥公司使用 AI 進行藥物開發。這些團隊運用了許多 AI 工具來協助這項如同大海撈針的任務，包含搜尋生物醫學文獻、以電腦挖掘數百萬個分子結構、預測脫靶效應與毒性，以及大規模的細胞檢測分析等。而其他能夠更快研發出更多有效分子的方法 (自動化分子設計) 也正在開發當中。這些公司在運用 AI 時採用的策略差異很大，因此我將簡單扼要地介紹一些案例，讓各位能夠了解 AI 可能帶來的影響 (見表 1)。

表 1：從事 AI 開發藥物的部分公司名單。

* 編註：配體 (ligand) 在生物化學和藥理學中，指一種能與傳導細胞外信號，並在細胞內產生特定效應的分子(也就是受體)結合以產生某種生理效果的物質。

利用自然語言處理擷取生醫文獻和化學物質資料庫中的分子資訊

首先要介紹的類型是利用自然語言處理，從生物醫學文獻和化學物質資料庫 (chemical database) 中擷取目前所有關於藥物及分子的資訊。這樣做的另一個好處是可以不受既有理論及偏見束縛，以無特定假設的方式分析完所有資料。

小分子的世界如銀河般地浩瀚，這些小分子的數量遠遠超越了太陽系所有原子數量的總和 (如圖 3)，其中具類藥性且可被製備的化合物約有 10⁶⁰種。這對 AI 而言，簡直就是完美的發揮空間。因此，目前 Exscientia 公司正在為這些化合物建立完整目錄，而 Epiodyne 公司則已整理出 1 億種尚未製備但易於合成的化合物。加州大學舊金山分校的 Brian Shoichet 則是主導一個止痛藥物開發計畫，將 300 萬種化合物篩選到僅剩 23 種。德國明斯特大學 (University of Münster) 的有機化學家們則一直在運用深度學習，使化合物的合成更具預測性、更快速與簡便。

圖 3：以對數尺度比較化學物質資料庫與其他度量標準。

藉由機器學習進行化學反應預測

藉由機器學習進行化學反應預測也有一些進展，普林斯頓大學的 Abigail Doyle 與其同事於 2018 年發表的研究就是其中一例。他們讓事情變得好像很簡單：「你只需要描述結構，輸入起始材料、催化劑與鹼基^*4，軟體就能找出它們之間的相關化學特徵，並輸出化學反應的產率 (yield)。機器學習會將所有的化學特徵與產率配對，目標是做到無論你放入任何結構，它都能告訴你反應的結果！」

*4 編註：核鹼基 (Nucleobase) 是指一類含氮鹼基 (nitrogenous base)，在生物學上通常簡單地稱為鹼基 (base)。鹼基在 DNA 和 RNA 中負責配對作用。

使用對抗式生成網路 (GAN) 協助開發藥物

英科智能公司 (Insilico Medicine) 目前致力於癌症藥物開發，已從公共資料庫中篩選出超過 7,200 萬種化合物。他們的做法很有創意，使用了一對對抗式生成網路 (GAN)^*5。第一套用來辨識潛在的治療分子 (therapeutic molecule)，第二套則刪除那些使用到已有專利化合物的分子。

*5 編註：關於對抗式生成網路 (GAN)，請參考旗標出版之《GAN 對抗式生成網路》一書。

BenevolentAI 為歐洲最大私人 AI 公司之一，他們建立了可篩選生物醫學文獻與化學物質資料庫的自然語言處理。來自 BenevolentAI 的有機化學家 Marwin Segler 和明斯特大學的同事設計了一套深度學習演算法，可以自行從數百萬個例子當中學習反應的進行方式。該演算法已根據超過 1,200 萬個已知的單步 (single-step) 有機化學反應，製造出了一些有機小分子。研究人員甚至從兩間享有盛譽的研究所請來一群化學家進行雙盲測試，看看是否能夠辨別出 AI 與人類設計的合成反應路徑，結果他們無法分辨。同樣地，格拉斯哥大學 (University of Glasgow) 的 Leroy Cronin 與他的團隊設計了一個有機合成機器人，可利用機器學習搜尋新的化學反應。該機器人每天能夠進行 36 次反應，而化學家每天只能進行 3 到 4 次。除此之外，機器人也進行了一些無法事先預測結果的反應。Derek Lowe 曾說道：「使用 AI 將讓化學家們有更多的時間去思考更多高層次的問題，像是該合成哪些分子以及為什麼，而不是將重心都擺在該如何製備出分子的方法及細節上！」

利用演算法搭配顯微鏡影像進行高通量藥物測試

影像處理公司 Recursion Pharmaceuticals 利用演算法及自動顯微鏡，針對細胞和細胞核的尺寸與形狀等極詳細的特徵，進行人體細胞的高通量藥物測試。他們建立了超過 2,000 個分子的模型，來觀察其中有哪些可以將基因疾病模型的病態細胞轉變成看起來較健康的細胞。該公司已利用這種策略辨識出至少 15 種新的潛在治療方式，其中一種針對腦部海綿狀血管畸形 (cerebral cavernous malformation) 的治療方法已進入臨床試驗階段。

自動化藥物開發可縮減找出潛在藥物標的到研發出候選藥物的時間

Atomwise 公司利用深度學習演算法篩選了數百萬個分子以發展藥物開發計畫，至 2017 年底為止，已成立超過 27 個計畫，治療範圍包含伊波拉病毒感染 (Ebola) 與多發性硬化症 (multiple sclerosis) 等疾病。該公司的神經網路也藉由搭配 3D 模型，提出了一份包含 72 種最有可能與特定疾病在分子層面發生良好交互作用的藥物列表。瑞士聯邦理工學院 (Swiss Federal Institutes of Technology) 的 Gisbert Schneider 指出：「自動化藥物開發的概念可協助大幅減少藥物化學 (medicinal chemistry) 計畫所需測試的化合物數量，同時為調適性分子設計 (adaptive molecular design) 建立一個理性、無偏見的基礎。」

「加速藥物醫療機會聯盟」(Accelerating Therapeutics for Opportunities in Medicine)，簡稱 ATOM，集合了數個學術中心，如杜克大學、杜蘭大學，與 Merck、Abbvie 及 Monsanto 等製藥公司共同開發、測試與驗證跨領域的癌症藥物開發方式，將現代科學、科技與工程學、超級計算 (supercomputing) 模擬、資料科學與 AI 高度整合至一個藥物開發平台，希望最終可與整個藥物研發社群共享。ATOM 的目標是縮減從辨識出潛在藥物標的 (drug target，藥物作用的目標) 到研發出可擊中標的之候選藥物所需的時間。這段過程通常最快也需要 4 年，ATOM 希望能夠壓低至 1 年。

預測實驗性藥物 (experimental drug) 的正確劑量

AI 在此領域的用途不只有藥物開發，還可預測實驗性藥物 (experimental drug) 的正確劑量。由於最佳藥物劑量可能取決於每個個體身上的許多變數，如年齡、性別、體重、基因體 (genetics)、蛋白質體學及腸道微生物體等，因此是建立模型與使用深度學習演算法的理想題材。不過藥物之間產生交互作用的可能性，也提高了確定正確劑量的困難度。目前已有多間學術中心採取這種預測方式，包括加州大學洛杉磯分校、史丹佛大學、加州大學舊金山分校、維吉尼亞理工大學 (Virginia Tech) 和堪薩斯大學 (University of Kansas)。正如維吉尼亞理工大學的 Josep Bassaganya-Riera 所言：「每個人都會有一套自己的參數集，但與其分析每一項特徵，我們更應該了解的是由各項特徵混合而成的獨特組合所代表的意義。而機器學習能夠幫助我們做到這一點。」

本文節錄自 AI 醫療 DEEP MEDICINE