物聯傳媒 旗下網站
登錄 注冊
RFID世界網 >  新聞中心  >  物聯網新聞  >  正文

治愈癌癥的良方是數據,海量的數據

作者:本站采編
來源:百度百家
日期:2016-10-26 09:29:50
摘要:如果我們把人類生物學的復雜性比作一部動畫電影,那么在一百年前,我們對這種復雜性的了解大約相當于電影畫面的一個像素。隨著我們看到的像素越來越多,我們就會逐漸看出其中的模式和主題,這是了解整個故事的開端。
關鍵詞:癌癥基因數據

  如果我們把人類生物學的復雜性比作一部動畫電影,那么在一百年前,我們對這種復雜性的了解大約相當于電影畫面的一個像素。隨著我們看到的像素越來越多,我們就會逐漸看出其中的模式和主題,這是了解整個故事的開端。  


  幾年前,埃里克·夏特(Eric Schadt)認識了一位患上癌癥的女士。

  那是一種具有侵襲性的結腸癌,發病很快,并且轉移到了肝臟。

  這位女士來自密西西比州,是一位軍人遺孀,年紀輕輕的她要獨自撫養兩個女兒。丈夫的撫恤金只夠她享受最基本的醫療保障——到軍方醫院就醫,那里的腫瘤科醫生早就不堪重負,醫療條件也只能用簡陋來形容。身患四期癌癥走進這樣的醫院,那就像回退到世界尚未繪制出人類基因組圖譜的時代:

  在那個時代,人們仍然以為“結腸癌”只有單一的病因,而不知道會有無數種病因,造成各種獨特的變異;在那個時代,治療這種癌癥使用的是同一種藥,不管你是來自何處。

  那是一個沒有大數據和機器學習,也沒有希望的時代。

  當時,夏特剛剛在西奈山醫院(Mount Sinai Hospital)組建了伊坎基因組學和多尺度生物學研究所(Icahn Institute for Genomics and Multiscale Biology)。

  在聽說了密西西比州那位女士的情況之后,他只是簡單地說:“那正是我們要接收的患者類型。”

  他這么說的意思是,對于這樣的患者,當前的醫療手段將無法起到作用,而未來的醫學——即使用超級計算機篩查海量基因數據,尋找有可能啟發新治療手段和方法的模式——則無法及時到來。  


  埃里克·夏特(Eric Schadt)

  夏特不是癌癥專家,他甚至不是醫生。

  他是一位數學家,精通分子生物學和計算生物學,有生以來還沒有治療過什么病患。

  通過自己在西奈山醫院開設的新實驗室,夏特可以圍繞這位女士的癌癥采集1TB相關數據,是在傳統環境中的數千倍,目標是找到對抗癌癥的新方法。然而那位女士到最后還是離開了人世,給這位從未給人治過病的科學家留下了難以言喻的苦澀。

  坐在西奈山醫院的辦公桌旁接受采訪時,夏特顯得率直和不設防。今年51歲的他不管到哪兒都喜歡穿短袖POLO衫和短褲。對任何醫學研究人員來說,在發表論文或研發藥物時,在遠離人為影響的情況下,保持樂觀是相對容易的。然而,親身體會自己工作所產生的影響,并且親眼目睹某個人在自己面前慢慢死去。“那是我以前從未經歷過的更深層次的心靈震撼,”夏特說道。

  “我們正處在一種越來越快的增長曲線之上,你會自然而然地展望未來,你會想:我們會把這個問題搞清楚的,”他說,“最終,我們將會知道所有的細胞都在做什么,所有的亂子都是怎么回事。這當中讓人深覺無力的部分是,隨著我們不斷長進,我們也會不斷遭到打擊,那就是在這個過程中顯現的日益加劇的復雜性。”

  十多年來,我們一直在談論基因測序和個性化醫療的潛力,談論計算機處理能力的進步加上對個體基因組更進一步的了解如何能夠讓我們邁入奇跡時代的門檻。這種理論認為,有了足夠多的數據之后,沒有什么疾病是無法治療的。但正如夏特了解到的,數據下沉到個體DNA的層面仍然不夠。要在人群中檢測出疾病的模式,應用機器學習技術,找出導致疾病的各種基因突變,以及采取相應對策,那將需要海量的數據,達到艾字節(EB,即百億億字節)的級別。這些數據集的規模越大,科學家的模型和預測就會變得越精確和越強大。

  我們必須說服那些收集個人數據的醫療中心和基因技術公司,讓他們不要為了自己謀利把數據囤積起來。

  問題就在于,我們如何才能獲得這些艾字節級別的基因數據。  


  事實證明,你不可能直接向成百萬上千萬的人索要他們的健康數據。

  你必須首先說服他們相信,你只會利用這些數據做好事,而且不會讓它落入壞人之手。

  然后,你必須說服那些收集個人數據的醫療中心和基因技術公司,讓他們不要為了自己謀利把數據囤積起來,而是應該進行共享,從而讓整個科研社區能夠實現規模效應——即可用的數據突破了臨界量,個體數據集終于達到數百萬的量級。

  夏特跟很多其他人認為,要理解疾病的成因,并設計出新的治療手段和方法,那是必不可少的。目前,那種體量的數據仍然是不可得的。眼下還沒有人能建立起那種體量的數據集。

  不過,從科技巨頭到生物醫藥初創公司,形形色色的公司都在競先解決數據規模問題。夏特希望參與其中。

  如果我們把人類生物學的復雜性比作一部動畫電影,那么在一百年前,我們對這種復雜性的了解大約相當于電影畫面的一個像素。如果只有單個像素,你是無法知道電影講了什么故事的。但隨著我們看到的像素越來越多——成百上千個,或者說是電影像素總量的1%——我們就會逐漸看出其中的模式和主題,這是了解整個故事的開端。

  正是這種想法促使夏特在2011年組建了伊坎研究所。

  在那之前,他曾在默克公司(Merck)做過十年的藥物研發工作。(曾經有一段時間,默克公司用于治療心臟病、糖尿病和肥胖等疾病的代謝性疾病藥物有一半源自于夏特的研究成果。)

  面對著基于疾病和藥物研發單基因模型做出的、被人們廣泛接受的假設,夏特開始相信,基因突變不是獨自發揮作用的,而是形成一個龐大的網絡,讓疾病能夠突破我們的自然防御能力。

  只有通過深入的生物信息學探究,我們才有可能理解這些網絡的作用機制。

  為了探索自己的復雜性模型,夏特帶著金融家兼慈善家卡爾·伊坎(Carl Icahn)提供的1.5億美元來到西奈山醫院,在那里的地下室里建造了一臺名為“密涅瓦”(Minerva)的超級計算機,對醫院每年收集的數千份基因組數據進行分析。  


  超級計算機“密涅瓦”

  他聘請了其他金融工程師,其中包括為Facebook組建首支數據團隊的杰弗里·哈梅巴赫(Jeffrey Hammerbacher)。按照西奈山伊坎醫學院一位知名腫瘤學家的話說:“突然之間,周圍都是這些數學極客跑來跑去,他們看起來像是那種開發電子游戲的程序員。”

  “我們需要100家西奈山醫院來達到所需的規模,那樣才能在患者數據中識別出能夠指導我們進行診斷和治療的模式。”

  沒過多久,夏特就意識到,他將需要“一艘更大的船”。

  2014年,伊坎研究所跟非營利性生物醫學研究機構Sage Bionetworks聯合啟動了一個項目,試圖治愈罕見兒童疾病,比如囊性纖維化、鐮狀細胞貧血癥以及泰-歇克斯癥,總計有170種。

  他們將這個項目命名為“韌性項目”(Resilience Project),研究人員致力于尋找人群中攜帶了致病基因但不知何故沒有發病的個體。

  在尋找這些“韌性個體”的過程中,夏特及其團隊積累了60萬人的基因數據池。

  在當時,這是規模最大的基因研究,其收集的數據擁有十多個來源,其中最重要的包括23andMe、北京基因組研究所,以及麻省理工與哈佛大學聯合創辦的博德研究所(Broad Institute)。

  但是,在搜索60萬份基因組數據時,研究人員發現,在自己著手解決的170種疾病中,只有8種有潛在的韌性個體。

  事實證明,這項研究的規模還是太小了。

  通過計算致病突變在人群中發生的頻率,夏特及其團隊開始相信,他們需要的有用被試者數量不是60萬,而是要達到千萬級別。

  盡管“韌性項目”背后擁有強大的計算能力支持,而且看似收集到了規模龐大的數據,但要破解“韌性”背后的基因密碼,夏特手中掌握的數據在數量和質量上仍然達不到需求。

  “我們需要100家西奈山醫院來達到所需的規模,那樣才能在患者數據中識別出能夠指導我們進行診斷和治療的模式,”夏特說,“在我任職的五年中,我意識到,這種事情不可能在醫療中心的圈子內部變成現實。它們彼此之間有太多隔閡,相互競爭,沒有像其他幾乎所有行業那樣形成一種能夠推動醫療行業進步的連貫框架。”由于大型醫療中心基本上壟斷了自家患者的數據,而且沒什么經濟誘因促使它們在關鍵研究領域展開相互合作,夏特表示,“顛覆創新將出現于現有醫療機構之外。”

  出于這個原因,夏特創立了自己的基因數據公司Sema4。

  這家公司將專注于收購和擴展那些專門從事基因檢測(比如致癌基因攜帶者篩查和無創性產前檢測)的公司,以此來收集和共享數以百萬計的個體數據集。

  在Sema4的可搜索平臺上,醫生將能即時訪問海量的基因組數據以幫助診斷自己的患者。

  制藥公司可以付費使用這套系統,來尋找臨床試驗所需的患者人群。

  至于科學家——他們目前掌握的分析工具因為更加強大的計算能力和機器學習算法而得以增強——他們將終于能夠獲得足夠多的基因數據來推動自己雄心勃勃的研究。

  盡管一些科技巨頭正在進軍生命科學領域,美國國立衛生研究院(NIH)也在征求100萬志愿者來創建自己的大型生物數據庫,但夏特認為,最用心于實現基因數據理想規模的是Sema4及其同類初創公司——主要代表包括克雷格·文特爾(Craig Venter)的Human Longevity以及黃馨祥(Patrick Soon-Shiong)的Nant-Health。

  雖然這些公司會在收集大量高質量生物數據方面展開競爭,但Sema4將脫穎而出,該公司的辦法是向世界各地的學術性醫療中心和非營利機構研究人員免費開放自己的基因數據庫。

  夏特表示,如果競爭對手需要獲得Sema4數據庫中一個子集的信息,那么他們將可以付費訪問Sema4的搜索平臺。或者,Sema4和其他公司可以聯手為“韌性項目”這樣雄心勃勃的努力(只不過規模更大)創建大型的數據集。

  通過收購和擴展全美各地現有的基因檢測公司——它們目前各自為政,但在Sema4的旗幟下將組合創建出一個巨大的基因數據網絡,并實現統一的安全和許可標準——Sema4將能實現上述增長。

  夏特承認,要求一個人把自己的生物數據交給一家匿名公司,那不是什么簡單的事情。盡管公共部門和私人部門已經投入數十億美元的資金用于對現有數據網絡進行現代化改造和提供安全保障,但數據泄露事件仍然時有發生。

  在Sema4,患者將被詳盡地告知,他們的數據將如何被加密、接受匿名處理、擦除身份識別信息(除了加密密鑰以外)。即使發生了數據泄露事件,某個人身份被識別并暴露的機率也是極低的。

  在建立了這樣的數字基礎設施之后,夏特設想了這樣一種未來:

  越來越多的患者不僅愿意分享自己的基因數據,還將分享通過血糖儀、血壓計和吸入器等追蹤設備收集的醫療和生活方式信息。最終的希望是,這些日益復雜但對患者越來越友好的測試將變得非常普及,以至于他們身體的微生物群會定期得到檢測、他們的RNA會經常接受測序,他們的血液細胞會持續得到監控以發現病變跡象。

  像西奈山醫院這樣的醫療中心,它們目前對患者數據事實上的壟斷將被打破。研究人員將最終能夠訪問海量的基因數據,它們正是未來醫療技術突破所必需的。

  “如果數據變得更廣泛可得,并且可以利用整個世界的智力來完善疾病模型,那我們是否可以更好地造福人類呢?”夏特自問道,“絕對可以。”這是如數學一般精準的醫學,不是臆測。有朝一日,每一種疾病——甚至是四期癌癥——都可能被治愈。

  大舉押注生物數據的四家科技巨頭: 


  Alphabet

  Alphabet的Verily Life Sciences團隊在自己的Baseline研究項目中使用了機器學習技術,他們會把來自成千上萬健康志愿者的基因、臨床和醫學成像數據饋入機器,以期更好地理解是什么讓這些志愿者保持健康——這樣的知識有可能幫助人們從一開始就遠離疾病。  


  IBM

  在上世紀70年代,世界衛生組織(WHO)曾使用IBM制造的硬件來追捕天花病毒“余孽”。現在,IBM正在跟醫院合作,為曾在《Jeopardy!》智力競賽節目中贏得大獎的人工智能系統“沃森”提供健康數據。他們的目標是預測疾病、實現個性化醫療,甚至驅動虛擬醫療助理篩查醫療記錄和研究成果。  


  蘋果

  利用蘋果的ResearchKit,科學家可以大規模招募臨床研究被試者,并通過他們的iPhone收集實時健康數據。去年春天,該公司新增了CareKit,它讓蘋果用戶可以跟自己的醫生直接分享健康數據。  


  微軟

  微軟正在開發可以貼在皮膚上的微型傳感器,它們可以把生物特征數據傳輸到遠程健康監控器(以及潛在的大規模數據聚合器)之上。此外,微軟最近還宣布了利用機器學習和生物數據“解決”癌癥的計劃。

人物訪談