藥物探索就如一場數字競賽
在藥物研究中,可能存在的有機分子的數目估計超過10^60,但高通量篩選(HTS)方法的極限為10^6到10^9,其中通常小于10^3分子具有所需的生物活性。為了使得這種方法能發揮作用,我們必須確保我們的10^6個子集的分子能夠代表比10^60更大的集合。然而以制藥公司的傳統方式收集到的分子通常不能代表更大的“化學空間”。是否有方法使收集的數據更具代表性是挑戰之一。接下來的挑戰是設計的新藥既具有最大限度的療效又能使昂貴的合成過程最少。通常統計學家可能會考慮設計實驗(DOE)來實現這一點,但在多維世界的化學空間,這是一項具有挑戰性的任務。JMP的獨特的數據交互式可視化功能, DOE能力和數據整理工具,使我們能夠結合化學原理的方法,系統地探索和評估大型復雜的數據集。通過這種方式,我們分析現有的數據,確定下一步的工作,大大加快了藥物研究的進程。
藥物研究是一個漫長的旅程,從數以百萬計的潛在的開始點一直到一個單一的可能有一天會成為一種市場化藥物的候選分子。縱觀整個醫藥行業,從項目開始到一個藥物到達市場約需要11到14年的時間。每一個成功藥物的平均成本是50億美元(福布斯,2014)。耗費如此長的時間和巨大成本的原因有很多。從統計角度的一個原因是我們在尋找一個極不可能的結果。需要給出可以把原子放在一起組成分子的各種各樣的方法,并考慮自然規律與藥物分子的限制,我們可以估計藥物分子可能存在的總數。參與研究的原子總數多達17個,這就形成了1660億個組合。藥品經常包含40個或更多原子,估計就達到10^60個是潛在的藥物分子了。
傳統的方法從化合物的大集合中通過蛋白化驗來尋找對靶蛋白具有某些活性的藥品分子(亦稱hits),這種方法也被稱為高通量篩選(HTS),但是這種方式可以支持篩選的化合物的最大數量約是一百萬。最近我們關注到基因編碼庫的創新方法,可以同時進行幾個化合物的測試。這些方法能夠相對容易上網的篩數十億化合物,然而這僅僅是可能的化合物的小部分。如何能夠成功地運用這些方法,是巨大的挑戰。
在下一階段的藥物研究中我們面臨類似的問題。有效復合物(或一系列類似的化合物組合)的識別使藥物研究人員能夠聚焦在單一分子的“結構支架”。緊接著的任務是人工合成和測試類似的化合物,尋找核心結構支架上不同取代基組,分析局部結構活性的關系(SAR),見圖1。這里的挑戰是,即使限制在對少量的原子分析,依然有數百個潛在的子結構組選擇,如果考慮原子越多選擇組合就越多。作為藥物研究人員迫切需要知道如何選擇化合物才能快速、高效地探索結構活性關系。
為了簡化問題,我們運用了類似化學結構具有相似性能的理論。這意味著一個多個維度的“化學空間”的存在,其中涵蓋所有潛在有效的化學分子結構。因此一個理想的HTS篩選集合是具有均勻化學空間屬性的一組化合物。從概念上講,這是一個很好的方案,但我們沒有有效的化學空間界定可以使用。我們有多種計算化學結構性能的方法,但發現經常出現化學結構的描述不完全,以及潛在結構的范圍太大的問題。在現實中,雖然藥物公司定期收集新化合物來補充篩選的需要,但是許多HTS的結論只有非常微弱的“hits” ,有的甚至沒有“hits”,這是因為化合物的篩選集不能代表充分的化學空間。
圖1 典型的藥品(Iressa)分子結構顯示結構支架(黃色)和取代基(藍色)
圖2 GPCR有效的化合物結構支架 X是分析對象組的位置
當化學反應鎖定在分子的單個結構支架時,我們就可以確定可用的范圍,開始應用統計方法使化合物的多樣性最大化。圖1顯示了一個具有三個取代基組圍繞在固定結構支架的化合物。在第一輪的探索中,我們傾向依次改變每一個結構組(在隨后的幾輪進行最好的組合),得到僅有一個取代基位置不同的類似的化合物組成的合成庫。
傳統的設計化學合成庫的方法是選擇一個易于處理的合成方法,并利用已有的試劑合成盡可能多的化合物。雖然在成本方面是比較經濟,但是單一的合成路線將導致化合物缺乏多樣性。
我們希望利用量化的因子來準確地描述代表特定的化合物集合,因此采用了實驗設計的(DOE)原理,實現了使用更少的化合物也能確保更多的多樣性。
通過篩選確認了一個A類G蛋白偶聯受體有活性的化合物,其分子結構支架包含取代苯基環。我們希望探索取代基位置的結構活性關系。基于行業經驗和分子結構不同的基本屬性的原理,我們選擇三個屬性代表94個小的化學取代基。
這些屬性是:
l Pi(一種親脂性度量,一個區分水和有機溶劑指標);
l Molecular Refractivity(MR,衡量分子的大小);
l Sigmap(測量分子的電特性,如吸電子或供電子)
從主成分分析(PCA)看MR和Pi有一定的相關性,然而對于模型都是重要的,所以保留這兩項在模型中,以示區分。
在使用連續變量作為DOE的輸入時,有些組合在化合物集中是不存在的,因此我們通過將原有變量分成高中低三類轉換成分類變量(“高”與“低”為上下四分位數,“中”是的中位數)。基于這些輸入信息,定制設計給出了最小的9個化合物來表示這個集合,從而進行合成。(包含原先的一個)共有10種化合物可用于建模。

圖3 10個初始化合物的JMP多元回歸的結果顯示Pi,MR,Sigmap與 pIC50無明確的聯系
圖4 訓練集的化合物3D結構圖顯示了大型取代基在分子內形成57度的夾角
運用簡單的多元線性回歸(MLR)模型對10個化合物訓練集的數據進行擬合,令人失望的是測量活性(pIC50)沒有構建出理想的模型,參見圖3。
這時我們需要考慮用來描述這些化合物其他屬性,特別是可能描述的離群化合物和解釋它們的顯然反常行為的屬性。我們意識到離群化合物有明顯的不同于大多數集合的形狀。我們使用分子力學計算每個分子的最小能量構造,選定了苯基環和相鄰的羰基之間的面夾角(見圖4)代表形狀差異。在MLR模型中引入這個因素后極大地優化了模型的擬合度。Pi和Sigmap是不顯著的(在95%置信度),因此從模型中移除。最終的模型如圖5所示,MR和苯基環和相鄰的羰基之間的面夾角解釋了~63%的pIC50a的方差。
圖 5 10個初始化合物的JMP多元回歸的結果顯示MR和pIC50存在相關性
圖 6 測試集的17個化合物的測量數據顯示了多元回歸模型的預測效果
我們也容易解讀一個比較簡單的模型,從而理解觀察到的內在關系。圖5參數估計表顯示pIC50與MR有負相關,與面夾角正相關,即最有效的化合物是那些具有最大的扭曲度和最小尺寸的化合物。在此基礎上又合成了17種化合物,其中大部分很好地預測了pIC50(同時加入了一些負面對照組)。圖6顯示了17種化合物訓練集pIC50的實際測量值與預測值的關系。雖然不是每一個化合物都預測得很好,但其中10個化合物(圖6中所示的空心方塊)的預測是有效的,并被證實。
令人滿意的是該模型的預測(告訴我們無效的化合物特性)和解釋(告訴我們哪些屬性對于效力是重要的)使我們確定了現有集合中可以實現最佳效力的取代基組,即使考慮更大的化合物集合也成為可能。我們也能確定不值得擴大的范圍,比如使用具有更多原子的更大的取代基,因為我們已經觀察到效力與分子大小的負相關性。
在這項工作中,我們已經表明,實驗設計(DOE)的原理可用于藥物研究,但仍需然仔細考慮構建SAR的問題,并盡可能地避免變異,從而使得通過少量因子代表化學多樣性成為可能。
我們還發現,因子選擇需要一定數量的試錯法,很難說哪個因子是最重要的,是第一優先的。DOE在這個案例的成功運用,使得深入的探索結構活性的全貌,僅通過四分之一的可能化合物就聚焦在最有價值的屬性空間。
關于JMP
JMP,敏捷分析 成就無限。
JMP是全球頂尖的數據分析解決方案供應商,致力于幫助人們從數據探索、分析與挖掘中,快速發現隱藏在數據中的秘密與價值,從而改善決策、提升質量和生產力、改善業務流程、優化供應鏈、提高運營效率和客戶滿意度、降低運營成本,擴大利潤與市場份額,實現創新,提速研發,以及……成就無限。
JMP擁有超過20萬全球用戶。 欲知三十年多來JMP如何幫助客戶以敏捷分析成就無限,請訪問:www.jmp.com/china



