商業化人工智能APP面臨的四大挑戰
人工智能(AI)的血統可以回溯到許多偉大的計算機理論家:圖靈,以及Babbage——計算機器的發明者。我們如今在倫敦所看到的領先的團隊,例如正致力于機器學習的DeepMind,正是從計算機科學到實踐和商業應用的運動浪潮的一部分。
不僅僅是去年收購DeepMind的谷歌,還是擁有50人AI實驗室的Facebook,都看到了這樣的潛力。在最近的大潮中,幾乎有六分之一的YC公司正在試行機器學習,而IBM則為Watson——風險估測超級計算機——的成功押下了數億美元。
有上千個公司正在利用基礎設施來操控或洞察大數據。他們正基于對可編程數字化數據的分析來進行預測、推薦或執行任務。
我想在此來共享一些嘗試建立商業AI應用的創業者們需要面對的挑戰,以及一些公司是如何試著克服這些挑戰的。選擇、完善與結合他們的算法僅僅是成功創業者們深思熟慮的策略中的一小部分。其他重要的因素還包括:
為特殊數據建立私有連接可以為基礎數據訓練集建立基本。
對直覺的產生有著清晰的認知,以及可以從數據中收集意義或估測需要人工分類數據的捆綁軟件。
如果可能,建立一個數據模型,適應新出現的數據源。
一個訓練有素的團隊可以寫出或改寫公用算法,為了目標選擇正確的算法,并結合算法優化結果。
幾年前,任何類型的數據分析都會被貼上“數據科學”的標簽。今天,AI也作為一個標簽廣為采用,有些時候甚至文不對題。因此,首先要考慮什么可以被叫做AI。
現在的商業化應用是AI“狹窄”或“虛弱”形式。這意味著機器只專于某一個方面,并不能像人類(最常見的AI)一樣類比推廣。狹窄的AI是基于最熟悉的技術,并第一次用于商業化。而真正的AI可以很快地成為一個為人了解的數據科學技術。
一個很接近的方法便是“深度學習”,數據輸入在此并不被預先描述。反之,模式首先了解數據(以及數據結構),然后,利用多層非線性反饋,學習數據的重要特性,甚至自我修改。
這種技術已經出現了20多年,但它的數據集中模式需要相應計算能力的廣泛接入,后者到最近才得以實現。倫敦的創業團隊Improbable是利用大型計算能力與深度學習來模擬復雜環境——從開源游戲世界到真正城市——最令人激動的實例。
但許多我們遇見的企業仍然想要將機械學習(ML)結合到他們的技術中。對于這些企業的大部分來說,當我們挖掘表面之下的時候,ML并不是一個產品真正重要的部分。在很多的例子中,它只是一個讓項目看起來非常高端的導向牌。在另外一些情況下,即使它是真的,那也只是一個入場籌碼,并不會為競爭者提供技術上的阻礙。但它也有好的一面,它可以讓企業為客戶提供與日俱增的精確度與有效率的服務。
例如,一些企業會使用商業代碼,后者由許多大量的開源資料庫。一個有趣的開源項目,提供分布式流與批量數據處理的Apache Flink聯合了許多公開ML算法的資料庫,將數據集的規模擴大。
亞馬遜在四月發布了一個機械學習的服務,像MetaMind一樣的企業計劃將AI作為服務提供給開發者,這是已經人滿為患的預測分析的市場的擴展。因此現實是,大部分的著名算法與AI學習技術將會很快地商品化。
由此,公司利用狹窄的AI制作產品需要謹而慎之,仔細思考該如何建立并提升他們的產品或者服務。
護城河:訓練數據
訓練數據是建立狹窄AI基本的產品的核心。企業需要找到結構數據源來幫助建立可能的最佳模型。這種情況下,最佳意味著數據集足夠大以用來學習,并且足夠多樣以幫助大量客戶,而不是僅僅一個客戶,而機器可以利用結果來緊密地提升自己的處理以及決策。
機器學習理論提出,有了無限的數據,我們可以擁有所有的算法來生產相似質量的結果。因此如果企業對特殊數據有了私人接入口,他們會堅持商品化,并通過持續學習如何基于終端客戶的互動來提升算法,以此加強自己的領先位置。最著名的例子就是谷歌利用點擊流數據作為私人訓練數據源,進化搜索排序結果。
當我們以前這樣嘗試的時候,公司們有時候會將收益增長與價值創造相混淆。選擇基于簡單可得的數據集來短期收益的項目就不可能會獲得一個不同的,有價值的應用。
舉例來說,Digital Genius是倫敦與紐約的一個企業,研究自動化客戶服務對話。創始人在早些年自力更生,雖然這樣的方式令人欽佩,但初始的技術與商業選擇卻是不可擴展的。它的第一代技術版本非常靈活,但需要高度定制。另外,它最開始的需求是市場服務中的低價值的應用,這樣的結合并不能吸引那時的風投者。
然而,公司仍然找到了它的方向。這個團隊首先為了不同文本的AI應用,創造了一個可以重復利用的平臺,并從工具箱開始。其次,它找到了自動化文本交流中高價值的核心。重要的是,算法基于(和其他數據庫一起)對大量實時呼叫中心文本的分析,因此可以獲得可復制的產品,并作為大型生意的基本。
從數據集中獲取洞察與意義的技術驅動處理
獲取有用的數據集是唯一的開始:系統需要從數據中采集元數據,并以其作為輸入來提升機器的準確度。
我們發現最好的AI為主的企業們以提升算法的生產力、精煉能力和準確度。它需要大量迭代與時間——還有數據——來做到。
舉例來說,Unbabel是里斯本與洛杉磯的企業,以增強翻譯為核心任務。它必須要創造一個可延展的方法為譯者來注釋、修改并否決機器的翻譯。這種Unbabel的翻譯者所使用的工作流軟件可以評估翻譯的準確度,并且令人震驚的細致。不是簡單的是/否/也許的判斷,而是15到20個估測準確的方法可以為譯者使用,提供了許多替代品。準確度還包括了品牌對于Unbabel商業客戶的適合度。機器會利用這些反饋來自我進化。
這是個智能化且有效執行的模型提升的方法。它解決了質量與規模的難題,而不僅僅是效率,并承認這個機器還在進步之中,并不能滿足翻譯任務的徹底自動化。
訓練數據與機器準確度的迭代組合數據許多企業進行研發的核心。
如何讓它總是有效?
很對陣對于AI應用的評論讓創造它們聽起來很簡單易懂,但實際上只有AI自身是不夠的。和許多眼花繚亂的軟件一起,企業們在利用AI時需要多個平臺上競爭,并讓產品和服務更易上手。
即使選擇了正確的算法,識別了有用的數據集,有了能夠提升的處理方法,規模機械學習(ML)也足夠堅實,企業們還是經常只處于起點的位置。許多挑戰(并且常常是值得風險投資基金資助的)需要在不同前沿方向的創新。即使是對于那些方向十分狹窄的企業們,工程上的挑戰也依舊是多維度的。
IT公司Moogsoft就是個很好的例子(透露下,我就是一個天使投資人)。Phil Tee是Moog的創始人與執行總裁,他已經創立過五次公司,作為Micromuse的創始首席技術官主管網絡運營。他的目標是解決如何處理上百萬不同事件數據點,并讓IT運作通過全棧來評估。
他意識到他需要建立一種機器,沒有模型,并讓運行中的新數據源有效。這需要技術印章來建立相關的算法,共同來處理未標記的數據。Phil繼而進一步通過預測錯誤來打破附加地——同時在規模上實時調整機器的處理工作。
團隊還需要對企業利用案例有所理解,讓軟件在處理與故障排除、為受到影響的機構提供透明化。這樣的結合不是一件小事。
AI許多讓我們感到興奮的潛在應用——例如自動生成代碼、QA或優化平臺、金融供應鏈中的自動風險與借貸決策、自動化法律文件與合約分析、或自動化視覺評價如健康檢查或保險條約調整——許多都屬于企業管理的范疇之內,以及無法直接解決的工程挑戰。
如何組建正確的團隊?
組建正確的團隊是一個挑戰。從世界上最優秀的計算機語言學、機械學習與數據科學專業畢業的研究生都無法滿足要求。谷歌與Facebook以引起爭議的撒網式方法挑選雇員,并同時提供給他們大量的資源來解釋廣義或狹窄AI的難題。這些雇員的薪水是小型企業難以提供的,后者不得不轉而向全球范圍招攬領域內最佳的隊員。
最重要的是,企業必須給雇員們最刺激的問題,這樣才能吸引世界水平的團隊。至少,像我們所展示的,有價值的問題很有可能就是困難的問題。僅僅是足夠的薪水還不足以滿足這些最杰出的人。一旦ML團隊組建完成,如同Moog一樣,還需要更廣泛的技能來讓機器成為一個具有商業利益的產品。
AI,預測分析與數據科學所驅動的企業會在規模上逐漸增長,并愈發重要。而引導它們的建立也并不是一蹴而就的事情。
如果你正在這個領域內一個有著遠大志向的項目里工作,意識到它的獨一無二,具有專有的訓練數據,擁有了可以資本化數據所得視角的產品與商業模式,并且還有一個強大的團隊來通往市場,請和我聯系,我們想了解更多。



