• 展會信息港展會大全

    如何在你的創業公司中使用大量的 AI 模型?
    來源:互聯網   發布日期:2022-10-31 19:23:08   瀏覽:9581次  

    導讀:編者按:機器學習技術日新月異,且有很多來自大公司的免費資源可用。初創公司如果能跟上模型變化的速度,正確利用手邊的資源,將能夠在創業過程中如虎添翼。本文來自編譯,希望對您有所啟發。 隨著機器學習技術的成熟,并從一開始的好奇研究轉向工業化的使用...

    編者按:機器學習技術日新月異,且有很多來自大公司的免費資源可用。初創公司如果能跟上模型變化的速度,正確利用手邊的資源,將能夠在創業過程中如虎添翼。本文來自編譯,希望對您有所啟發。

    隨著機器學習技術的成熟,并從一開始的好奇研究轉向工業化的使用,支持大規模機器學習所需的方法和基礎設施也在不斷發展。利用這些進展對初創公司來說既是機遇也是風險,幾乎所有的初創公司都在以這樣或那樣的方式利用機器學習,以爭奪市場份額。

    這一過程始于 9 年多以前,2012 年,一份名為 AlexNet 的文件向年度 ImageNet LSVRC 競賽(由研究界舉辦的計算機視覺競賽)提交了參賽作品,啟動了深度學習革命。在這篇論文中,一個三人小組(Alex Krizhevsky, Illya Sutskever 和 Geoffrey Hinton)使用了一種被稱為卷積神經網絡(convolutional neural network)的技術來理解照片的內容。他們輕松地贏得了比賽,以巨大的優勢擊敗了其他所有人,而且是用一個用于玩視頻游戲的 700 美元的電腦顯卡訓練出來的系統。

    機器學習的世界被永遠地改變了。一年之內,復制 AlexNet 的創業公司如雨后春筍般涌現。我之前的公司 AlchemyAPI(2015 年被 IBM 收購),早在 2013 年就通過我們的 AlchemyVision 計算機視覺 API 發布了這項工作的首批商業版本。這一時期成立的其他創業公司包括 DeepMind(被谷歌收購)、MetaMind(被Salesforce收購)和 Clarifai 等。學術界也發生了巨大的轉變,許多專家從對人工智能的懷疑,迅速轉變為全身心地擁抱深度學習。

    時間快進到 2022 年:神經網絡已經改變了我們日常使用的軟件系統中機器智能的各個方面,從識別語音到推薦新聞動態(無論是好是壞)。今天的系統仍然使用神經網絡,但規模大不相同。最近用于理解和生成人類語言的系統,如 OpenAI 的 GPT-3,是在超級計算機規模的資源上進行訓練的:數千個 GPU(每個成本至少為 1 萬美元)被編織在高速網絡互連和數據存儲基礎設施的復雜結構中。雖然 2012 年最先進的系統可以在一張 700 美元的視頻游戲卡上訓練,但今天最先進的系統(通常被稱為基礎模型)可能需要數千萬美元的計算量來訓練。

    這些大規模、高成本的基礎模型的出現,為初創公司和其他想要在人工智能和機器學習領域創新的公司帶來了機會、風險和限制。盡管它們可能無法在前沿研究領域與谷歌、Facebook 或 OpenAI 競爭,但小型實體可以利用這些巨頭的工作,包括基礎模型,來啟動自己的機器學習驅動應用程序的開發。

    1. “預訓練”的網絡可以幫助初創公司成長

    像 AlexNet 這樣的神經網絡最初是為每項任務從零開始訓練的,當網絡需要在單個游戲硬件上花費數周的時間時,這是可行的,但當網絡規模、計算資源和訓練數據量開始以數量級增長時,難度就大得多了。這導致了一種被稱為“預訓練”(pre-training)的方法的普及,即神經網絡首先在使用大量計算資源的大型通用數據集上進行訓練,然后使用少量的數據和計算資源對手頭的任務進行微調。

    近年來,隨著機器學習的產業化已經占據了許多領域(如語言或語音處理),以及可用于訓練的數據量急劇增加,預訓練網絡的使用出現了爆炸性增長。例如,使用預先訓練的網絡,初創公司可以用比從零開始所需的更少的數據和計算資源構建產品。這種方法在學術界也越來越流行,研究人員可以快速調整預先訓練過的網絡,以完成一項新任務,然后發布結果。

    對于某些任務領域(包括理解或生成書面文本、識別照片或視頻內容以及音頻處理),預訓練隨著基礎模型(如 BERT、GPT、DALL-E、CLIP 等)的出現而不斷發展。這些模型在大型通用數據集(通常是數十億個訓練實例)上進行了預訓練,并由資金充足的 AI 實驗室(如谷歌、微軟和 OpenAI)作為開源發布。

    商業化機器學習應用的創新速度和這些基礎模型的普及效果是不可低估的。對于那些沒有備用超級計算機的工作人員來說,它們就是萬靈藥。它們允許初創公司、研究人員和其他人快速趕上最新的機器學習方法,而不必從頭開始花費時間和資源來訓練這些模型。

    2. 基礎模型的風險:規模、成本和外包創新

    然而,在預先訓練的基礎模型領域,并不是一切都是美好的,隨著其被越來越頻繁地使用,也存在一些風險。

    與基礎模型相關的風險之一是其不斷擴大的規模。谷歌的 T5-11b(2019 年開放源碼)等神經網絡已經需要一個昂貴的 GPU 集群來加載和進行預測了。對這些系統進行微調需要更多的資源。由谷歌/ Microsoft/ OpenAI 在 2021-2022 年創建的更近期的模型通常非常大,以至于這些公司沒有將其作為開源發布,畢竟它們現在需要數千萬美元來創建,這對這些大公司來說,也算是重要的知識產權投資。

    然而,即使這些最新的模型是開源的,簡單地加載這些網絡來進行預測也需要消耗更多的資源,很多初創公司和學術研究人員都無法輕易獲齲例如,OpenAI 的 GPT-3 僅僅是加載就需要大量的 GPU。即使使用 Amazon Web Services 等現代計算云,這也需要將數十臺 Amazon 最昂貴的 GPU 機器配置到一個高性能計算集群中。

    對于那些使用基礎模型的人來說,數據集調整(Dataset alignment)也是一個挑戰。在大型通用數據集上進行預訓練,并不能保證網絡能夠在專有數據上執行新任務。網絡可能非常缺乏上下文或基于其預訓練的偏向,以至于即使是微調也不容易解決這個問題。

    例如,GPT-2 是自然語言處理領域中一個流行的基礎模型,最初是在 2019 年初宣布的,因此,訓練的是在該日期或之前收集的數據。想想 2019 年以來發生的一切,比如疫情。最初的 GPT-2 模型肯定知道什么是疫情,但其缺乏圍繞 COVID-19 及其變種的詳細背景,而這些背景是近年來出現的。

    為了說明這一點,讓我們舉個例子,讓 GPT-2 完成“COVID-19 是……”這句話:

    GPT-2(2019):“COVID-19 是一種高容量 LED 發射器,可以顯示關于電池的大小和狀態的信息。”

    相比之下,2021 年發布的開源語言模型 GPT-J 完成了以下句子:

    GPT-J(2021):“COVID-19 是一種新型冠狀病毒,主要影響呼吸系統,導致具有多種臨床表現的疾玻”

    差別非常大,對吧?數據集調整和訓練數據的近時性非常重要,這取決于具體用例。任何在機器學習工作中利用基礎模型的初創公司都應該密切關注這些類型的問題。

    3. 云 API 更容易,但外包也是有代價的

    OpenAI、微軟和英偉達等公司已經看到了規模上的挑戰,并使用云 API 來應對,這些 API 支持在其托管基礎設施上運行推理和微調大規模模型。當然,每個主要的云提供商現在都提供了一套機器學習服務,在某些情況下,還專門為這些工作負載設計了定制處理器。通過將計算和基礎設施的挑戰轉移到更大的公司,這可以為初創公司、研究人員甚至個人愛好者提供一個有限的壓力緩解閥。

    然而,這種方法也有其自身的風險。不能托管自己的模型意味著在訓練和推理方面都要依賴集中的實體。這可能會在構建可用于生產的機器學習應用程序時產生外部性風險,比如網絡中斷、API 的并行量或速率限制,或者僅僅是托管公司的策略更改,都可能導致重大的操作影響。此外,當敏感的標記數據集(其中一些可能被HIPAA等法規覆蓋)必須被發送到云提供商進行微調或推斷時,IP 泄露的可能性可能會讓一些人感到不舒服。

    調用這些 API 帶來的 COGS(商品銷售成本)影響,也可能是那些使用云提供商滿足機器學習需求的人所關注的問題。定價模式因供應商而異,但不用說,API 調用、數據存儲和云實例的成本會隨著你的使用量而增加。如今,許多使用云 API 進行機器學習的公司可能最終會嘗試過渡到自托管或自訓練的模型,以獲得對其機器學習通道的更多控制,并消除外部化風險和成本。

    圍繞使用托管模型和預訓練模型的機會和風險,導致許多公司在“試驗階段”利用云 API 來啟動產品開發。這時,公司正試圖找到適合其產品的市常利用云 API 可以讓公司快速啟動產品,并大規模運行,而不必在昂貴的基礎設施、模型訓練或數據收集方面進行投資。來自谷歌、IBM、微軟和 OpenAI 等供應商的云機器學習服務和托管的預訓練模型,現在為數千家初創公司和學術研究項目提供了動力。

    一旦公司確定了產品與市場的契合度,通常會過渡到自我托管或自訓練的模型,以獲得對數據、過程和知識產權的更多控制。這種轉換可能是困難的,因為公司需要能夠擴展其基礎設施以匹配模型的需求,以及管理與數據收集、注釋和存儲相關的成本。為了實現這一轉變,企業正在籌集越來越多的投資者資金。

    我的創業公司 Hyperia 最近就進行了這樣的轉變。早期,我們在努力了解商務會議和客戶語音對話的內容時,嘗試了云 API。但最終我們還是親自進行了大規模的數據收集和模型訓練工作,以構建我們自己專有的語音和語言引擎。對于許多商業模式來說,如果要實現積極的單位經濟和市場差異化,這樣的進化是不可避免的。

    4. 要有戰略眼光,密切關注大型 AI 實驗室

    基礎模型是機器學習領域最新的顛覆性趨勢之一,但它們不會是最后一個。各大公司在持續建造越來越大的機器學習超級計算機(Facebook最新的一臺包括超過1.6萬個 GPU),研究人員也正忙于開發新技術,以減少與訓練和托管最先進的神經網絡相關的計算成本。谷歌最新的 LaMDA 模型利用了許多創新,能比 GPT-3 更有效地進行訓練,并且研究界正在迅速開發諸如 model distillation 和 noisy student training 等技術,以減少模型的大校

    這些創新也意味著創業公司可以繼續創新,但重要的是要時刻保持警惕,因為形勢在不斷變化。要記住的事情包括:

    云 API 絕對可以加速公司實現產品與市場的契合,但通常也會帶來長期的問題。制定一個戰略性退出計劃非常重要,這樣這些 API 就不會控制你產品的命運。

    基礎模型可以極大地加快機器學習的速度,降低整體訓練和數據收集成本,但要意識到這些系統的局限性(例如,訓練數據的近時性)。

    密切關注大型企業AI實驗室(谷歌、微軟、IBM、百度、Facebook、OpenAI 等)的成果。機器學習正在以極快的速度變化,每個月都有新的技術、模型和數據集發布。這些發布往往會在意想不到的時候出現,如果你能迅速適應,會對你公司的機器學習工作產生巨大的影響。

    最終,機器學習的未來及其對初創公司和科技公司的影響是不確定的,但有一件事是明確的:那些了解現有的東西并對其使用做出明智決定的公司,將比那些只想快速解決 AI 問題的公司處于更有利的地位。

    譯者:Jane

    贊助本站

    人工智能實驗室
    AiLab云推薦
    展開
    Copyright © 2010-2022 AiLab Team. 人工智能實驗室 版權所有    關于我們 | 聯系我們 | 廣告服務 | 公司動態 | 免責聲明 | 隱私條款 | 工作機會 | 展會港 | 站長號
    激情四射五月婷婷