我經(jīng)常聽到人們談?wù)撋窠?jīng)網(wǎng)絡(luò),就像黑盒子一樣,您不了解它的作用或含義。實際上,許多人無法理解其含義。如果您了解反向傳播的工作原理,那么黑匣子又如何呢?我在人工神經(jīng)網(wǎng)絡(luò)的研究工作中遇到了黑匣子問題。無論最終輸出的準(zhǔn)確性如何,人工神經(jīng)網(wǎng)絡(luò)盡管具有優(yōu)勢,但在相關(guān)領(lǐng)域仍缺乏模型的可解釋性。首先,讓我解釋一下黑匣子問題。
人工神經(jīng)網(wǎng)絡(luò)中的黑匣子問題是什么?
從某種意義上說,神經(jīng)網(wǎng)絡(luò)雖然可以近似任何功能,但從其意義上講,它是一個黑匣子。研究其結(jié)構(gòu)不會對近似函數(shù)的結(jié)構(gòu)產(chǎn)生任何見解。
例如,神經(jīng)網(wǎng)絡(luò)在癌癥預(yù)測中的一種常見用途是將人們分為“病患者”和“非病患者”。您具有輸入特征C(性別,年齡,身高等)的矩陣和結(jié)果R(“乳腺癌”,“肺癌”等)的向量。當(dāng)使用神經(jīng)網(wǎng)絡(luò)對此建模時,您假設(shè)在數(shù)學(xué)函數(shù)的正確意義上存在函數(shù)f(C)= R。該函數(shù)f可以是任意復(fù)雜的,并且可能會隨著業(yè)務(wù)的發(fā)展而變化,因此您無法手動獲得它。
然后,使用神經(jīng)網(wǎng)絡(luò)構(gòu)建函數(shù)f的近似值,該函數(shù)的錯誤率對于您的應(yīng)用程序是可接受的。這行得通,精度可以任意降低-您可以擴(kuò)展網(wǎng)絡(luò),微調(diào)其訓(xùn)練參數(shù)并獲取更多數(shù)據(jù),直到精度達(dá)到您的目標(biāo)。
黑匣子問題是:神經(jīng)網(wǎng)絡(luò)給出的逼近值不會讓您深入了解函數(shù)f的形式。權(quán)重與要近似的函數(shù)之間沒有簡單的聯(lián)系。甚至分析哪個輸入特性都不相關(guān)也是一個未解決的問題。
另外,從傳統(tǒng)的統(tǒng)計角度來看,神經(jīng)網(wǎng)絡(luò)是不可識別的模型:給定一個數(shù)據(jù)集和網(wǎng)絡(luò)拓?fù)洌梢源嬖趦蓚€權(quán)重不同且結(jié)果相同的神經(jīng)網(wǎng)絡(luò)。這使得分析非常困難。
作為“非黑匣子模型”或“可解釋模型”的示例,您具有回歸方程式和決策樹。第一個為您提供函數(shù)f的閉式近似值,其中每個元素的重要性都明確,第二個為一些相對風(fēng)險/幾率的圖形描述。
黑匣子里面
人工智能算法在人們的生活中越來越具有影響力,但其內(nèi)部運(yùn)作通常是不透明的。我們研究了原因,并探討了該措施。但是,沒有關(guān)于模型可解釋性的標(biāo)準(zhǔn)。
黑匣子之謎如何解決?
一個叫做“ 信息瓶頸 ”的新想法正在幫助解釋當(dāng)今的人工智能算法令人費(fèi)解的成功-也許還可以解釋人腦如何學(xué)習(xí)。
像大腦一樣,深層的神經(jīng)網(wǎng)絡(luò)具有神經(jīng)元層-人造的神經(jīng)元,是計算機(jī)內(nèi)存中的虛構(gòu)體。當(dāng)神經(jīng)元激發(fā)時,它將信號發(fā)送到上一層中連接的神經(jīng)元。在深度學(xué)習(xí)期間,網(wǎng)絡(luò)中的連接會根據(jù)需要進(jìn)行增強(qiáng)或減弱,以使系統(tǒng)更好地從輸入數(shù)據(jù)(例如,狗的照片的像素)通過各層向上到達(dá)與正確的高信號相關(guān)的神經(jīng)元發(fā)送信號。級別的概念,例如“狗”。深度神經(jīng)網(wǎng)絡(luò)從成千上萬張狗的樣本照片中“學(xué)習(xí)”之后,它可以像人們一樣準(zhǔn)確地識別新照片中的狗。在學(xué)習(xí)過程中,從特殊情況到一般概念的神奇飛躍賦予了深度神經(jīng)網(wǎng)絡(luò)以強(qiáng)大的力量,正如它是人類推理,創(chuàng)造力和其他統(tǒng)稱為“智能”的基礎(chǔ)一樣。
耶路撒冷來大學(xué)的計算機(jī)科學(xué)家和神經(jīng)科學(xué)家提出了支持新理論的證據(jù),該新理論解釋了深度學(xué)習(xí)的工作原理。科學(xué)家認(rèn)為,深度神經(jīng)網(wǎng)絡(luò)是根據(jù)稱為“信息瓶頸”的過程進(jìn)行學(xué)習(xí)的,他和兩個合作者于1999年首次以純理論術(shù)語對其進(jìn)行了描述。這個想法是,網(wǎng)絡(luò)擺脫了多余細(xì)節(jié)的嘈雜輸入數(shù)據(jù),就像通過瓶頸壓縮信息一樣,僅保留了與一般概念最相關(guān)的功能。科學(xué)家和他的學(xué)生進(jìn)行了令人震驚的新計算機(jī)實驗,揭示了這種壓縮過程在深度學(xué)習(xí)期間如何發(fā)生,至少在他們研究的情況下如此。
科學(xué)家認(rèn)為,信息瓶頸是學(xué)習(xí)背后的基本原理,無論您是算法,家蠅,有意識的生物,還是對緊急行為的物理計算,都期待已久的答案“是最重要的部分。的學(xué)習(xí)實際上是在忘記。”
信息瓶頸
科學(xué)家在其他研究人員首次研究深度神經(jīng)網(wǎng)絡(luò)時就開始考慮信息瓶頸,盡管至今還沒有一個概念被命名。當(dāng)時是1980年代,科學(xué)家正在思考人類在語音識別方面的表現(xiàn)如何-當(dāng)時對于AI來說是一項重大挑戰(zhàn)。科學(xué)家意識到問題的癥結(jié)在于相關(guān)性問題:一個口語單詞最相關(guān)的特征是什么?我們?nèi)绾螐陌殡S它們的變量中挑出來?通常,當(dāng)我們面對現(xiàn)實的數(shù)據(jù)之海時,我們會保留哪些信號?
從某種意義上說,信息理論的創(chuàng)始人從1940年代開始就解放了對信息的研究,方法是抽象地將其視為具有純數(shù)學(xué)意義的1和0。香農(nóng)認(rèn)為,正如科學(xué)家所說,“信息與語義無關(guān)”。但是,科學(xué)家認(rèn)為這不是事實。他意識到,利用信息理論,“您可以精確地定義'相關(guān)'。”
想象X是一個復(fù)雜的數(shù)據(jù)集,如狗照片的像素,而Y是一個由這些數(shù)據(jù)表示的簡單變量,例如單詞“狗”。您可以通過盡可能多地壓縮X來捕獲X中有關(guān)Y的所有“相關(guān)”信息,而不會失去預(yù)測Y的能力。科學(xué)家和他的合著者,在其1999年的論文中將其表述為數(shù)學(xué)優(yōu)化問題。這是沒有殺手級應(yīng)用的基本思想。
信息論的演變
盡管深度神經(jīng)網(wǎng)絡(luò)背后的概念已經(jīng)使用了數(shù)十年,但由于改進(jìn)了訓(xùn)練方法和功能更強(qiáng)大的計算機(jī)處理器,它們在語音和圖像識別等任務(wù)中的性能才在2010年代初才開始發(fā)揮作用。在閱讀了物理學(xué)家的令人驚訝的論文之后,科學(xué)家在2014年意識到了它們與信息瓶頸原理的潛在聯(lián)系。
他們二人發(fā)現(xiàn),欣頓發(fā)明的一種名為“深層信念網(wǎng)”的深度學(xué)習(xí)算法在特定情況下的工作原理與重歸一化完全相同,重歸一化是物理學(xué)中用于通過粗粒度細(xì)化物理系統(tǒng)細(xì)節(jié)來縮小物理系統(tǒng)的一種技術(shù),計算其總體狀態(tài)。物物理學(xué)家將深層置信網(wǎng)絡(luò)應(yīng)用于磁體的“臨界點(diǎn)”模型時,在該模型中系統(tǒng)是分形的,或者在各個尺度上都是自相似的,因此他們發(fā)現(xiàn)網(wǎng)絡(luò)會自動使用類似于歸一化的過程來發(fā)現(xiàn)模型的狀態(tài)。這是一個令人震驚的跡象,作為生物物理學(xué)家當(dāng)時說,“在統(tǒng)計物理學(xué)的背景下提取相關(guān)特征,在深度學(xué)習(xí)的背景下提取相關(guān)特征不僅是相似的詞,而且是相同的。”
唯一的問題是,通常來說,現(xiàn)實世界不是分形的。“自然界不是耳朵上的耳朵,耳朵上的耳朵;物理學(xué)家說。“因此,我不會說[重歸一化過程]是對自然圖像進(jìn)行深度學(xué)習(xí)如此有效的原因。” 但是當(dāng)時正在接受胰腺癌化療的科學(xué)家意識到,更廣泛的想法可以涵蓋深度學(xué)習(xí)和粗粒度過程。他說:“思考科學(xué)以及我的舊觀念的作用是我康復(fù)和恢復(fù)的重要組成部分。”
在2015年,他和他的學(xué)生假設(shè)深度學(xué)習(xí)是一個信息瓶頸程序,該程序盡可能地壓縮嘈雜的數(shù)據(jù),同時保留有關(guān)數(shù)據(jù)表示的信息。科學(xué)家用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行的新實驗揭示了瓶頸程序?qū)嶋H上是如何發(fā)揮作用的。在一種情況下,研究人員使用了小型網(wǎng)絡(luò),可以訓(xùn)練這些網(wǎng)絡(luò)使用1或0標(biāo)記輸入數(shù)據(jù)(認(rèn)為“狗”或“沒有狗”),并為其282個神經(jīng)連接提供隨機(jī)的初始強(qiáng)度。然后,他們使用3,000個樣本輸入數(shù)據(jù)集跟蹤了網(wǎng)絡(luò)參與深度學(xué)習(xí)時發(fā)生的情況。
大多數(shù)深度學(xué)習(xí)程序中用于調(diào)整神經(jīng)連接以響應(yīng)數(shù)據(jù)的基本算法稱為“隨機(jī)梯度下降”:每次將訓(xùn)練數(shù)據(jù)輸入網(wǎng)絡(luò)時,一連串的觸發(fā)活動會向上掃過各個層次人工神經(jīng)元。當(dāng)信號到達(dá)頂層時,可以將最終的發(fā)射模式與圖像的正確標(biāo)簽進(jìn)行比較-1或0,“狗”或“無狗”。觸發(fā)模式和正確模式之間的任何差異都會在各層之間“反向傳播”,這意味著,就像老師對考試進(jìn)行校正一樣,該算法會增強(qiáng)或削弱每個連接,從而使網(wǎng)絡(luò)層更好地產(chǎn)生正確的輸出信號。在培訓(xùn)過程中,培訓(xùn)數(shù)據(jù)中的常見模式會體現(xiàn)在聯(lián)系的優(yōu)勢上,
在他們的實驗中,科學(xué)家跟蹤了深度神經(jīng)網(wǎng)絡(luò)的每一層保留了多少關(guān)于輸入數(shù)據(jù)的信息以及每一層保留了關(guān)于輸出標(biāo)簽的多少信息。科學(xué)家發(fā)現(xiàn),網(wǎng)絡(luò)層層地收斂到了信息瓶頸的理論界限:原始論文得出的理論極限代表了系統(tǒng)在提取相關(guān)信息方面可以做到的絕對最佳。在極限時,網(wǎng)絡(luò)已盡可能地壓縮了輸入,而不會犧牲準(zhǔn)確預(yù)測其標(biāo)簽的能力。
科學(xué)家還做出了一個有趣的發(fā)現(xiàn),即深度學(xué)習(xí)分兩個階段進(jìn)行:短暫的“擬合”階段和更長的“壓縮”階段概括而言,由其在標(biāo)記新測試數(shù)據(jù)時的性能來衡量。
隨著深度神經(jīng)網(wǎng)絡(luò)通過隨機(jī)梯度下降來調(diào)整其連接,起初,它為輸入數(shù)據(jù)存儲的位數(shù)大致保持恒定或略有增加,因為連接會進(jìn)行調(diào)整以對輸入中的模式進(jìn)行編碼,并且網(wǎng)絡(luò)會很好地適應(yīng)標(biāo)簽它。一些專家將這一階段與記憶進(jìn)行了比較。
然后學(xué)習(xí)切換到壓縮階段。網(wǎng)絡(luò)開始散布有關(guān)輸入數(shù)據(jù)的信息,僅跟蹤最強(qiáng)的功能-與輸出標(biāo)簽最相關(guān)的那些關(guān)聯(lián)。發(fā)生這種情況的原因是,在隨機(jī)梯度下降的每次迭代中,訓(xùn)練數(shù)據(jù)中或多或少的偶然相關(guān)性告訴網(wǎng)絡(luò)要做不同的事情,在隨機(jī)行走中上下?lián)軇悠渖窠?jīng)連接的強(qiáng)度。。這種隨機(jī)有效地與壓縮輸入數(shù)據(jù)的系統(tǒng)表示相同。例如,有些狗的照片可能在背景中有房子,而另一些則沒有。當(dāng)網(wǎng)絡(luò)循環(huán)瀏覽這些訓(xùn)練照片時,它可能“忘記”某些照片中房屋和狗之間的相關(guān)性,而其他照片則抵消了它們。科學(xué)家認(rèn)為,正是這些細(xì)節(jié)的遺忘使系統(tǒng)能夠形成一般概念。確實,他們的實驗表明,深度神經(jīng)網(wǎng)絡(luò)在壓縮階段提高了其泛化性能,在標(biāo)記測試數(shù)據(jù)方面變得更好。
信息瓶頸是否支配著所有的深度學(xué)習(xí)機(jī)制還有待觀察,或者除了壓縮之外,是否還有其他推廣途徑還有待觀察。一些AI專家認(rèn)為科學(xué)家的想法是最近出現(xiàn)的許多有關(guān)深度學(xué)習(xí)的重要理論見解之一。哈佛大學(xué)的AI研究人員和理論神經(jīng)科學(xué)家指出,某些非常大的深度神經(jīng)網(wǎng)絡(luò)似乎不需要抽出壓縮階段就能很好地概括。取而代之的是,研究人員采用稱為“提前停止”的程序進(jìn)行編程,這可以縮短培訓(xùn)時間,以防止網(wǎng)絡(luò)首先對過多的相關(guān)性進(jìn)行編碼。
科學(xué)家認(rèn)為,同事分析的網(wǎng)絡(luò)模型與標(biāo)準(zhǔn)的深度神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)有所不同,但盡管如此,信息瓶頸的理論界限比其他方法更好地定義了這些網(wǎng)絡(luò)的泛化性能。科學(xué)家的最新實驗部分解決了有關(guān)瓶頸是否支持更大的神經(jīng)網(wǎng)絡(luò)的問題,在該實驗中,他們訓(xùn)練了更大的,330,000個連接深的神經(jīng)網(wǎng)絡(luò)來識別手寫體中的數(shù)字。擁有60,000幅圖像的美國國家標(biāo)準(zhǔn)技術(shù)研究院數(shù)據(jù)庫,這是衡量深度學(xué)習(xí)算法性能的著名基準(zhǔn)。科學(xué)家們看到了網(wǎng)絡(luò)到信息瓶頸理論界限的相同收斂。他們還觀察到了深度學(xué)習(xí)的兩個截然不同的階段,相較于較小的網(wǎng)絡(luò),它們之間的過渡更加尖銳。提什比說:“我現(xiàn)在已經(jīng)完全確信這是普遍現(xiàn)象。”
人與機(jī)器
大腦如何從感官中篩選信號并將其提升到意識意識水平的奧秘,促使AI先驅(qū)者開始對深度神經(jīng)網(wǎng)絡(luò)產(chǎn)生了很多早期興趣,他們希望逆向工程大腦的學(xué)習(xí)規(guī)則。從那以后,人工智能從業(yè)者已經(jīng)在瘋狂的發(fā)展中為技術(shù)進(jìn)步而放棄了這條道路,而不是像敲響鐘聲那樣鼓吹而沒有考慮生物學(xué)上的合理性。盡管如此,隨著他們的思維機(jī)器取得更大的成就-甚至引發(fā)人們對AI可能在某天構(gòu)成生存威脅的恐懼?-許多研究人員希望這些探索能夠發(fā)現(xiàn)關(guān)于學(xué)習(xí)和智力的一般見解。
紐約大學(xué)心理學(xué)和數(shù)據(jù)科學(xué)的助理教授研究了人與機(jī)器學(xué)習(xí)方式的異同,他表示,提斯比的發(fā)現(xiàn)代表“邁向打開神經(jīng)網(wǎng)絡(luò)黑匣子的重要一步,”但他強(qiáng)調(diào)說大腦代表了更大,更黑的黑匣子。我們的成年大腦在860億個神經(jīng)元之間擁有數(shù)百萬億個連接,很可能會使用一整套技巧來增強(qiáng)泛化能力,這超出了嬰兒期發(fā)生的基本圖像和聲音識別學(xué)習(xí)過程,并且在許多方面可能類似于深度學(xué)習(xí)。
萊克說,例如,蒂什比確定的擬合和壓縮階段似乎與孩子學(xué)習(xí)手寫字符的方式?jīng)]有類似之處,他研究了這一階段。孩子們無需看成千上萬個角色的例子,并在很長一段時間內(nèi)壓縮他們的思維方式,便可以識別該字母的其他實例并自己編寫。實際上,他們可以從一個示例中學(xué)習(xí)。萊克和他的同事們的模型暗示大腦可能將新字母分解為一系列筆畫-以前存在的心理構(gòu)造-允許將字母的概念添加到先驗知識的體系中。教授解釋說:“與標(biāo)準(zhǔn)機(jī)器學(xué)習(xí)算法一樣,教授解釋說,“與其將字母的圖像視為像素的圖案,而沒有將其視為映射這些特征的概念,”而是解釋道,“相反,我旨在建立一個簡單的字母因果模型,”概括的更短路徑。
這種機(jī)智的想法可能會為AI社區(qū)提供經(jīng)驗教訓(xùn),促進(jìn)這兩個領(lǐng)域之間的來回交流。科學(xué)家相信,他的信息瓶頸理論最終將在這兩個領(lǐng)域中都被證明是有用的,即使它在人類學(xué)習(xí)中比在AI中更普遍。可以從該理論中獲得的直接見解是,可以更好地了解可以通過實際和人工神經(jīng)網(wǎng)絡(luò)解決哪些類型的問題。提什比說:“它完全描述了可以學(xué)習(xí)的問題。” 這些是“我可以消除輸入中的噪聲而又不影響分類能力的問題。這是自然視覺問題,語音識別。這些正是我們的大腦可以應(yīng)付的問題。”
同時,無論是真實的還是人工的神經(jīng)網(wǎng)絡(luò),都碰到了每個細(xì)節(jié)都很重要的問題,而微小的差異可能會抵消整個結(jié)果。例如,大多數(shù)人無法快速將兩個大數(shù)相乘。蒂什比說:“我們遇到了這類問題,這些邏輯問題對一個變量的變化非常敏感。” “可分類性,離散問題,密碼問題。我認(rèn)為深度學(xué)習(xí)永遠(yuǎn)不會幫助我破解密碼。”
泛化意味著留下一些細(xì)節(jié)。這對于快速進(jìn)行代數(shù)運(yùn)算不是很好,但是這不是大腦的主要業(yè)務(wù)。我們正在尋找人群中熟悉的面孔,嘈雜世界中混亂的秩序,明顯的信號。
以上即是關(guān)于深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)如何解決黑盒子問題的全部內(nèi)容,想了解更多關(guān)于人工智能的信息,請繼續(xù)關(guān)注中培偉業(yè)。