在過去的50多年里,人類GDP增長的根本動力是摩爾定律,即每過18個月,集成電路的性能(以集成電路芯片中的晶體管數(shù)量來衡量)就翻一番,或者說同樣性能的集成電路每18個月價格下降一半。圖1展示出不同年代集成電路芯片里晶體管的數(shù)量(縱軸,注意它是指數(shù)坐標(biāo))。在此之前,人類還沒有一項技術(shù)能夠在長達半個多世紀的時間里以指數(shù)增長的速度進步。集成電路的發(fā)展不僅開啟了整個IT行業(yè)的技術(shù)革命,而且?guī)砹巳虻淖詣踊托畔⒒虼耍@是在過去的半個世紀多里拉動世界經(jīng)濟增長的根本動力(雖然在中國還有房地產(chǎn)和基礎(chǔ)設(shè)施建設(shè),但是在世界范圍內(nèi),這個市場是在萎縮的)。
圖1. 摩爾定律(橫坐標(biāo)是時間軸,縱坐標(biāo)是集成電路中的晶體管數(shù)量)圖中的點是不同時期具有代表性的處理器
摩爾定律帶來的另外兩個結(jié)果,就是互聯(lián)網(wǎng)的興起以及產(chǎn)業(yè)的數(shù)字化,而這兩個結(jié)果合在一起,又產(chǎn)生了一個過去我們不太關(guān)注的結(jié)果,那是各種數(shù)據(jù)量的急劇增長。當(dāng)數(shù)據(jù)量增加到一定程度,量變就有可能成為質(zhì)變,因此今天大數(shù)據(jù)成為了一個非常熱門的話題。不過,目前在行業(yè)里和社會上對大數(shù)據(jù)炒作居多,對于它的理解依然停留在比較淺的層面。這表現(xiàn)在:
1. 在概念上將大數(shù)據(jù)和大量數(shù)據(jù)相混淆,認為大數(shù)據(jù)就是數(shù)據(jù)量大,沒有看到多維度和完備性的本質(zhì)。
2. 在應(yīng)用上(商業(yè)上)僅僅看到了利用統(tǒng)計規(guī)律提升業(yè)務(wù),沒有看到它和摩爾定律的結(jié)合必將導(dǎo)致機器智能社會的到來,從而徹底改變商業(yè)模式和產(chǎn)業(yè)結(jié)構(gòu),以及人們的生活和工作方式。
3. 明顯低估了大數(shù)據(jù)和機器智能將給我們?nèi)祟惿鐣砬八从械臋C遇和沖擊。
我們就從這三個方面來看看大數(shù)據(jù)、機器智能和它們對未來社會的影響。
一、可怕的大數(shù)據(jù)
要說清楚大數(shù)據(jù)的本質(zhì)和作用,先要講講數(shù)據(jù)的作用以及它和機器智能的關(guān)系。
1.數(shù)據(jù)驅(qū)動的方法導(dǎo)致機器智能的出現(xiàn)
從1946年計算機誕生以來,人類一直在思考這樣幾個問題:機器是否能有類似于人一樣的智能?如果有,會在什么時候,以什么樣的方式出現(xiàn)?如果出現(xiàn)了,它將對人類的生活產(chǎn)生什么影響?在過去的半個多世紀里,雖然人類一直在為此努力,但是到目前為止,這件事情似乎并沒有發(fā)生,其中原因主要有兩點。首先,人類在機器智能這個問題上一度過于樂觀并且走了20年的彎路。人們最初的想法是讓計算機來仿造智能,并且提出了人工智能的概念。學(xué)術(shù)界后來把這樣的方法論稱作“鳥飛派”,意思是說看看鳥是怎樣飛的,就能模仿鳥造出飛機,而不需要了解空氣動力學(xué)。(事實上我們知道,懷特兄弟發(fā)明飛機靠的是空氣動力學(xué)而不是仿生學(xué)。)直到上個世紀70年代,人類才找到了適合計算機發(fā)展智能的道路,即采用數(shù)據(jù)驅(qū)動和大強度計算。其次,三十年前計算機的功能還不夠強大,雖然當(dāng)時人們以為它已經(jīng)很快了,容量很大了,但是只有今天的十億分之一左右,對解決智能問題來講是遠遠不夠的。而今天,人類正走在機器智能可能超越人類智能的轉(zhuǎn)折點上。
講到機器智能(而不是人工智能),首先要搞清楚什么是機器智能。1950年,計算機科學(xué)的先驅(qū)圖靈博士給出了一個衡量機器是否有智能的測試方法:讓一臺機器和一個人坐在幕后,與一個人(測試者)展開對話(比如回答人的問題),當(dāng)測試者無法被辨別和他講話的是另一個人還是一臺機器時,就可以認為這臺機器具有和人等同的智能。這種方法被稱為圖靈測試 (Turing, 1959)。計算機科學(xué)家們認為,如果計算機實現(xiàn)了下面幾件事情中的一件,就可以認為它有圖靈所說的那種智能:
1. 語音識別,
2. 機器翻譯,
3. 自動回答問題。
圖 2 圖靈測試
但是,從1950年代到60年代,機器智能按照傳統(tǒng)人工智能的路子走得非常不順利,幾乎沒有拿得出手的像樣成果。而與此同時,計算機科學(xué)的其他分支都發(fā)展得非常迅速。因此,美國計算機學(xué)界開始反思是否機器智能走錯了路?1968年,著名計算機科學(xué)家明斯基在Semantic Information Process一書 (Minsky, 1968)中分析了所謂人工智能的局限性,他引用了Bar-Hillel使用過的一個非常簡單的例子:
The pen was in the box.
這句話很好理解,如果讓計算機理解它,做一個簡單的語法分析即可。但是另一句話語法相同的話:
The box was in the pen.
就讓人頗為費解了。原來,在英語中,Pen還有另外一個不太常用的意思--小孩玩耍的圍欄。在這里,理解成這個意思整個句子就通順了。但是,如果用同樣的語法分析,這兩句話會得到相同的語法分析樹,而僅僅根據(jù)這兩句話本身,是無法判定pen在哪一句話中應(yīng)該作為圍欄,哪一句話應(yīng)該是鋼筆的意思。事實上,人對這兩句話的理解并非來源于語法分析和語意本身,而來自于他們的常識,或者說關(guān)于世界的知識(World Knowledge),這個問題是傳統(tǒng)的人工智能方法解決不了的。因此,明斯基給出了他的結(jié)論,“目前”(指當(dāng)時)的方法無法讓計算機真正有類似人的智能。由于明斯基在計算機科學(xué)界崇高的聲望,他的這篇論文導(dǎo)致了美國政府削減了幾乎全部人工智能研究的經(jīng)費。在機器智能的發(fā)展史上,賈里尼克是一個劃時代的人物。1972年,當(dāng)時還是康奈爾大學(xué)教授的賈里尼克來到IBM沃森實驗室進行學(xué)術(shù)休假,并且擔(dān)任起IBM研制智能計算機的工作。賈里尼克于是挑選了一個他認為最有可能突破的課題,即語音識別。
轉(zhuǎn)載請注明:北緯40° » 大數(shù)據(jù)、機器智能和未來社會的圖景