常識最難複製:人工智能的一個挑戰
對於如何用機器分辨假消息以至人工智能,常識實在是個挑戰。看到「常識」,你會想到甚麼?懂得用八達通出地鐵閘口?懂得去哪裡買廁紙?這篇文章要討論的常識,比上面的例子更難處理。因為這些常識更加基本,而且真的是每個心智健全的人都會知道的常識,不因生活圈子或成長地區而異。看看這個對話: A:你琴日3點鐘係唔係喺尖沙嘴? B:吓?我今朝仲喺台灣喎。 在日常語言中,往往會出現上述對話。所以,自然語言處理(Natural language processing)便需要顧及到這些用法,藉以模仿人類理解能力、預測人類的反應。讀者很自然可以理解,B的答案是否定的。要得到「B 不在尖沙嘴」這個結論,所需的常識有兩個層次(其實還有更多,先假設最簡單情況以便討論)。首先是對台灣及香港地名/地理的基本知識,知道尖沙嘴不在台灣。這個不難在現有的資料庫找到。例如,系統可以在維基百科自動搜索地名之間的關係。相對來說,第二項常識更難自動化,這項常識就是「同一個人不能同時在兩個地方出現」。假如B在台灣,自然不能同時出現在香港。這項常識之所以難處理,是因為對於人類實在太過基本,很難找到方法讓電腦系統自動學習。 常識點解咁難? 要理解為什麼常識很難置入/編入人工智能,便要先理解人工智能如何獲取資料/資訊。簡單來說,就是靠大量資料,憑着演算法在資料中找出常見模式。具體例子是網上平台(例如 YouTube 或 Netflix)提供的建議。相信讀者都有經驗,知道這些平台的推介,全都建基於用戶過去的資料或選擇。一般來說,資料越是清晰不含糊、或是有許多先例(譬如用戶記錄),人工智能就越容易學會。如果要讓人工智能得到人類的常識,那就必須提供資料可供學習。問題在於,常識往往隱藏在各種情境中,與決定沒有明顯或直接的關係。小時候聽過一道IQ題:「點樣將一隻大笨象放入雪櫃?」筆者想了半天答不出來,後來知道答案是「打開雪櫃門、放入大笨象、關門。」當然,IQ題但求有趣,不需要考慮實況。然而,這個問題之所以能夠難倒別人,正正依賴被問的人會假設雪櫃太小,放不下大笨象。否則,這道IQ題便沒有難度了。而這裡所牽涉的常識就是,「雪櫃一般比大笨象小」。這樣的常識往往毋須特別說明也無礙溝通,卻正因為不成文,才令人工智能無從入手。有人更稱常識推理為「人工智能中的暗物質」,既難以言傳,卻又無處不在。意思是,常識就像物理學中的暗物質,你未必能指出它具體是甚麼、在哪裡、如何運作,卻無法否定其影響。...