對於如何用機器分辨假消息以至人工智能,常識實在是個挑戰。看到「常識」,你會想到甚麼?懂得用八達通出地鐵閘口?懂得去哪裡買廁紙?這篇文章要討論的常識,比上面的例子更難處理。因為這些常識更加基本,而且真的是每個心智健全的人都會知道的常識,不因生活圈子或成長地區而異。看看這個對話:

A:你琴日3點鐘係唔係喺尖沙嘴?

B:吓?我今朝仲喺台灣喎。

在日常語言中,往往會出現上述對話。所以,自然語言處理(Natural language processing)便需要顧及到這些用法,藉以模仿人類理解能力、預測人類的反應。讀者很自然可以理解,B的答案是否定的。要得到「B 不在尖沙嘴」這個結論,所需的常識有兩個層次(其實還有更多,先假設最簡單情況以便討論)。首先是對台灣及香港地名/地理的基本知識,知道尖沙嘴不在台灣。這個不難在現有的資料庫找到。例如,系統可以在維基百科自動搜索地名之間的關係。相對來說,第二項常識更難自動化,這項常識就是「同一個人不能同時在兩個地方出現」。假如B在台灣,自然不能同時出現在香港。這項常識之所以難處理,是因為對於人類實在太過基本,很難找到方法讓電腦系統自動學習。

常識點解咁難?

要理解為什麼常識很難置入/編入人工智能,便要先理解人工智能如何獲取資料/資訊。簡單來說,就是靠大量資料,憑着演算法在資料中找出常見模式。具體例子是網上平台(例如 YouTube 或 Netflix)提供的建議。相信讀者都有經驗,知道這些平台的推介,全都建基於用戶過去的資料或選擇。一般來說,資料越是清晰不含糊、或是有許多先例(譬如用戶記錄),人工智能就越容易學會。如果要讓人工智能得到人類的常識,那就必須提供資料可供學習。問題在於,常識往往隱藏在各種情境中,與決定沒有明顯或直接的關係。小時候聽過一道IQ題:「點樣將一隻大笨象放入雪櫃?」筆者想了半天答不出來,後來知道答案是「打開雪櫃門、放入大笨象、關門。」當然,IQ題但求有趣,不需要考慮實況。然而,這個問題之所以能夠難倒別人,正正依賴被問的人會假設雪櫃太小,放不下大笨象。否則,這道IQ題便沒有難度了。而這裡所牽涉的常識就是,「雪櫃一般比大笨象小」。這樣的常識往往毋須特別說明也無礙溝通,卻正因為不成文,才令人工智能無從入手。有人更稱常識推理為「人工智能中的暗物質」,既難以言傳,卻又無處不在。意思是,常識就像物理學中的暗物質,你未必能指出它具體是甚麼、在哪裡、如何運作,卻無法否定其影響。

常識有乜用? 

讀者也許不會質疑人類為甚麼需要常識,但是機器也需要常識嗎?當然要,如果我們想機器/人工智能更加聰明的話。例如,許多網上謠言都有它的既定套路。假如人工智能可以幫助我們分辨出哪些消息有可疑、不合常理,哪些是已知的騙局,我們就能避免受騙,或至少減低受騙機會。

看到下面這段網上流傳的訊息,有常識的讀者自然知道不該相信:

圖片來源:網上流傳圖片

讀者不難指出其中問題:

  • 相信特首不會自稱「林鄭」(雖然可能會自稱「特首」)
  • 與美國人商討恐怕不需用錢,而假使需要用錢,一萬元便似乎太少了
  • 特首有需要向我借一萬元嗎?為甚麼不直接問政助?
  • 特首發短訊會用簡體字嗎?

這道消息的破綻太多(筆者收到的電話號碼太假,短訊應是開玩笑多於有意行騙),實在不能盡錄。重要的是,上面提到的各項都是讀者會有的常識。但這些常理推斷卻沒有先例(恐怕沒有人會想過「同美國人講數要準備幾多錢?」,或者「特首send Whatsapp 會唔會用簡體字?」),也很難找到文字記載正確的常識。人工智能系統對此便無從入手。所以,對於採用人工智能直接識別謠言,還有很遠的距離。

延伸閱讀: