Tags
    Innovation
    科技創新

    岑棓琛:開放數據以應付互聯網的未來

    2016-01-04

    撰文:岑棓琛 視野機器人有限公司創辦人及首席科學官 獲IBM Smart Camp 2014全球年度創業家獎 
            
    過去十多年,ICT行業在外國悄悄地起革命;而香港則由於偏重金融和房地產,ICT的發展落後於國際浪潮。這浪潮主要為M2M和物聯網革命,以及大數據革命兩方面。本文集中談談大數據革命,期望港府積極採取開放數據措施。

    港府早於2008年把開放數據計劃包括在「數碼21」資訊科技策略之中。政府資訊科技總監辦公室於2015年推出了公共資料入門網站data.gov.hk,提供18類公共資料和超過4,500個資料集。這些資料分別由42個政府部門提供。港府宜制定全面的政策協調各部門開放方方面面的數據,將更能便利公眾使用,以促進創新產業的發展。

    我們面對的大數據革命是怎樣的呢?現在已經有很多自動化數據採集機器(天氣感應器、視像鏡頭和手提電話等)每分每秒在採集世界各地的現實資訊 (realityinformation)。但採集這麼大量的數據後還要詳細分析,才能讓這些雜亂無章的資訊(information)變成有用並能快速搜尋、排序和調用的數據(data)。科技界近年這些無窮無盡地推送的數據創一個名詞──大數據(big data)。

    Photo_1_1.jpg
    現在已經有很多自動化數據採集機器每分每秒在採集世界各地的現實資訊。

    大數據比較通俗的定義是:所涉及的資料量規模巨大到無法透過人手,在合理時間內達到採集、管理、處理、並整理成為人類所能解讀的資訊。由於以往電腦硬件性能和軟件算法都未成熟,從前每當數據工程師處理大量數據時,他們都只能把數據拆分成小型資料集,然後每個資料集微觀地分析結果。透過現代化的電腦大數據處理,我們能把所有儲存在數碼資料庫內的資料一次性合併進行宏觀分析。宏觀分析往往可以觀測出一些微觀處理方法無法突顯的資訊和資料關聯性。

    大數據分析可用來察覺商業趨勢、判定研究品質、推測疾病擴散、尋找恐怖分子、搜尋失蹤人口、打擊犯罪或測定即時交通路況等。在進行大數據分析前最重要的是有大型資料集,而大型資料集的建構就有賴於M2M和物聯網的發展,為大數據分析軟件提供無窮的真實數據以進行趨勢分析。

    大數據最簡單的分析可以是「透過人口普查數據庫,找出全國各地區居民平均結婚年齡和各地嬰兒出生率的關係」,也可以複雜到「麥當勞麥樂雞加價對於全國各地罪案率的影響」…… 美國其中一家最大的大數據分析公司Palantir。就推出了一個系統,可以透過社交媒體、報警熱線等不同的數據庫採集資料,自動搜尋被拐帶兒童所在的位置。

    Photo_2_3.jpg
    透過現代化的電腦大數據處理,我們能把所有儲存在數碼資料庫內的資料一次性合併進行宏觀分析。
     

    從前,如果要找尋一個失蹤小孩,美國國家失蹤及被利用兒童中心(The National Center for Missing & Exploited Children)的工作人員要搜尋多個數據庫,並用人工配對各數據庫的結果,看看是不是同一小孩。這過程非常慢,而且容易出錯,Palantir就用電腦連結到數碼地圖和多個失蹤兒童數據庫,自動找出某種特點的小孩最大機會在哪裡出現。

    大數據分析包含了人工智能

    大數據分析一般並不是簡單的數據庫搜索過程,而是包含了人工智能的成分。其中一個人工智能領域稱之為機器學習(machine learning)。機器學習是一門比較高深的學問,涉及機率論、統計學、逼近論、凸分析、算法複雜度理論等多門學科。極端簡化來說,它主要涉及了數據建模和學習進步這兩個步驟。

    首先,數據科學家會要求程式解決一些問題,例如要找出證券市場某股票價格會不會因為天氣狀況而大幅波動。電腦就會根據過去幾十年的天氣狀況和股價上升和下降的關係建立一條公式,這就是數據建模。同時,程式會持續監控今天到下星期一之間的天氣和股價關係,再微調關係公式,以預測下星期二颱風來到時的股價趨勢,這就是學習進步。

    Photo_3_1.jpg
    未來最珍貴的肯定不是石油,而是數據!

    要編寫一個萬能的機器學習程序,在現在來說,基本是不可行的,因為不同的事和物都有著不同的相互關係,公式也是獨一無二的。如何能編寫一個有用的程式,透過大數據分析掌握別人想不到的社會或經濟趨勢,將會是未來大數據競爭最激烈的一個範疇。

    馬雲和奧巴馬都說過,未來最珍貴的肯定不是石油,而是數據,我十分認同!如果你能從無人飛機和衞星採集的大數據圖片中推測到美國棉花3個月後會否失收,現在就是買入棉花期貨的大好時機了!我相信在未來的互聯網世界內,誰能實時掌握大量資訊,並妥善高效地整理成有用數據,誰就能擁有大量財富。

    原文刊於《AM730》2016年1月4日,獲作者授權轉載。