香港大學與海內外學者合作,在複雜網絡「可預測性」研究方面取得理論進展,建立了一套分析網絡內在「可預測性」的理論框架,以理解不同網絡結構在多大程度上可被重建、推斷和預測。研究成果已刊於《美國國家科學院院刊》(PNAS)。
論文:
研究背景
由社交網絡、蛋白質交互作用網絡、到人工智能模型中的關聯結構,許多系統都可抽象為節點和連結組成的複雜網絡。對於這類網絡,一個核心問題是在部分資訊缺失的情況下,能否根據已知結構準確預測哪些連結可能存在,即所謂的連結預測問題。
但在這問題上,一個較少被研究的方向是:一個網絡本身「可被預測的程度」是否可計算?換言之,某些網絡難以預測,究竟是因為算法所限,還是因為網絡結構本身就缺乏可供利用的訊息?
研究成果
港大同心基金數據科學研究院(HKU IDS)及港大李嘉誠醫學院張清鵬教授領導團隊,聯同浙江大學的張子柯教授、來自羅馬第一大學的 2021 年諾貝爾物理學獎得主 Giorgio Parisi 教授,借助統計物理學方法,將網絡中的連結預測問題映射到經典的自旋玻璃模型。
在這個框架下,網絡的劃分對應自旋構型,而網絡可預測性被表述為一個對應系統平均能量的全局量;而該能量本身可分解為局部相互作用之累積,因此網絡整體可預測性,可被表述為各連結的局部貢獻的總和。
這表明,要評估一個大型網絡是否容易被預測,不必每次都從全局進行高成本計算,而可從較局部的結構資訊入手,估算各個連結對整體可預測性的貢獻。在此基礎上,團隊進一步提出一種局部採樣算法。這種方法只需利用節點鄰域內的局部資訊,便可有效評估個別連結的預測貢獻,令計算複雜度顯著下降,提升了大規模網絡分析的可擴展性。團隊又提出一個量化指標「可預測性指數」(predictability index),以衡量在不損失資訊的理想條件下,一個網絡理論上可達到的最高預測表現。這個指標可用來區分某個預測任務的困難究竟來自方法不足,還是來自網絡本身的可預測性上限較低。
團隊分析真實網絡數據,發現節點度數異質性,以及網絡中的結構模式,是影響可預測性的關鍵因素。此外,團隊亦推導出幾類典型網絡模型的精確結果,對於 Erdős–Rényi 隨機網絡,團隊證明其可預測性普遍為 0.5,等同隨機猜測基線水平,顯示這類缺乏明顯結構的網絡,本質上並不具備額外可利用的預測訊息。相對地,具有結構特徵的網絡,其可預測性則由生成模型中的先驗參數所控制。
研究團隊
本研究由張清鵬教授領導。論文第一作者為香港大學博士後研究員荊飛博士,共同通訊作者是張子柯教授及 Giorgio Parisi 教授。
如欲知道更多教科相關消息,請留意京港 Facebook 專頁:https://www.facebook.com/BHKAEC