轉自 http://blog.sina.com.cn/s/blog_48e0ae280100cve4.html
融合複雜網絡科技文獻分析工具綜述 (節選)
□ 畢然 吳斌 / 北京郵電大學智能通信軟件與多媒體北京市重點實驗室 北京 100876
摘要:當前對於各種大型網絡的各類特征研究已成為學術界的研究熱點。為了更加高效準確地分析不同
網絡的各類特征,研究學者們已經開發出了大量的網絡分析工具。文章首先闡述了用網絡分析工具輔助科技
文獻領域研究的重要性,調研了國際上的網絡數據分析挖掘工具,總結了各種分析工具的特點和用途,重點
從功能、架構、技術上分析研究了應用於科技文獻領域兩款有代表性的軟件ArnetMiner和D-Dupe。最後總結了網絡分析工具的分類和進一步的發展方向。
關鍵字:複雜網絡,科技文獻,數據分析,數據挖掘
網絡分析挖掘工具簡介
本節將從 麵向科研評價領域、麵向全領域、麵向社會科學領域及麵向分析專題的工具這四個領域方麵來介紹國際上流行的各個網絡分析工具。
2.1 麵向科研評價領域
● ArnetMiner:科研合作網的專家檢索係統(http://www.arnetminer.org/)。 ArnetMiner主要麵向研究社會網絡的各種特征,提供在線的作者資料檢索,是相關領域及合作關係挖掘軟件,可以很好地找出領域專家、作者從事的領域、合作團體等。該軟件偏重於對單個作者信息的檢索和挖掘,隻集成了部分挖掘算法。項目在 2007年開發完成,使用的技術和方法都比較新穎,對領域專家和科研評價都有比較好的效果。
● CiteSpace:一款免費的用於分析、挖掘和可視科研文獻數據的 Java應用軟件(http://cluster.cis.drexel.edu/cchen/citespace/)。是一款專門針對科研文獻數據設計的分析可視化軟件,尤其針對於作者引文網的分析和可視化。項目的開始時間 2004年10月份,最後一次更新時間是 2007年9月30日。
● PaperLens:用優雅的可視界麵來反應某科研領域的發展趨勢、活動和關係的軟件(http://www.cs.umd.edu/hcil/paperlens/)。如名稱所示,它專門針對文獻數據的分析和挖掘,包括統計、評價等功能。它將文章、作者和會議間的關係挖掘出來,已經實現了對1995-2002年8年期間的 Infovis會議的論文集數據的分析,並進一步擴展到對(1982-2004)23年間的 ACM SIGCHI會議文獻的挖掘。現在由馬裏蘭大學和微軟公司共同研製,進行進一步的研發,將來用於科學評價領域。
● TDA:Thomson data analysis是一款基於文本信息的分析和可視化工具,可以對科技文獻領域提供強大的可視的搜索和挖掘功能(http://scientific.thomson.com/products/tda/)。 TDA功能全麵,涉及檢索、分析、統計、可視化等各方麵的功能。其特性是檢索功能強大,並將其它功能與檢索功能相聯係。
2.2 麵向全領域
● The Network Workbench(NWB):是一款麵向大規模網絡數據的分析、建模、可視化的工具集(http://nwb.slis.indiana.edu/)。它麵向網絡研究相關的各個領域,如生物學、社會科學、物理學等。並且是一款功能全麵綜合的輔助軟件,包含了網絡挖掘分析和可視化功能,可以輔助完整的研究流程。其構架使用的是 CIShell技術,具有分布式、鬆耦合、插件式服務等優點。該軟件創始於 2005年10月,最新的版本是NWB Tool 0.8.0 Release(Dec 14, 07)。
● Information Visualization Cyberinfrastructure(IVC):是一款信息可視化的工具集,收錄了很多實用的可視化基礎工具(http://iv.slis.indiana.edu)。.IVC在2000年開始作為一個軟件庫工程來開發。其目標是提供一套全麵的數據資源、算法資源、計算資源、以及如何使用數據挖掘和信息可視化算法的教學資料。IVC的四個主要部分是:數據庫、計算資源、軟件和學習模塊。其中比較知名的開源可視化軟件庫 JUNG、Prefuse都收錄在軟件模塊裏。收錄的大部分軟件未商業化,其中既包含了麵向分析挖掘的軟件也包含了麵向可視化的軟件。
● CNetMiner:用創新的交互方式來挖掘網絡型數據的軟件工具,具有很強的實用性(http://www.netminer.com/NetMiner/home_01.jsp)。它重點強調了可視分析的概念,允許用戶用可視的、交互的方式挖掘底層數據的模式和結構。它麵向網絡挖掘相關的全領域,同時具有分析挖掘和可視化的功能,更重要的是它將算法分析和可視化結合,提出了獨特的挖掘方式。當前的軟件版本是 Version:3.2.0.071115 Released:November.15,2007。該軟件是完全商業化的軟件,由韓國公司開發。
● Piccolo:是一款基於 Java 2D技術用於可視化結構圖形的軟件工具集(http://www.cs.umd.edu/hcil/piccolo/)。它的特點是支持可收縮的圖形界麵。該工具創建的較早,在當時可收縮的圖形界麵是一大創新,但當今出現的大部分可視化軟件都具有可收縮特點。該軟件的另一大特點是同時提供了 .net和Java兩個編程的版本,為非商業化軟件。
● VxInsight:是一款專門在大規模網絡數據中發現和分析實體關係的軟件(http://www.cs.sandia.gov/projects/VxInsight.html)。它是麵向研究的全領域、構建得較早(1995)的網絡關係發現和分析軟件,集成了分析和可視化的技術。該軟件現在還未商業化。
● Netlens:是一款以交互的方式挖掘網絡數據的軟件工具(http://www.cs.umd.edu/hcil/netlens/),其特性是基於內容驅動的分析方式。它指出了比較流行的網絡可視化方法的缺欠,提出了新的交互式發掘信息的方法,並給出了具體的實現。同時,它提出了用樹來表示圖形信息的功能,命名為 treeplus,有很好的視覺分析效果。它也是麵向各個學科領域的一款綜合性的分析軟件,現階段實驗效果比較好的方向是科研和郵件社群網絡。
● D-Dupe:是具有交互式、任務可視化的處理實體解析領域的軟件(http://www.cs.umd.edu/projects/linqs/ddupe/)。其專攻的領域就是實體解析,應用如科研合作網的作者重名解析等。其具有良好的用戶界麵,將實體解析的流程可視化並提供手工輔助操作的功能,是商業軟件。
2.3 麵向社會科學領域
● UCINET:社群網絡分析挖掘軟件,主要功能包含:核心節點挖掘、子團體挖掘、角色分析、初等圖論等(http://www.analytictech.com/ucinet/ucinet.htm)。這是一款比較有名的商業化軟件,不僅應用在科研領域,還在商業智能等領域發揮著作用。最新的版本是 07年10月份發布的版本 6.178,該軟件的特點是功能強大全麵,集成的分析算法比較多,界麵簡單易用,是社群網絡分析挖掘的首選。
2.4 麵向功能專題的工具
● CFinder:基於 CPM算法麵向社團結構挖掘的軟件(http://www.cfinder.org/),同時側重於網絡演化的發現。該軟件專注於在海量數據的網絡中挖掘出各種結構和社團,並研究這些結構和社團的演化及標識問題等。該軟件起始於2005年,並未商業化。
● C-Group:是一款研究在社會網絡中隨時間演化的動態社群的分析軟件(http://www.cs.umd.edu/projects/linqs/cgroup/)。和大部分的網絡可視化工具不同, C-Group既不是展示整個網絡,也不是展示以某個節點為中心的網絡,而是關注於由用戶定義的一個社群和社群中的節點隨時間的變化。它與D-Dupe是同一個實驗室的研發小組開發,提供的是與D-Dupe相類似的界麵,屬於在 D-Dupe之後該實驗室最新的研究成果。但其還未提供成熟的軟件版本和相應的文檔說明。
● KrackPlot:是一款為社會網絡所設計的網絡可視化工具(http://isi.edu/~blythe/KP/)。它簡單易用,可以快速地構建程序並有較強的適應性。該軟件專注於可視化技術方麵,當前的版本是 4.3(11/02/2006),未商業化。
● SoNIA:動態的顯示網絡發展或者可視化流程的 Java軟件包(http://www.stanford.edu/group/sonia/)。其在可視化方麵的特點是可以將網絡演變或者布局的過程動態地展現給用戶,還可以將這個流程保存成視頻文件。該工具最新更新 9/15/2004。
在眾多的科技文獻數據挖掘工具中,ArnetMiner和D-Dupe兩款功能較強,有代表性的工具軟件。 ArnetMiner是由清華大學計算機係工程研究室開發,D-Dupe由美國馬裏蘭大學開發,均為未商用的軟件。其中,ArnetMiner屬於功能全麵的軟件,涉及從數據處理、整合開始,到檢索、挖掘、可視化方方麵麵的功能。而 D-Dupe則針對於數據預處理——實體解析這個領域提出了自己特別的解決方案。