第348章 往前
字數:2318 加入書籤
節點與網絡中其他節點的交互都是通過其鄰居節點來 進行的,因此節點的鄰居越多,意味著該節點能夠 向外傳遞的信息越多,從網絡外部接受信息也越容易。 有向網絡中,又可以定義出度中心度、入度中心度。
社區發現是根據網絡中的邊的連接模式,把網絡頂點劃分為群組。將網絡頂點劃分為群組後最常見的屬性是,同一群組內部的頂點之間緊密連 接,而不同群組之間隻有少數邊連接。社團發現的目的是就要找到網絡內部不同群組之間的自然分割線。簡而言之,它是一個把網絡自然劃分為頂點群組的問題,從而使得群組內有 許多邊,而群組之間幾乎沒有邊。然而,“許多”和“幾乎沒有”到底是多少, 這個問題值得商榷,為此提出了多種不同的定義,從而產生了不同的社團發 現算法8基於層次聚類的算法。
等距離散化eaidth discretization):將數據劃分為等寬間隔的區間,這種方法需要先確定區間的個數n,再根據最小值in和最大值ax計算出每個區間的間隔長度axin)n,相鄰兩個區間的寬度都是相同的。等頻率離散化eafreency discretization):將數據劃分為相同的數量級別,每個區間包含的記錄數相等。這種方法首先將數據按照大小排序,然後將排序後的數據分成n等份,每份個數為數據總數n,在每個區間的邊界處劃分數據。基於聚類的離散化:將數據分成若幹個簇,簇內的數據相似度高,簇間數據相似度低。具體實現時可以使用聚類算法如keans、dbscan等。自適應離散化:通過迭代的方式,不斷根據數據的特性調整區間的邊界,以達到最優的離散化效果。下麵分別以等距離散化、等頻率離散化、基於聚類的離散化和自適應離散化為例子,分別列出具體的例題:等距離散化假設我們有一個包含1000個學生身高數據的數據集,我們想將身高離散化成10個等寬的區間,以下是離散化方法:計算身高的最小值和最大值,假設最小值為140,最大值為200。計算每個區間的寬度,假設共10個區間,每個區間的寬度為(200140)10 = 6。根據每個學生的身高,將其分入相應的區間。等頻率離散化假設我們有一個包含200家公司的財務數據的數據集,我們想將每個公司的營業收入離散化成5個等頻率的區間,以下是離散化方法:將所有公司的營業收入升序排序。計算每個區間的數據數量,在本例中,因為共有200個公司,所以每個區間包含40個公司。找到每個區間的邊界,比如第一個區間的最小值和第二個區間的最大值,這兩個值之間的所有公司的營業收入都屬於第一個區間。
喜歡離語請大家收藏:()離語書更新速度全網最快。