第302章 怎麽都不來啊

字數:3310   加入書籤

A+A-


    1、將特征重要程度排序的過程與模型構建過程同時進行的特征選擇方法稱作嵌入式特征選擇方法 √ )2、線性回歸模型的目標函數為殘差平方和最大化殘差平方和最小化 )3、特征向量中心度度量節點在網絡中的影響力。網絡中每個節點被賦予一個影響力分數,一個節點與更多的高分節點相連,其分數也趨向於更高。 √ )4、強化學習使用已標記的數據,根據延遲獎勵學習策略。 未標記的數據,通過與環境的交互來收集數據進行學習 )5、過擬合是機器學習中一個重要概念,是指模型過於複雜,導致對測試數據預測很好,但對訓練數據預測很差。 對訓練數據預測很好,對測試數據預測很差 )三、分析題本題滿分30分,共含5道小題,每小題6分)1、現有樣本如下:0,2,3,4,5,6,7,8,9,10,41,42,43,44,45,46,47,48,49,50。使用等距離散化來處理該樣本,將樣本分為5個區間段。有幾個區間內樣本容量不為0?你的答案:2你的計算過程:首先,計算樣本的最小值和最大值:最小值:0最大值:50然後,確定分為5個區間時的間距:(最大值  最小值)  區間數 = (50  0)  5 = 10接下來,以間距為10進行等距離散化:區間1:09 共10個樣本)區間2:1019 無樣本)區間3:2029 無樣本)區間4:3039 無樣本)區間5:4050 共11個樣本)根據以上結果,有2個區間段區間2和區間3)內的樣本容量不為0。請注意,這種等距離散化方式可能導致某些區間沒有樣本,而其他區間樣本較多。2、隨機森林采用的是什麽集成方法?a. bagging,b.boosting,c.stacking)。這種集成方法適用於什麽情況?你的選擇:bagging你的解釋:bagging自舉匯聚法)適用於以下情況:訓練數據較少,需要盡可能充分利用現有的有限樣本。數據集存在較強的噪聲或離群點,需要通過多個模型的平均來減小噪聲影響。需要降低模型的方差,提高模型的穩定性和魯棒性。模型複雜度較高,容易過擬合,需要引入隨機性增加泛化能力。bagging通過對原始訓練集進行有放回的抽樣,構建多個子模型。每個子模型相互獨立地訓練,並通過取平均值回歸問題)或投票分類問題)的方式進行預測。隨機森林就是一種基於bagging思想的集成學習算法,它使用決策樹作為基分類器,並通過對特征的隨機選擇進一步增加模型的多樣性。由於bagging的平行結構,隨機森林可以有效處理大規模數據,具有較好的預測性能和計算效率。3、為了考察一種新的教學方法對學生英語成績的影響,某學校進行了調查,共得到400個樣本數據。數據表中grade為標簽,psi、gpa、tuc為特征。grade為分類數據,取1表示學習成績提高,0表示學習成績沒有提高;psi為分類數據,取1表示接受了新的教學方法指導,0表示沒有接受新的教學方法指導;gpa表示學生平均積分點,為數值型數據;tuc表示以往的學生成績,為數值型數據。假如,想了解gpa、tuc和psi對學生成績是否有影響,以及預測學生學習成績是否會提高,你會選擇下述用哪個。
    模型?為什麽?a.線性回歸 b.邏輯回歸 c.聚類 d.關聯規則挖掘)你的選擇:邏輯回歸你的解釋:邏輯回歸是一種廣泛應用於分類問題的機器學習算法。在這個情況下,我們的目標是預測學習成績是否提高,這是一個二分類問題,即學習成績提高或不提高。邏輯回歸可以用來建立一個概率模型,根據給定的特征值gpa、tuc和psi),計算出學生成績提高的概率。邏輯回歸模型的輸出是一個概率值,表示學生成績提高的可能性。這使得我們能夠根據學生的特征值進行預測,並判斷他們學習成績是否會提高。此外,邏輯回歸還可以提供每個特征的權重係數,幫助我們理解各個特征對學生成績的影響程度。線性回歸 (a.線性回歸) 也可用於這個問題,但它更適用於連續數值型的目標變量的預測,而不是二分類問題。聚類 (c.聚類) 是無監督學習方法,不適用於這個情況。關聯規則挖掘 (d.關聯規則挖掘) 通常用於發現數據中的頻繁項集和關聯關係,不太適合用於預測學生成績的問題。因此,在給出的選項中,選擇使用邏輯回歸模型b.邏輯回歸)是合適的,它可以用於預測學生學習成績是否會提高,並了解gpa、tuc和psi對學生成績的影響程度。4、keans算法在給定數據集上運行第一次後的結果為,數據集分為三個簇: custer1: (1, 3)、 (2,4);custer2: (4, 0) 、(2, 0);custer3 :(0, 3)、 (0, 5)。樣本(0, 3)和custer2的質心之間的曼哈頓距離為:你的答案:5你的計算過程:custer2的質心:(4+2)2=3;0樣本的坐標是 (0, 3),custer 2 的質心是 (3, 0)。將給定的點代入公式,我們有:d = |3  0| + |0  3|= |3| + |3|= 3 + 3= 6。
    本小章還未完,請點擊下一頁繼續閱讀後麵精彩內容!
    。。
    1bagging包裝法):優勢:bagging通過隨機有放回地對訓練數據進行采樣,每個基分類器獨立訓練,然後通過投票或平均等方式進行集成,能夠有效降低過擬合風險,提高模型的泛化能力。它尤其適合在高方差的模型上使用,如決策樹等。局限性:對於高偏差的模型來說,bagging可能無法顯著改善模型性能。此外,由於基分類器的獨立性,bagging不容易處理存在較強相關性的數據,比如時間序列數據。使用場景:bagging通常用於分類和回歸問題,在數據集較大且噪聲相對較小的情況下表現良好。2boosting提升法):優勢:boosting通過迭代地訓練一係列基分類器,並根據前一個分類器的性能對樣本權重進行調整,使得基分類器逐漸關注於難以分類的樣本。它能夠有效提高模型的精度和泛化能力,尤其適合解決高偏差的問題。局限性:boosting對噪聲和異常值比較敏感,容易導致過擬合。此外,由於基分類器之間存在依賴關係,boosting的訓練過程相對較慢。使用場景:boosting通常用於分類問題,在需要處理高偏差或低準確度的場景下表現出色。3stacking堆疊法):優勢:stacking通過在多個基分類器上構建一個元分類器來進行集成,可以充分利用各個基分類器的預測結果,進一步提升性能。通過允許使用更複雜的元分類器,stacking具有更強大的表達能力。局限性:stacking的主要挑戰在於選擇合適的元特征以及使用交叉驗證避免數據泄露。此外,stacking通常需要更多的計算資源和時間來進行模型訓練和預測。使用場景:stacking適用於各類機器學習問題,並且在數據集相對較大、前期已經進行了一定特征工程的情況下效果較好。
    喜歡離語請大家收藏:()離語書更新速度全網最快。