北太天元應(yīng)用案例分享：用向量機(jī)做心臟病篩查

標(biāo)簽：數(shù)模競(jìng)賽

社區(qū)小助手 2024-06-27 10:03:57

數(shù)據(jù)

age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target

42,1,1,120,295,0,1,162,0,0,2,0,2,1

48,0,2,130,275,0,1,139,0,0.2,2,0,2,1

54,1,2,120,258,0,0,147,0,0.4,1,0,3,1

54,0,2,108,267,0,0,167,0,0,2,0,2,1

51,0,2,130,256,0,0,149,0,0.5,2,0,2,1

57,0,0,128,303,0,0,159,0,0,2,1,2,1

61,1,0,138,166,0,0,125,1,3.6,1,1,2,0

45,1,0,115,260,0,0,185,0,0,2,0,2,1

60,0,3,150,240,0,1,171,0,0.9,2,0,2,1

49,0,0,130,269,0,1,163,0,0,2,0,2,1

53,1,2,130,246,1,0,173,0,0,2,3,2,1

54,1,0,140,239,0,1,160,0,1.2,2,0,2,1

51,1,0,140,298,0,1,122,1,4.2,1,3,3,0

49,1,2,118,149,0,0,126,0,0.8,2,3,2,0

58,1,2,105,240,0,0,154,1,0.6,1,0,3,1

48,1,1,130,245,0,0,180,0,0.2,1,0,2,1

48,1,0,122,222,0,0,186,0,0,2,0,2,1

52,1,2,138,223,0,1,169,0,0,2,4,2,1

54,1,1,192,283,0,0,195,0,0,2,1,3,0

63,0,0,150,407,0,0,154,0,4,1,3,3,0

70,1,1,156,245,0,0,143,0,0,2,0,2,1

這是一個(gè)關(guān)于心臟病篩查的數(shù)據(jù)集片段，每一行代表一個(gè)病人的信息。以下是各列字段的解釋?zhuān)?/p>

age：年齡 - 病人的年齡（以歲為單位）。
sex：性別 - 通常為0（女性）或1（男性）。
cp：胸痛類(lèi)型 - 這是一個(gè)分類(lèi)變量，表示胸痛的類(lèi)型。不同的數(shù)字可能代表不同的胸痛類(lèi)型（例如，0可能表示無(wú)胸痛，1、2、3、4可能代表不同類(lèi)型的胸痛）。
trestbps：靜息血壓 - 病人在靜息狀態(tài)下的血壓（單位可能是mmHg）。
chol：血清膽固醇 - 病人的血清膽固醇水平（單位可能是mg/dL）。
fbs：空腹血糖 - 病人的空腹血糖水平（0可能表示正常，1可能表示高于正常）。
restecg：靜息心電圖結(jié)果 - 這可能是一個(gè)分類(lèi)變量，表示靜息狀態(tài)下的心電圖結(jié)果。
thalach：最大心率 - 病人能達(dá)到的最大心率（單位可能是次/分鐘）。
exang：運(yùn)動(dòng)誘發(fā)的心絞痛 - 0可能表示沒(méi)有，1可能表示有。
oldpeak：ST段下降 - 這是心電圖的一個(gè)參數(shù)，可能表示心肌缺血的程度（單位可能是mV或其他相關(guān)單位）。
slope：ST段峰值斜率 - 這也是心電圖的一個(gè)參數(shù)，可能與心臟的病理狀況有關(guān)（例如，1、2、3可能表示不同的斜率類(lèi)型）。
ca：冠狀動(dòng)脈造影的主要血管數(shù)量 - 這可能是一個(gè)分類(lèi)變量，表示在冠狀動(dòng)脈造影中檢測(cè)到的主要血管數(shù)量（0可能表示無(wú)血管受損，其他數(shù)字可能表示受損血管的數(shù)量）。
thal：缺陷類(lèi)型 - 這可能是一個(gè)分類(lèi)變量，表示某種心臟缺陷或病理狀況的類(lèi)型。
target：目標(biāo)變量 - 這是我們要預(yù)測(cè)或分類(lèi)的變量。通常，1可能表示病人有心臟病，0可能表示沒(méi)有。

下面是北太天元軟件的代碼, 關(guān)于心臟病數(shù)據(jù)集的多類(lèi)支持向量機(jī)（SVM）分類(lèi)器的完整實(shí)現(xiàn)，包括數(shù)據(jù)預(yù)處理、主成分分析（PCA）降維、交叉驗(yàn)證劃分、模型訓(xùn)練和測(cè)試、以及結(jié)果可視化。下面是對(duì)代碼的詳細(xì)解讀：

導(dǎo)入插件和數(shù)據(jù)

北太天元代碼

load_plugin("optimization");
data = readmatrix('heart disease.csv');

load_plugin("optimization"): 加載優(yōu)化工具箱，用于求解二次規(guī)劃問(wèn)題。

readmatrix('heart disease.csv'): 讀取心臟病數(shù)據(jù)集。

數(shù)據(jù)預(yù)處理

北太天元代碼

if any(any(ismissing(data)))
    data = rmmissing(data);
end

檢查數(shù)據(jù)中是否有缺失值，并使用rmmissing函數(shù)刪除包含缺失值的行。

分離特征和標(biāo)簽

北太天元代碼

X = data(:,1:end-1);
y = data(:,end);

將數(shù)據(jù)集中的最后一列作為標(biāo)簽，其余列作為特征。

主成分分析降維

北太天元代碼

[coeff,score,latent] = pca(X);
X_pca = score(:,1:2);

使用自定義的pca函數(shù)對(duì)特征進(jìn)行降維，保留前兩個(gè)主成分。

劃分訓(xùn)練集和測(cè)試集

北太天元代碼

cv = my_cvpartition(size(X_pca,1),'HoldOut',0.3);
% ...（省略部分代碼）

使用自定義的my_cvpartition函數(shù)進(jìn)行HoldOut交叉驗(yàn)證劃分，將數(shù)據(jù)集分為70%的訓(xùn)練集和30%的測(cè)試集。

訓(xùn)練SVM模型

北太天元代碼

SVMModel = my_fitcecoc(X_train,Y_train,C);

使用自定義的my_fitcecoc函數(shù)訓(xùn)練多類(lèi)SVM模型。該函數(shù)內(nèi)部采用一對(duì)一（One-vs-One）策略，為每個(gè)類(lèi)別對(duì)訓(xùn)練一個(gè)SVM分類(lèi)器。

預(yù)測(cè)測(cè)試集并計(jì)算準(zhǔn)確率

北太天元代碼

[label,score] = predict(SVMModel,X_test);
accuracy = sum(label-1 == Y_test) / length(Y_test);

使用predict函數(shù)對(duì)測(cè)試集進(jìn)行預(yù)測(cè)，并計(jì)算準(zhǔn)確率。注意這里假設(shè)標(biāo)簽是從1開(kāi)始的，所以計(jì)算準(zhǔn)確率時(shí)需要將預(yù)測(cè)的標(biāo)簽減1。

可視化

matlab復(fù)制代碼

gscatter(X_pca(:,1),X_pca(:,2),y);
% ...（省略繪制決策邊界的代碼）

使用gscatter函數(shù)繪制原始數(shù)據(jù)點(diǎn)的散點(diǎn)圖，并使用輪廓線繪制決策邊界。

自定義函數(shù)解讀

pca: 實(shí)現(xiàn)主成分分析算法，對(duì)數(shù)據(jù)進(jìn)行降維。

my_cvpartition: 自定義的交叉驗(yàn)證劃分函數(shù)，這里只實(shí)現(xiàn)了HoldOut方法。

my_fitcecoc: 實(shí)現(xiàn)多類(lèi)SVM分類(lèi)器的訓(xùn)練，采用一對(duì)一策略。

my_fitcsvm和my_fitcsvm_soft: 實(shí)現(xiàn)硬間隔和軟間隔SVM分類(lèi)器的訓(xùn)練，使用二次規(guī)劃求解。

predict: 對(duì)測(cè)試集進(jìn)行預(yù)測(cè)，并返回預(yù)測(cè)的標(biāo)簽和得分。

predictOneVsAll: 使用單個(gè)SVM模型進(jìn)行預(yù)測(cè)，并返回預(yù)測(cè)結(jié)果和決策函數(shù)的值。

注意事項(xiàng)

代碼中存在一些假設(shè)和簡(jiǎn)化，例如標(biāo)簽從1開(kāi)始、直接計(jì)算決策函數(shù)的值作為得分等，這些在實(shí)際應(yīng)用中可能需要根據(jù)具體情況進(jìn)行調(diào)整。
在使用二次規(guī)劃求解SVM問(wèn)題時(shí)，需要注意目標(biāo)函數(shù)和約束條件的設(shè)置，以確保求解的正確性。
可視化部分僅繪制了前兩個(gè)主成分的散點(diǎn)圖和決策邊界，對(duì)于更高維度的數(shù)據(jù)可能需要進(jìn)行其他形式的可視化。

下面是全部代碼

load_plugin("optimization");
% 導(dǎo)入數(shù)據(jù)
data = readmatrix('heart disease.csv');
% 檢查并處理缺失值
if any(any(ismissing(data)))
    data = rmmissing(data);
end
% 分離特征和標(biāo)簽
X = data(:,1:end-1);
y = data(:,end);
% 主成分分析降維
[coeff,score,latent] = pca(X);
X_pca = score(:,1:2);
% 劃分訓(xùn)練集和測(cè)試集
cv = my_cvpartition(size(X_pca,1),'HoldOut',0.3);
idx = cv.test;
train_idx = setdiff(1: size(X_pca,1), idx);
X_train = X_pca(train_idx,:);
Y_train = y(train_idx,:);
X_test = X_pca(idx,:);
Y_test = y(idx,:);
% 訓(xùn)練SVM模型
C = 1e2; % 設(shè)置較大的C值以確保硬間隔分類(lèi)（對(duì)于線性可分?jǐn)?shù)據(jù)）
SVMModel = my_fitcecoc(X_train,Y_train,C);
% 預(yù)測(cè)測(cè)試集
[label,score] = predict(SVMModel,X_test);
% 計(jì)算準(zhǔn)確率
accuracy = sum(label-1 == Y_test) / length(Y_test);
% 可視化
gscatter(X_pca(:,1),X_pca(:,2),y);
hold on;
% 繪制決策邊界c
d = 0.15;
[x1Grid,x2Grid] = meshgrid(min(X_pca(:,1)):d:max(X_pca(:,1)),...
min(X_pca(:,2)):d:max(X_pca(:,2)));
xGrid = [x1Grid(:),x2Grid(:)];
[~,scores] = predict(SVMModel,xGrid);
contour(x1Grid,x2Grid,reshape(scores(:,2),size(x1Grid)),[0 0],'k');
% 輸出準(zhǔn)確率
fprintf('The accuracy of the SVM model is %.2f%%\n', accuracy * 100);
hold off;
function [coeff, score, latent] = pca(X)
    % X: 數(shù)據(jù)矩陣，每一列是一個(gè)特征，每一行是一個(gè)樣本
    % coeff: 主成分系數(shù)
    % score: 表示主成分得分
    % latent: 主成分對(duì)應(yīng)的特征值
    % 標(biāo)準(zhǔn)化數(shù)據(jù)（均值為0，方差為1）
    X = (X - mean(X)) ./ std(X);
%    X = (X - mean(X));
    % 計(jì)算協(xié)方差矩陣
    CovMat = cov(X);
    % 對(duì)協(xié)方差矩陣進(jìn)行特征值分解
    [V, D] = eig(CovMat);
    % 將特征值按降序排序，并獲取對(duì)應(yīng)的特征向量
    [latent, order] = sort(diag(D), 'descend');
    coeff = V(:, order);
    % 計(jì)算主成分得分
    score = X * coeff;
end
function cv = my_cvpartition(n, method, param)
    % n: 總樣本數(shù)
    % method: 分區(qū)方法，目前僅支持 'HoldOut'
    % param: 分區(qū)方法的參數(shù)，對(duì)于 'HoldOut'，該參數(shù)為留出的比例
    % 初始化輸出結(jié)構(gòu)體
    cv = struct('train', [], 'test', []);
    if strcmp(method, 'HoldOut')
        % 生成一個(gè)從 1 到 n 的整數(shù)數(shù)組
        idx = 1:n;
        % 隨機(jī)打亂 idx 數(shù)組
        idx = idx(randperm(n));
        % 計(jì)算留出樣本的數(shù)量
        numHoldOut = floor(n * param);
        % 分配訓(xùn)練和測(cè)試索引
        cv.test = idx(1:numHoldOut);
        cv.train = idx(numHoldOut+1:end);
    else
        error('Unsupported partition method.');
    end
end
function SVMModel = my_fitcecoc(X_train, Y_train, C)
    % X_train: 特征矩陣 (n x d)，其中 n 是樣本數(shù)，d 是特征維度
    % Y_train: 標(biāo)簽向量 (n x 1)
    % C: 正則化參數(shù)，控制對(duì)錯(cuò)分樣本的懲罰程度
    % 獲取類(lèi)別數(shù)量
    uniqueClasses = unique(Y_train);
    numClasses = length(uniqueClasses);
    % 初始化 SVM 模型結(jié)構(gòu)體數(shù)組
    SVMModel = struct('Classifiers', cell(numClasses*(numClasses-1)/2, 1), ...
    'ClassPairs', [], 'ClassPairsIndex', [], 'UniqueClasses', uniqueClasses);
    % 訓(xùn)練一對(duì)一 SVM 分類(lèi)器
    classifierIndex = 1;
    for i = 1:numClasses
        for j = (i+1):numClasses
            % 提取當(dāng)前類(lèi)別對(duì)的訓(xùn)練數(shù)據(jù)
            classI = Y_train == uniqueClasses(i);
            classJ = Y_train == uniqueClasses(j);
            X_train_ij = [X_train(classI, :); X_train(classJ, :)];
            Y_train_ij = [ones(sum(classI), 1); -1*ones(sum(classJ), 1)];
            % 訓(xùn)練 SVM 分類(lèi)器
            SVMModel.Classifiers{classifierIndex} = my_fitcsvm_soft(X_train_ij, Y_train_ij, C);
            % 記錄當(dāng)前分類(lèi)器對(duì)應(yīng)的類(lèi)別對(duì)
            SVMModel.ClassPairs(classifierIndex, :) = [uniqueClasses(i), uniqueClasses(j)];
            SVMModel.ClassPairsIndex(classifierIndex, :) = [i,j];
            classifierIndex = classifierIndex + 1;
        end
    end
end
function [wb] = my_fitcsvm(X, Y)
    % X: 特征矩陣 (n x d)，其中 n 是樣本數(shù)，d 是特征維度
    % Y: 標(biāo)簽向量 (n x 1)，取值為 +1 或 -1
    load_plugin("optimization");
    % 假設(shè)X和Y已經(jīng)定義，如之前的示例
    N = size(X, 1); % 數(shù)據(jù)點(diǎn)的數(shù)量
    D = size(X,2); % 數(shù)據(jù)的維度
    % 將w和b組合成一個(gè)向量，以便使用quadprog
    % 注意：這里我們將w放在前面，b放在最后
    p = rand(D + 1, 1); % 初始猜測(cè)解（通常設(shè)為0）
    Aeq = []; % 沒(méi)有等式約束
    beq = [];
    % 構(gòu)造二次規(guī)劃的目標(biāo)函數(shù)和線性不等式約束
    H = eye(D+1); % Hessian矩陣（目標(biāo)函數(shù)的二次項(xiàng)系數(shù)）
    f = zeros(D+1,1); % 目標(biāo)函數(shù)的一次項(xiàng)系數(shù)（對(duì)于SVM原始問(wèn)題，通常為負(fù)）
    % 線性不等式約束 Ax <= b
    % 對(duì)于每個(gè)數(shù)據(jù)點(diǎn) (x_i, y_i)，我們有 y_i * (w' * x_i + b) >= 1
    A = [-Y.*X, -Y]; % 不等式約束的系數(shù)矩陣
    b = -ones(N, 1); % 不等式約束的右側(cè)向量
    % 使用quadprog求解二次規(guī)劃問(wèn)題
    options = optimoptions('quadprog','Algorithm','interior-point');
    [w_b, fval, exitflag, output] = quadprog(H, f, A, b, Aeq, beq, [], [], p, options);
    % 分離出w和b
    w = w_b(1:D);
    b = w_b(D+1);
    wb = struct('w',w,'b',b);
end
function [wb] = my_fitcsvm_soft(X, Y, C)
    % X: 特征矩陣 (n x d)，其中 n 是樣本數(shù)，d 是特征維度
    % Y: 標(biāo)簽向量 (n x 1)，取值為 +1 或 -1
    % C: 正則化參數(shù)，控制對(duì)錯(cuò)分樣本的懲罰程度
    % 假設(shè)X和Y已經(jīng)定義，如之前的示例
    N = size(X, 1); % 數(shù)據(jù)點(diǎn)的數(shù)量
    D = size(X, 2); % 數(shù)據(jù)的維度
    % 初始化松弛變量（slack variables）
    xi = zeros(N, 1);
    % 將w和b以及松弛變量組合成一個(gè)向量，以便使用quadprog
    p = zeros(D + 1 + N, 1); % 初始猜測(cè)解
    % 構(gòu)造二次規(guī)劃的目標(biāo)函數(shù)和線性不等式約束
    H = [diag( [ones(1,D),0] ), zeros(D+1, N); zeros(N, D+1), zeros(N,N)]; % Hessian矩陣
    f = [zeros(D+1, 1); C*ones(N, 1)]; % 目標(biāo)函數(shù)的一次項(xiàng)系數(shù)
    % 線性不等式約束 Ax <= b
    % 對(duì)于每個(gè)數(shù)據(jù)點(diǎn) (x_i, y_i)，我們有 y_i * (w' * x_i + b) >= 1 - xi_i
    A = [-Y.*X, -Y, diag( -ones(1,N) )]; % 不等式約束的系數(shù)矩陣
    b = -ones(N, 1); % 不等式約束的右側(cè)向量
    Aeq = []; % 沒(méi)有等式約束
    beq = [];
    lb = [ -inf*ones(D+1,1); zeros(N,1)];
    ub = inf*ones(D+1+N,1);
    % 使用quadprog求解二次規(guī)劃問(wèn)題
    options = optimoptions('quadprog','Algorithm','interior-point');
    [w_b_xi, fval, exitflag, output] = quadprog(H, f, A, b, Aeq, beq, lb, ub, p, options)
    % 分離出w, b和xi
    w = w_b_xi(1:D);
    b = w_b_xi(D+1);
    xi = w_b_xi(D+2:end);
    % 構(gòu)造并返回結(jié)構(gòu)體wb，包含w和b
    wb = struct('w', w, 'b', b);
end
function [label, score] = predict(SVMModel, X_test)
    % SVMModel: 訓(xùn)練好的多類(lèi)SVM模型，由my_fitcecoc函數(shù)返回
    % X_test: 測(cè)試集特征數(shù)據(jù)
    % label: 預(yù)測(cè)的類(lèi)別標(biāo)簽
    % score: 預(yù)測(cè)的得分（可選，這里簡(jiǎn)化為投票得分）
    % 初始化預(yù)測(cè)標(biāo)簽和得分
    [numTest, ~] = size(X_test);
    numClasses = length(SVMModel.Classifiers);
    label = zeros(numTest, 1);
    score = zeros(numTest, numClasses);
    % 對(duì)每個(gè)測(cè)試樣本進(jìn)行預(yù)測(cè)
    for i = 1:numTest
        sample = X_test(i, :);
        votes = zeros(1, numClasses+1);
        % 使用每個(gè)SVM分類(lèi)器進(jìn)行預(yù)測(cè)，并進(jìn)行投票
        for j = 1:numClasses
            svmModel = SVMModel.Classifiers{j};
            [~, ~, ~, output] = predictOneVsAll(svmModel, sample);
            if output == 1
                classIdx1 = SVMModel.ClassPairsIndex(j, 1);
                votes(classIdx1) = votes(classIdx1) + 1;
            else
                classIdx2 = SVMModel.ClassPairsIndex(j, 2);
                votes(classIdx2) = votes(classIdx2) + 1;
            end
        end
        % 找到得票最多的類(lèi)別作為預(yù)測(cè)標(biāo)簽
        [~, maxVoteIdx] = max(votes);
        label(i) = SVMModel.UniqueClasses(maxVoteIdx);
        score(i, maxVoteIdx) = votes(maxVoteIdx); % 將最高票數(shù)作為得分
    end
end
function [predictedLabel, predictedScore, decisionValues, output] = predictOneVsAll(svmModel, sample)
    % 使用單個(gè)SVM模型進(jìn)行預(yù)測(cè)
    % 這里簡(jiǎn)化為直接計(jì)算決策函數(shù)的值，實(shí)際應(yīng)用中可能需要更復(fù)雜的處理
    w = svmModel.w;
    b = svmModel.b;
    decisionValues = dot(w, sample) + b;
if decisionValues >= 0
        predictedLabel = 1; % 屬于正類(lèi)
    else
        predictedLabel = -1; % 屬于負(fù)類(lèi)
    end
    predictedScore = abs(decisionValues); % 決策函數(shù)的絕對(duì)值作為得分
    output = predictedLabel; % 用于投票的輸出
end

處理非連續(xù)或非標(biāo)準(zhǔn)化標(biāo)簽

處理非連續(xù)或非標(biāo)準(zhǔn)化標(biāo)簽（例如，不是從1開(kāi)始的整數(shù)或不是連續(xù)整數(shù)）是機(jī)器學(xué)習(xí)中的一個(gè)常見(jiàn)問(wèn)題。在我的SVM分類(lèi)器實(shí)現(xiàn)中，為了處理這種情況，我引入了SVMModel.UniqueClasses和SVMModel.ClassPairsIndex兩個(gè)字段。下面我將詳細(xì)解釋這兩個(gè)字段的作用以及如何在預(yù)測(cè)過(guò)程中使用它們。

SVMModel.UniqueClasses

SVMModel.UniqueClasses存儲(chǔ)了數(shù)據(jù)集中所有唯一的類(lèi)別標(biāo)簽。當(dāng)訓(xùn)練數(shù)據(jù)中的標(biāo)簽不是從1開(kāi)始的連續(xù)整數(shù)時(shí)，這個(gè)字段特別有用。例如，如果標(biāo)簽是[-1, 0, 2]，那么UniqueClasses就會(huì)是[-1, 0, 2]。

在訓(xùn)練過(guò)程中，這個(gè)字段用于記錄所有不同的標(biāo)簽，以便在預(yù)測(cè)時(shí)能夠正確地將預(yù)測(cè)的類(lèi)別索引映射回原始標(biāo)簽。

SVMModel.ClassPairsIndex

SVMModel.ClassPairsIndex存儲(chǔ)了訓(xùn)練一對(duì)一SVM分類(lèi)器時(shí)所使用的類(lèi)別對(duì)的索引。由于我們可能不能直接使用原始標(biāo)簽作為索引（尤其是當(dāng)它們不是從1開(kāi)始的連續(xù)整數(shù)時(shí)），我們需要一個(gè)從1開(kāi)始的連續(xù)整數(shù)索引來(lái)標(biāo)識(shí)不同的類(lèi)別。這個(gè)索引在訓(xùn)練SVM分類(lèi)器和投票過(guò)程中都是必要的。

例如，如果UniqueClasses是[-1, 0, 2]，我們可以為這些類(lèi)別分配一個(gè)從1開(kāi)始的索引：-1對(duì)應(yīng)索引1，0對(duì)應(yīng)索引2，2對(duì)應(yīng)索引3。然后，ClassPairsIndex就會(huì)存儲(chǔ)這些索引對(duì)應(yīng)的類(lèi)別對(duì)，例如[1, 2]、[1, 3]和[2, 3]。

在預(yù)測(cè)過(guò)程中使用這些字段

在預(yù)測(cè)過(guò)程中，SVMModel.UniqueClasses和SVMModel.ClassPairsIndex一起使用來(lái)確保正確的類(lèi)別映射。以下是一個(gè)簡(jiǎn)化的流程：

對(duì)于測(cè)試集中的每個(gè)樣本，使用所有的一對(duì)一SVM分類(lèi)器進(jìn)行預(yù)測(cè)。
根據(jù)每個(gè)分類(lèi)器的預(yù)測(cè)結(jié)果（正類(lèi)或負(fù)類(lèi)）進(jìn)行投票。但是，由于我們使用了從1開(kāi)始的連續(xù)整數(shù)索引來(lái)標(biāo)識(shí)類(lèi)別，因此投票結(jié)果也是基于這些索引的。
找到得票最多的索引（例如，索引2）。
使用SVMModel.ClassPairsIndex（如果必要的話）和SVMModel.UniqueClasses將得票最多的索引轉(zhuǎn)換回原始標(biāo)簽。在這個(gè)例子中，索引2對(duì)應(yīng)UniqueClasses中的第二個(gè)元素，即標(biāo)簽0。
返回預(yù)測(cè)的原始標(biāo)簽作為預(yù)測(cè)結(jié)果。

通過(guò)這種方式，即使訓(xùn)練數(shù)據(jù)中的標(biāo)簽不是從1開(kāi)始的連續(xù)整數(shù)，我的SVM分類(lèi)器實(shí)現(xiàn)也能夠正確地預(yù)測(cè)類(lèi)別并返回原始標(biāo)簽。

軟間隔的SVM（支持向量機(jī)）算法

軟間隔的SVM（支持向量機(jī)）算法是為了解決線性不可分或存在噪聲數(shù)據(jù)的問(wèn)題而引入的。在硬間隔SVM中，所有樣本都必須被正確地分類(lèi)，這在實(shí)際應(yīng)用中往往很難滿(mǎn)足。軟間隔SVM則允許部分樣本被錯(cuò)誤分類(lèi)，通過(guò)在目標(biāo)函數(shù)中引入一個(gè)懲罰項(xiàng)（或稱(chēng)為損失函數(shù)）來(lái)控制這種錯(cuò)誤分類(lèi)的程度。

軟間隔SVM的算法可以通過(guò)二次規(guī)劃問(wèn)題來(lái)描述。二次規(guī)劃問(wèn)題是一個(gè)優(yōu)化問(wèn)題，它涉及最小化或最大化一個(gè)二次函數(shù)，同時(shí)滿(mǎn)足一組線性不等式約束。在軟間隔SVM中，這個(gè)二次函數(shù)通常與超平面的參數(shù)（如權(quán)重向量w和偏置項(xiàng)b）有關(guān)，而約束條件則與樣本點(diǎn)到超平面的距離和分類(lèi)正確性有關(guān)。

下面是軟間隔SVM二次規(guī)劃問(wèn)題的標(biāo)準(zhǔn)形式：

靈感來(lái)自盧朓老師《數(shù)值方法：原理、算法及應(yīng)用》課堂學(xué)生大作業(yè)~

學(xué)生作業(yè)的原代碼是用MATLAB寫(xiě)的，以上為盧朓老師修改之后可以在北太天元上運(yùn)行的代碼分享

原視頻見(jiàn)下方：

494 0 0 收藏回復(fù)

北太天元應(yīng)用案例分享：用向量機(jī)做心臟病篩查

數(shù)據(jù)

導(dǎo)入插件和數(shù)據(jù)

數(shù)據(jù)預(yù)處理

分離特征和標(biāo)簽

主成分分析降維

劃分訓(xùn)練集和測(cè)試集

訓(xùn)練SVM模型

預(yù)測(cè)測(cè)試集并計(jì)算準(zhǔn)確率

可視化

自定義函數(shù)解讀

注意事項(xiàng)

處理非連續(xù)或非標(biāo)準(zhǔn)化標(biāo)簽

SVMModel.UniqueClasses

SVMModel.ClassPairsIndex

在預(yù)測(cè)過(guò)程中使用這些字段

軟間隔的SVM（支持向量機(jī)）算法

回復(fù)

回復(fù)

推薦話題

熱門(mén)標(biāo)簽

社區(qū)牛人

產(chǎn)品介紹

生態(tài)合作

服務(wù)支持

關(guān)于我們