課程內容:
第1章: 菜菜的機器學習sklearn課程介紹
第2章: 決策樹
2.1分類樹
2.2回歸樹
2.3回歸樹案例:用回歸樹擬合正弦曲線
2.4案例:泰坦尼克號生存者預測
第3章: 隨機森林
3.1集成算法概述
3.2隨機森林分類器 、回歸器
3.3案例:用隨機森林填補缺失值
3.4機器學習中調參的基本思想
3.5案例:隨機森林在乳腺癌數據上的調參
第4章: 數據預處理和特征工程
4.1數據預處理與特征工程
4.2數據預處理:無量綱化:數據歸一化、缺失值、處理分類型數據、處理連續型數據
4.3特征選擇過濾法:方差過濾 、卡方過濾、F檢驗和互信息法、嵌入法、包裝法
第5章: 主成分分析PCA與奇異值分解SVD
5.1降維算法
5.2參數應用案例:高維數據的可視化
5.3屬性應用案例:人臉識別中的components_應用
5.4接口應用案例:用人臉識別看PCA降維后的信息保存量
5.5接口應用案例:用PCA實現手寫數字的噪音過濾
5.6總結:原理,流程,重要屬性接口和參數
5.**CA實現784個特征的手寫數字的降維
第6章: 邏輯回歸與評分卡
6.1邏輯回歸
6.******rn當中的邏輯回歸
6.3二元邏輯回歸的損失函數
6.4正則化:重要參數penalty & C
6.5邏輯回歸的特征工程
6.6重要參數max_iter - 梯度下降求解邏輯回歸的過程
6.7梯度的概念與解惑、步長的概念與解惑
6.8二元回歸與多元回歸:重要參數solver & multi_class
6.9樣本不均衡與參數class_weight
6.1評分卡案例 - 評分卡與完整的模型開發流程
6.11評分卡 - 數據預處理- 重復值與缺失值、異常值
第7章: 聚類算法KMeans
7.1無監督學習概述,聚類vs分類
7.******rn當中的聚類算法
7.3簇內平方和,時間復雜度
7.*****ns - 重要參數n_clusters
7.5聚類算法的模型評估指標
7.6案例:輪廓系數找n_clusters
7.7案例:Kmeans做矢量量化
第8章: 支持向量機 (上)
8.**VM
8.2線性SVC的損失函數
8.3函數間隔與幾何間隔
8.4拉格朗日對偶函數
8.5線性SVM可視化
8.6案例:如何選取核函數
8.7案例:在乳腺癌數據集上探索核函數的性質
第9章: 支持向量機 (下)
9.1簡單復習支持向量機的基本原理
9.2參數C的深入理解:多個支持向量存在的理由
9.3二分類SVC中的樣本不均衡問題:重要參數class_weight
9.**VC的模型評估指標
9.5混淆矩陣與準確率
9.6精確度Precision、召回率Recall與F1 measure
9.7對多數類樣本的關懷:特異度Specificity與假正率FPR
9.******rn中的混淆矩陣
9.**OC曲線:Recall與假正率FPR的平衡
9.1案例:預測明天是否會下雨 - 案例背景
9.11案例:導庫導數據,探索特征,jupyter中的快捷鍵
9.12案例:分集,優先處理標簽
9.13案例:描述性統計,處理異常值
9.14案例:現實數據上的數據預處理
9.15案例:現實數據集上的數據預處理 - 處理連續型變量
9.16案例:建模與模型評估
9.17案例:模型調參:追求精確度與recall的平衡
第10章: 回歸大家族:線性回歸,嶺回歸,Lasso與多項式回歸
10.1課時 182 : 線性回歸大家族
10.2多元線性回歸的基本原理和損失函數
10.3回歸類模型的評估指標
10.4多重共線性:含義,數學,以及解決方案
10.5嶺回歸處理多重共線性
10*****so
10.7線性數據與非線性數據
10.8線性vs非線性模型
10.9離散化:幫助線性回歸解決非線性問題
10.1多項式回歸
第11章: 樸素貝葉斯
11.1概率論基礎 - 貝葉斯理論等式
11.2瓢蟲冬眠:理解條件概率
11.3貝葉斯的性質與后驗估計
11.4漢堡稱重:連續型變量的概率估計
11******rn中的樸素貝葉斯
11.6高斯樸素貝葉斯
11.7多項式樸素貝葉斯
11.8伯努利樸素貝葉斯
11.9補集樸素貝葉斯
11.1案例:貝葉斯做文本分類
第12章: XGBoost