了得網計算機/網絡_MATLAB數據探索性分析(原書第2版)/清華開發者書庫

\"本書是MathWorks Fellow**用書！在本書英文版網站上，可以下載MATLAB實例代碼、EDA工具箱、數據集和書中所有彩色版圖片插圖。繫統論述MATLAB數據挖掘的享譽**的著作！英文原書網站提供實例代碼、工具箱、數據集、彩色圖片等資源！ \"

本書繫統介紹了基於MATLAB語言的探索性數據分析與實現方法。本書共分10章，從實際數據集與探索性數據分析的基本概念講起，內容涉及數據模式的發現、線性與非線性降維方法、數據巡查方法、聚類分析，以及用於探索性數據分析的數據可視化方法。除了基本分析與實現方法，書中也給出了豐富的應用實例，並提供了大量免費的相關資源，全部實例代碼都可以直接用於探索性數據分析。

Wendy L. Martinez 1989年獲得卡內基？梅隆大學物理學和數學學士學位，後在喬治？華盛頓大學及美國航空航天局蘭利研究中心完成航空航天工程碩士學位的學習，並於1995年獲得喬治？梅森大學計算科學和信息學（主要是計算統計學）博士學位。獲得博士學位後，在美國軍隊工作15年。在美國海軍水面作戰中心研發實驗室，進行了概率密度估計、信號處理、科學可視化和模式識別等方面的研究。研究興趣包括概率密度估計、統計模式識別和機器學習、科學可視化、探索性數據分析和文本數據挖掘。

目錄
譯者序Ⅰ

第2版前言Ⅲ

**版前言Ⅴ

**部分探索性數據分析綜述

第1章緒論

1.1何為探索性數據分析

1.2全文概述

1.3關於符號表示法

1.4本書使用的數據集

1.4.1非結構化文本文檔

1.4.2基因表達數據

1.4.3Oronsay數據集

1.4.4軟件檢測

1.5數據變換

1.5.1冪變換

1.5.2標準化

1.5.3數據球面化

1.6深入閱讀

練習

第二部分模式發現的EDA方法

第2章降維——線性方法

2.1簡介

2.2主成分分析——PCA

2.2.1基於樣本協方差矩陣的PCA

2.2.2基於樣本相關矩陣的PCA

2.2.3應該保留多少個維度

2.3奇異值分解——SVD

2.4非負矩陣分解

2.5因子分析

2.6Fisher線性判別

2.7本征維數

2.7.1*近鄰法

2.7.2關聯維數

2.7.3*大似然法

2.7.4包數估計

2.8總結與深入閱讀

練習

第3章降維——非線性方法

3.1多維尺度分析——MDS

3.1.1度量MDS

3.1.2非度量MDS

3.2流形學習

3.2.1局部線性嵌入

3.2.2等距特征映射——ISOMAP

3.2.3海賽特征映射

3.3人工神經網絡方法

3.3.1自組織映射

3.3.2生成式拓撲映射

3.3.3曲元分析

3.4總結與深入閱讀

練習

第4章數據巡查

4.1總體巡查法

4.1.1Torus Winding法

4.1.2偽總體巡查法

4.2插值巡查法

4.3投影追蹤法

4.4投影追蹤索引

4.4.1Posse卡方索引

4.4.2矩索引

4.5獨立成分分析

4.6總結與深入閱讀

練習

第5章發現類

5.1簡介

5.2層次聚類法

5.3優化方法——k均值聚類

5.4譜聚類

5.5文本聚類

5.5.1非負矩陣分解——回顧

5.5.2概率潛在語義分析

5.6聚類評估

5.6.1Rand索引

5.6.2同型相關

5.6.3上尾法

5.6.4輪廓圖

5.6.5間隙統計

5.7總結與深入閱讀

練習

第6章基於模型的聚類

6.1基於模型的聚類方法概述

6.2有限混合模型

6.2.1多元有限混合模型

6.2.2分量模型——協方差矩陣約束

6.3*大期望算法

6.4基於模型的層次聚合聚類

6.5基於模型的聚類

6.6基於模型聚類的密度估計和判決分析

6.6.1模式識別介紹

6.6.2貝葉斯決策理論

6.6.3基於模型聚類的概率密度估計

6.7由混合模型生成隨機數據

6.8總結與深入閱讀

練習

第7章平滑散點圖

7.1簡介

7.2loess

7.3魯棒loess擬合

7.4loess殘差分析與診斷

7.4.1殘差圖

7.4.2散布平滑

7.4.3loess包絡——向上和向下平滑

7.5平滑樣條及應用

7.5.1樣條回歸

7.5.2平滑樣條

7.5.3均勻間隔數據的平滑樣條

7.6選擇平滑參數

7.7二元分布平滑

7.7.1中間平滑對

7.7.2極平滑

7.8曲線擬合工具箱

7.9總結與深入閱讀

練習

第三部分EDA的圖形方法

第8章聚類可視化

8.1樹狀圖

8.2樹圖

8.3矩形圖

8.4ReClus圖

8.5數據圖像

8.6總結與深入閱讀

練習

第9章分布圖形

9.1直方圖

9.1.1一元直方圖

9.1.2二元直方圖

9.2箱線圖

9.2.1基本箱線圖

9.2.2基本箱線圖的變形

9.3分位數圖

9.3.1概率圖

9.3.2qq圖

9.3.3分位數圖

9.4袋狀圖

9.5測距儀箱線圖

9.6總結與深入閱讀

練習

**0章多元可視化

10.1像形圖

10.2散點圖

10.2.12D和3D散點圖

10.2.2散點圖矩陣

10.2.3六邊形分組散點圖

10.3動態圖

10.3.1識別數據

10.3.2關聯

10.3.3筆刷

10.4協同圖

10.5點陣圖

10.5.1基本點陣圖

10.5.2多路點陣圖

10.6繪點為線

10.6.1平行坐標圖

10.6.2安德魯曲線

10.6.3安德魯圖像

10.6.4其他繪圖矩陣

10.7再看數據巡查

10.7.1總體巡查

10.7.2組合巡查

10.8雙標圖

10.9總結與深入閱讀

練習

附錄A近似度量

A.1定義

A.1.1相異性

A.1.2相似性度量

A.1.3二值數據的相似性度量

A.1.4概率密度函數的相異性

A.2變換

A.3進階閱讀

附錄BEDA相關軟件資源

B.1MATLAB程序

B.2其他EDA程序

B.3EDA工具箱

附錄C數據集的描述

附錄DMATLAB工具使用要點

D.1MATLAB簡介

D.2在MATLAB中獲得幫助

D.3文件和工作空間管理

D.4MATLAB的標點符號

D.5算術運算符

D.6MATLAB的數據結構

D.6.1基本數據結構

D.6.2構建數組

D.6.3元胞數組

D.6.4結構體

D.7腳本文件與函數

D.8控制流

D.8.1for循環

D.8.2while循環

D.8.3條件分支語句

D.8.4開關語句

D.9基本繪圖

D.10如何獲取MATLAB信息

附錄EMATLAB函數

E.1MATLAB

E.2統計工具箱

E.3EDA工具箱

E.4EDA圖形界面工具箱

參考文獻

第3章降維——非線性方法本章涉及許多非線性的降維方法，這裡的非線性體現在高維空間與低維空間之間的映射關繫為非線性。首先介紹多維尺度分析，該方法已經被廣泛應用。接著介紹一些近年來提出的非線性降維方法，包括局部線性嵌入、等距特征映射以及海森特征映射。*後對機器學習當中的一些降維方法進行討論，例如自組織映射、生成式拓撲映射以及曲元分析。
3.1多維尺度分析——MDS 多維尺度分析(MDS)是用於分析測量物體的數據集合之間鄰近性的一組方法，它可以揭示出數據集內在的隱藏結構。MDS算法的目的是為原始數據集合尋找一個低維結構，並且滿足在此低維結構中數據點之間的距離不失真。這就意味著，高維空間中較近的點在低維空間中也較近。MDS算法*初是由社會科學研究者提出的，如今在很多統計軟件包中都有該算法，包括MATLAB統計工具箱。
在介紹不同的MDS［Cox和Cox,2001］方法之前，首先介紹一些相關的定義和符號。如前面所述，假設數據集合包含n個觀測點。MDS算法首先測量出鄰近性，用以衡量物體之間的距離或者相似度。鄰近性包含兩種類型：相似性和相異性。定義符號δrs用於衡量物體r和s之間的相異性，Srs用於衡量相似性。對於大多數情況下，滿足： δrs≥0，δrr=0 和 0≤srs≤1，srr=1 因此，從δrs的滿足條件可以看出，δrs越小則觀測點離得越近；對於相似性測量Srs而言，值越大則離得越近。這兩種鄰近性的測量可以很容易地相互轉換(詳見附錄A)。因此在本章後續部分，都假設采用相異性作為鄰近性測量。同時，物體間相異性可采用矩陣的形式表示，記為Δ。大多數情況下，相異性矩陣都是一個n×n的對角陣(有些情況下，用下三角矩陣或者上三角矩陣的形式給出)。
定義drs為低維空間中觀測點r和s之間的距離。在MDS的文獻中，定義X為低維空間中坐標值矩陣。值得注意的是，此處可能與之前定義的X（表示具有n個p維觀測點的原始數據集合）相混淆。
在MDS中，通常從研究相異性矩陣Δ入手，而不是直接研究原始數據。事實上，在MDS的初始公式中，對不同類對像進行定性判斷時，原始的p維空間的觀測點並無意義。歸納而言，MDS首先研究相異性矩陣Δ，*終得到d維雖然符號d既用於表示低維空間維數(dMDS有許多不同算法，通常把這些方法分為度量MDS和非度量MDS這兩大類。這兩種不同類別的方法的主要區分在於相異性δrs轉換成低維空間距離drs的方式不同。度量MDS假設δrs與drs之間的關繫滿足式(3.1)。
drs≈f(δrs)(3.1) 其中f為連續單調函數，它的函數形式決定了MDS的模型。例如，f的形式可能如式(3.2)所示： f(δrs)=bδrs(3.2) 式(3.2)定義的映射稱為比例MDS［Borg和Groenen,1997］。另一種MDS稱之為間隔MDS，其定義為： f(δrs) = a+bδrs 其中a、b為自由參數。其他形式的f可能會包含高階多項式、指數或者對數函數。
非度量MDS放松了f(·)的度量特性，但規定保留相異性的次序。其變換函數或者尺度函數必須滿足單調性的約束: δrs<δabf(δrs)≤f(δab) 由於這個約束性的存在，非度量MDS也被稱為順序MDS。
3.1.1度量MDS 大多數的度量MDS都是尋找一個滿足式(3.1)的映射變換，這一過程通常是定義一個目標函數，並對其進行優化。其中一種目標函數可以通過f(δrs)與drs之間的均方差來定義，如式(3.3)所示。
s(drs)=∑r∑s［f(δrs)-drs］2尺度因子(3.3) 一般而言，稱式(3.3)為壓力。分母中不同的尺度因子會形成不同形式的壓力以及不同類型的MDS算法。式(3.3)中分母的尺度因子通常采用如下形式： ∑r∑s(drs)2 在這種情況下，我們稱該表達式為“壓力-1”［Kruskal,1964a］。
因此，在MDS算法中，我們利用f函數對相異性矩陣進行縮放，從而找到對應的d維空間的點分布。通過*小化壓力，計算出距離d。這一過程可以通過數值的方法進行實現(例如梯度法或*速下降法)。這些方法通常都是迭代進行且不一定能保證收斂到全局*優解。下面首先介紹一種封閉解的情況，然後在後續章節中對這部分進行細節擴展。
通常在文獻中出現的多維尺度分析是指經典MDS，然而度量MDS包含多種方法，例如*小二乘尺度分析等［Cox和Cox,2001］。下面首先介紹一種基於損失函數*優化的經典MDS方法。

請選擇顏色、尺碼等選項！

已成功加入購物車！

商品搜索

商品分类

【醫學】

【各大出版社】