<meter id="pryje"><nav id="pryje"><delect id="pryje"></delect></nav></meter>
          <label id="pryje"></label>

          新聞中心

          EEPW首頁 > 設(shè)計(jì)應(yīng)用 > 機(jī)器學(xué)習(xí)常用術(shù)語匯總 (中英對(duì)照)

          機(jī)器學(xué)習(xí)常用術(shù)語匯總 (中英對(duì)照)

          —— 機(jī)器學(xué)習(xí)常用術(shù)語匯總
          作者: 時(shí)間:2024-06-04 來源: 收藏

          剛接觸框架 TensorFlow 的新手們,這篇由 Google 官方出品的常用術(shù)語詞匯表,一定是你必不可少的入門資料!

          本文引用地址:http://www.ex-cimer.com/article/202406/459544.htm

          本術(shù)語表列出了基本的術(shù)語和 TensorFlow 專用術(shù)語的定義,希望能幫助您快速熟悉 TensorFlow 入門內(nèi)容,輕松打開世界的大門。

          640-4.png

          機(jī)器學(xué)習(xí)術(shù)語表地址: https://developers.google.cn/machine-learning/glossary/?hl=zh-CN

          A

          A/B 測試 (A/B testing)

          一種統(tǒng)計(jì)方法,用于將兩種或多種技術(shù)進(jìn)行比較,通常是將當(dāng)前采用的技術(shù)與新技術(shù)進(jìn)行比較。A/B 測試不僅旨在確定哪種技術(shù)的效果更好,而且還有助于了解相應(yīng)差異是否具有顯著的統(tǒng)計(jì)意義。A/B 測試通常是采用一種衡量方式對(duì)兩種技術(shù)進(jìn)行比較,但也適用于任意有限數(shù)量的技術(shù)和衡量方式。

          準(zhǔn)確率 (accuracy)

          分類模型的正確預(yù)測所占的比例。在多類別分類中,準(zhǔn)確率的定義如下:

          在二元分類中,準(zhǔn)確率的定義如下:

          請(qǐng)參閱真正例和真負(fù)例。

          激活函數(shù) (activation function)

          一種函數(shù)(例如 ReLU 或 S 型函數(shù)),用于對(duì)上一層的所有輸入求加權(quán)和,然后生成一個(gè)輸出值(通常為非線性值),并將其傳遞給下一層。

          AdaGrad

          一種先進(jìn)的梯度下降法,用于重新調(diào)整每個(gè)參數(shù)的梯度,以便有效地為每個(gè)參數(shù)指定獨(dú)立的學(xué)習(xí)速率。如需查看完整的解釋,請(qǐng)參閱如下論文(http://www.jmlr.org/papers/volume12/duchi11a/duchi11a.pdf)

          ROC 曲線下面積 (AUC, Area under the ROC Curve)

          一種會(huì)考慮所有可能分類閾值的評(píng)估指標(biāo)。

          ROC 曲線下面積是,對(duì)于隨機(jī)選擇的正類別樣本確實(shí)為正類別,以及隨機(jī)選擇的負(fù)類別樣本為正類別,分類器更確信前者的概率。

          B

          反向傳播算法 (backpropagation)

          在神經(jīng)網(wǎng)絡(luò)上執(zhí)行梯度下降法的主要算法。該算法會(huì)先按前向傳播方式計(jì)算(并緩存)每個(gè)節(jié)點(diǎn)的輸出值,然后再按反向傳播遍歷圖的方式計(jì)算損失函數(shù)值相對(duì)于每個(gè)參數(shù)的偏導(dǎo)數(shù)。

          基準(zhǔn) (baseline)

          一種簡單的模型或啟發(fā)法,用作比較模型效果時(shí)的參考點(diǎn)?;鶞?zhǔn)有助于模型開發(fā)者針對(duì)特定問題量化最低預(yù)期效果。

          批次 (batch)

          模型訓(xùn)練的一次迭代(即一次梯度更新)中使用的樣本集。

          另請(qǐng)參閱批次規(guī)模。

          批次規(guī)模 (batch size)

          一個(gè)批次中的樣本數(shù)。例如,SGD 的批次規(guī)模為 1,而小批次的規(guī)模通常介于 10 到 1000 之間。批次規(guī)模在訓(xùn)練和推斷期間通常是固定的;不過,TensorFlow 允許使用動(dòng)態(tài)批次規(guī)模。

          偏差 (bias)

          距離原點(diǎn)的截距或偏移。偏差(也稱為偏差項(xiàng))在機(jī)器學(xué)習(xí)模型中以 b 或 w0 表示。例如,在下面的公式中,偏差為 :

          請(qǐng)勿與預(yù)測偏差混淆。

          二元分類 (binary classification)

          一種分類任務(wù),可輸出兩種互斥類別之一。例如,對(duì)電子郵件進(jìn)行評(píng)估并輸出“垃圾郵件”或“非垃圾郵件”的機(jī)器學(xué)習(xí)模型就是一個(gè)二元分類器。

          分箱 (binning) 

          請(qǐng)參閱分桶。

          分桶 (bucketing)

          將一個(gè)特征(通常是連續(xù)特征)轉(zhuǎn)換成多個(gè)二元特征(稱為桶或箱),通常是根據(jù)值區(qū)間進(jìn)行轉(zhuǎn)換。例如,您可以將溫度區(qū)間分割為離散分箱,而不是將溫度表示成單個(gè)連續(xù)的浮點(diǎn)特征。假設(shè)溫度數(shù)據(jù)可精確到小數(shù)點(diǎn)后一位,則可以將介于 0.0 到 15.0 度之間的所有溫度都?xì)w入一個(gè)分箱,將介于 15.1 到 30.0 度之間的所有溫度歸入第二個(gè)分箱,并將介于 30.1 到 50.0 度之間的所有溫度歸入第三個(gè)分箱。

          C

          校準(zhǔn)層 (calibration layer)

          一種預(yù)測后調(diào)整,通常是為了降低預(yù)測偏差。調(diào)整后的預(yù)測和概率應(yīng)與觀察到的標(biāo)簽集的分布一致。

          候選采樣 (candidate sampling)

          一種訓(xùn)練時(shí)進(jìn)行的優(yōu)化,會(huì)使用某種函數(shù)(例如 softmax)針對(duì)所有正類別標(biāo)簽計(jì)算概率,但對(duì)于負(fù)類別標(biāo)簽,則僅針對(duì)其隨機(jī)樣本計(jì)算概率。例如,如果某個(gè)樣本的標(biāo)簽為“小獵犬”和“狗”,則候選采樣將針對(duì)“小獵犬”和“狗”類別輸出以及其他類別(貓、棒棒糖、柵欄)的隨機(jī)子集計(jì)算預(yù)測概率和相應(yīng)的損失項(xiàng)。這種采樣基于的想法是,只要正類別始終得到適當(dāng)?shù)恼鰪?qiáng),負(fù)類別就可以從頻率較低的負(fù)增強(qiáng)中進(jìn)行學(xué)習(xí),這確實(shí)是在實(shí)際中觀察到的情況。候選采樣的目的是,通過不針對(duì)所有負(fù)類別計(jì)算預(yù)測結(jié)果來提高計(jì)算效率。

          分類數(shù)據(jù) (categorical data)

          一種特征,擁有一組離散的可能值。以某個(gè)名為 house style 的分類特征為例,該特征擁有一組離散的可能值(共三個(gè)),即 Tudor, ranch, colonial。通過將 house style 表示成分類數(shù)據(jù),相應(yīng)模型可以學(xué)習(xí) Tudor、ranch 和 colonial 分別對(duì)房價(jià)的影響。

          有時(shí),離散集中的值是互斥的,只能將其中一個(gè)值應(yīng)用于指定樣本。例如,car maker 分類特征可能只允許一個(gè)樣本有一個(gè)值 (Toyota)。在其他情況下,則可以應(yīng)用多個(gè)值。一輛車可能會(huì)被噴涂多種不同的顏色,因此,car color 分類特征可能會(huì)允許單個(gè)樣本具有多個(gè)值(例如 red 和 white)。

          分類特征有時(shí)稱為離散特征。與數(shù)值數(shù)據(jù)相對(duì)。

          檢查點(diǎn) (checkpoint)

          一種數(shù)據(jù),用于捕獲模型變量在特定時(shí)間的狀態(tài)。借助檢查點(diǎn),可以導(dǎo)出模型權(quán)重,跨多個(gè)會(huì)話執(zhí)行訓(xùn)練,以及使訓(xùn)練在發(fā)生錯(cuò)誤之后得以繼續(xù)(例如作業(yè)搶占)。請(qǐng)注意,圖本身不包含在檢查點(diǎn)中。

          類別 (class)

          為標(biāo)簽枚舉的一組目標(biāo)值中的一個(gè)。例如,在檢測垃圾郵件的二元分類模型中,兩種類別分別是“垃圾郵件”和“非垃圾郵件”。在識(shí)別狗品種的多類別分類模型中,類別可以是“貴賓犬”、“小獵犬”、“哈巴犬”等等。

          分類不平衡的數(shù)據(jù)集 (class-imbalanced data set)

          一種二元分類問題,在此類問題中,兩種類別的標(biāo)簽在出現(xiàn)頻率方面具有很大的差距。例如,在某個(gè)疾病數(shù)據(jù)集中,0.0001 的樣本具有正類別標(biāo)簽,0.9999 的樣本具有負(fù)類別標(biāo)簽,這就屬于分類不平衡問題;但在某個(gè)足球比賽預(yù)測器中,0.51 的樣本的標(biāo)簽為其中一個(gè)球隊(duì)贏,0.49 的樣本的標(biāo)簽為另一個(gè)球隊(duì)贏,這就不屬于分類不平衡問題。

          分類模型 (classification model)

          一種機(jī)器學(xué)習(xí)模型,用于區(qū)分兩種或多種離散類別。例如,某個(gè)自然語言處理分類模型可以確定輸入的句子是法語、西班牙語還是意大利語。請(qǐng)與回歸模型進(jìn)行比較。

          分類閾值 (classification threshold)

          一種標(biāo)量值條件,應(yīng)用于模型預(yù)測的得分,旨在將正類別與負(fù)類別區(qū)分開。將邏輯回歸結(jié)果映射到二元分類時(shí)使用。以某個(gè)邏輯回歸模型為例,該模型用于確定指定電子郵件是垃圾郵件的概率。如果分類閾值為 0.9,那么邏輯回歸值高于 0.9 的電子郵件將被歸類為“垃圾郵件”,低于 0.9 的則被歸類為“非垃圾郵件”。

          協(xié)同過濾 (collaborative filtering)

          根據(jù)很多其他用戶的興趣來預(yù)測某位用戶的興趣。協(xié)同過濾通常用在推薦系統(tǒng)中。

          混淆矩陣 (confusion matrix)

          一種 NxN 表格,用于總結(jié)分類模型的預(yù)測成效;即標(biāo)簽和模型預(yù)測的分類之間的關(guān)聯(lián)。在混淆矩陣中,一個(gè)軸表示模型預(yù)測的標(biāo)簽,另一個(gè)軸表示實(shí)際標(biāo)簽。N 表示類別個(gè)數(shù)。在二元分類問題中,N=2。例如,下面顯示了一個(gè)二元分類問題的混淆矩陣示例:

          多類別分類問題的混淆矩陣有助于確定出錯(cuò)模式。例如,某個(gè)混淆矩陣可以揭示,某個(gè)經(jīng)過訓(xùn)練以識(shí)別手寫數(shù)字的模型往往會(huì)將 4 錯(cuò)誤地預(yù)測為 9,將 7 錯(cuò)誤地預(yù)測為 1?;煜仃嚢?jì)算各種效果指標(biāo)(包括精確率和召回率)所需的充足信息。上面的混淆矩陣顯示,在 19 個(gè)實(shí)際有腫瘤的樣本中,該模型正確地將 18 個(gè)歸類為有腫瘤(18 個(gè)真正例),錯(cuò)誤地將 1 個(gè)歸類為沒有腫瘤(1 個(gè)假負(fù)例)。同樣,在 458 個(gè)實(shí)際沒有腫瘤的樣本中,模型歸類正確的有 452 個(gè)(452 個(gè)真負(fù)例),歸類錯(cuò)誤的有 6 個(gè)(6 個(gè)假正例)。

          連續(xù)特征 (continuous feature)

          一種浮點(diǎn)特征,可能值的區(qū)間不受限制。與離散特征相對(duì)。

          收斂 (convergence)

          通俗來說,收斂通常是指在訓(xùn)練期間達(dá)到的一種狀態(tài),即經(jīng)過一定次數(shù)的迭代之后,訓(xùn)練損失和驗(yàn)證損失在每次迭代中的變化都非常小或根本沒有變化。也就是說,如果采用當(dāng)前數(shù)據(jù)進(jìn)行額外的訓(xùn)練將無法改進(jìn)模型,模型即達(dá)到收斂狀態(tài)。在深度學(xué)習(xí)中,損失值有時(shí)會(huì)在最終下降之前的多次迭代中保持不變或幾乎保持不變,暫時(shí)形成收斂的假象。

          另請(qǐng)參閱早停法。

          另請(qǐng)參閱 Boyd 和 Vandenberghe 合著的 Convex Optimization(《凸優(yōu)化》)。

          凸函數(shù) (convex function)

          一種函數(shù),函數(shù)圖像以上的區(qū)域?yàn)橥辜?。典型凸函?shù)的形狀類似于字母 U。例如,以下都是凸函數(shù):

          相反,以下函數(shù)則不是凸函數(shù)。請(qǐng)注意圖像上方的區(qū)域如何不是凸集:

          嚴(yán)格凸函數(shù)只有一個(gè)局部最低點(diǎn),該點(diǎn)也是全局最低點(diǎn)。經(jīng)典的 U 形函數(shù)都是嚴(yán)格凸函數(shù)。不過,有些凸函數(shù)(例如直線)則不是這樣。

          很多常見的損失函數(shù)(包括下列函數(shù))都是凸函數(shù):

          • L2 損失函數(shù)

          • 對(duì)數(shù)損失函數(shù)

          • L1 正則化

          • L2 正則化

          梯度下降法的很多變體都一定能找到一個(gè)接近嚴(yán)格凸函數(shù)最小值的點(diǎn)。同樣,隨機(jī)梯度下降法的很多變體都有很高的可能性能夠找到接近嚴(yán)格凸函數(shù)最小值的點(diǎn)(但并非一定能找到)。

          兩個(gè)凸函數(shù)的和(例如 L2 損失函數(shù) + L1 正則化)也是凸函數(shù)。

          深度模型絕不會(huì)是凸函數(shù)。值得注意的是,專門針對(duì)凸優(yōu)化設(shè)計(jì)的算法往往總能在深度網(wǎng)絡(luò)上找到非常好的解決方案,雖然這些解決方案并不一定對(duì)應(yīng)于全局最小值。

          凸優(yōu)化 (convex optimization)

          使用數(shù)學(xué)方法(例如梯度下降法)尋找凸函數(shù)最小值的過程。機(jī)器學(xué)習(xí)方面的大量研究都是專注于如何通過公式將各種問題表示成凸優(yōu)化問題,以及如何更高效地解決這些問題。

          如需完整的詳細(xì)信息,請(qǐng)參閱 Boyd 和 Vandenberghe 合著的 Convex Optimization(《凸優(yōu)化》)。

          凸集 (convex set)

          歐幾里得空間的一個(gè)子集,其中任意兩點(diǎn)之間的連線仍完全落在該子集內(nèi)。例如,下面的兩個(gè)圖形都是凸集:

          相反,下面的兩個(gè)圖形都不是凸集:

          成本 (cost)

          是損失的同義詞。

          交叉熵 (cross-entropy)

          對(duì)數(shù)損失函數(shù)向多類別分類問題進(jìn)行的一種泛化。交叉熵可以量化兩種概率分布之間的差異。另請(qǐng)參閱困惑度。

          自定義 Estimator (custom Estimator)

          您按照這些說明自行編寫的 Estimator。

          與預(yù)創(chuàng)建的 Estimator 相對(duì)。

          D

          數(shù)據(jù)集 (data set)

          一組樣本的集合。

          Dataset API (tf.data)

          一種高級(jí)別的 TensorFlow API,用于讀取數(shù)據(jù)并將其轉(zhuǎn)換為機(jī)器學(xué)習(xí)算法所需的格式。tf.data.Dataset 對(duì)象表示一系列元素,其中每個(gè)元素都包含一個(gè)或多個(gè)張量。tf.data.Iterator 對(duì)象可獲取 Dataset 中的元素。

          如需詳細(xì)了解 Dataset API,請(qǐng)參閱《TensorFlow 編程人員指南》中的導(dǎo)入數(shù)據(jù)。

          決策邊界 (decision boundary)

          在二元分類或多類別分類問題中,模型學(xué)到的類別之間的分界線。例如,在以下表示某個(gè)二元分類問題的圖片中,決策邊界是橙色類別和藍(lán)色類別之間的分界線:

          密集層 (dense layer)

          是全連接層的同義詞。

          深度模型 (deep model)

          一種神經(jīng)網(wǎng)絡(luò),其中包含多個(gè)隱藏層。深度模型依賴于可訓(xùn)練的非線性關(guān)系。

          與寬度模型相對(duì)。

          密集特征 (dense feature)

          一種大部分?jǐn)?shù)值是非零值的特征,通常是一個(gè)浮點(diǎn)值張量。參照稀疏特征。

          衍生特征 (derived feature)

          是合成特征的同義詞。

          離散特征 (discrete feature)

          一種特征,包含有限個(gè)可能值。例如,某個(gè)值只能是“動(dòng)物”、“蔬菜”或“礦物”的特征便是一個(gè)離散特征(或分類特征)。與連續(xù)特征相對(duì)。

          丟棄正則化 (dropout regularization)

          一種形式的正則化,在訓(xùn)練神經(jīng)網(wǎng)絡(luò)方面非常有用。丟棄正則化的運(yùn)作機(jī)制是,在神經(jīng)網(wǎng)絡(luò)層的一個(gè)梯度步長中移除隨機(jī)選擇的固定數(shù)量的單元。丟棄的單元越多,正則化效果就越強(qiáng)。這類似于訓(xùn)練神經(jīng)網(wǎng)絡(luò)以模擬較小網(wǎng)絡(luò)的指數(shù)級(jí)規(guī)模集成學(xué)習(xí)。

          如需完整的詳細(xì)信息,請(qǐng)參閱 Dropout: A Simple Way to Prevent Neural Networks from Overfitting(《丟棄:一種防止神經(jīng)網(wǎng)絡(luò)過擬合的簡單方法》)。

          動(dòng)態(tài)模型 (dynamic model)

          一種模型,以持續(xù)更新的方式在線接受訓(xùn)練。也就是說,數(shù)據(jù)會(huì)源源不斷地進(jìn)入這種模型。

          E

          早停法 (early stopping)

          一種正則化方法,涉及在訓(xùn)練損失仍可以繼續(xù)減少之前結(jié)束模型訓(xùn)練。使用早停法時(shí),您會(huì)在基于驗(yàn)證數(shù)據(jù)集的損失開始增加(也就是泛化效果變差)時(shí)結(jié)束模型訓(xùn)練。

          嵌套 (embeddings)

          一種分類特征,以連續(xù)值特征表示。通常,嵌套是指將高維度向量映射到低維度的空間。例如,您可以采用以下兩種方式之一來表示英文句子中的單詞:

          • 表示成包含百萬個(gè)元素(高維度)的稀疏向量,其中所有元素都是整數(shù)。向量中的每個(gè)單元格都表示一個(gè)單獨(dú)的英文單詞,單元格中的值表示相應(yīng)單詞在句子中出現(xiàn)的次數(shù)。由于單個(gè)英文句子包含的單詞不太可能超過 50 個(gè),因此向量中幾乎每個(gè)單元格都包含 0。少數(shù)非 0 的單元格中將包含一個(gè)非常小的整數(shù)(通常為 1),該整數(shù)表示相應(yīng)單詞在句子中出現(xiàn)的次數(shù)。

          • 表示成包含數(shù)百個(gè)元素(低維度)的密集向量,其中每個(gè)元素都包含一個(gè)介于 0 到 1 之間的浮點(diǎn)值。這就是一種嵌套。

          在 TensorFlow 中,會(huì)按反向傳播損失訓(xùn)練嵌套,和訓(xùn)練神經(jīng)網(wǎng)絡(luò)中的任何其他參數(shù)時(shí)一樣。

          經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化 (ERM, empirical risk minimization)

          用于選擇可以將基于訓(xùn)練集的損失降至最低的模型函數(shù)。與結(jié)構(gòu)風(fēng)險(xiǎn)最小化相對(duì)。

          集成學(xué)習(xí) (ensemble)

          多個(gè)模型的預(yù)測結(jié)果的并集。您可以通過以下一項(xiàng)或多項(xiàng)來創(chuàng)建集成學(xué)習(xí):

          • 不同的初始化

          • 不同的超參數(shù)

          • 不同的整體結(jié)構(gòu)

          深度模型和寬度模型屬于一種集成學(xué)習(xí)。

          周期 (epoch)

          在訓(xùn)練時(shí),整個(gè)數(shù)據(jù)集的一次完整遍歷,以便不漏掉任何一個(gè)樣本。因此,一個(gè)周期表示(N/批次規(guī)模)次訓(xùn)練迭代,其中 N 是樣本總數(shù)。

          Estimator

          tf.Estimator 類的一個(gè)實(shí)例,用于封裝負(fù)責(zé)構(gòu)建 TensorFlow 圖并運(yùn)行 TensorFlow 會(huì)話的邏輯。您可以創(chuàng)建自己的自定義 Estimator(如需相關(guān)介紹,請(qǐng)點(diǎn)擊此處),也可以將其他人預(yù)創(chuàng)建的 Estimator 實(shí)例化。

          樣本 (example)

          數(shù)據(jù)集的一行。一個(gè)樣本包含一個(gè)或多個(gè)特征,此外還可能包含一個(gè)標(biāo)簽。另請(qǐng)參閱有標(biāo)簽樣本和無標(biāo)簽樣本。

          F

          假負(fù)例 (FN, false negative)

          被模型錯(cuò)誤地預(yù)測為負(fù)類別的樣本。例如,模型推斷出某封電子郵件不是垃圾郵件(負(fù)類別),但該電子郵件其實(shí)是垃圾郵件。

          假正例 (FP, false positive)

          被模型錯(cuò)誤地預(yù)測為正類別的樣本。例如,模型推斷出某封電子郵件是垃圾郵件(正類別),但該電子郵件其實(shí)不是垃圾郵件。

          假正例率(false positive rate, 簡稱 FP 率)

          ROC 曲線中的 x 軸。FP 率的定義如下:

          假正例率假正例數(shù)假正例數(shù)+真負(fù)例數(shù)假正例率=假正例數(shù)假正例數(shù)+真負(fù)例數(shù)

          特征 (feature)

          在進(jìn)行預(yù)測時(shí)使用的輸入變量。

          特征列 (FeatureColumns)

          一組相關(guān)特征,例如用戶可能居住的所有國家/地區(qū)的集合。樣本的特征列中可能包含一個(gè)或多個(gè)特征。

          TensorFlow 中的特征列內(nèi)還封裝了元數(shù)據(jù),例如:

          • 特征的數(shù)據(jù)類型

          • 特征是固定長度還是應(yīng)轉(zhuǎn)換為嵌套

          特征列可以包含單個(gè)特征。

          “特征列”是 Google 專用的術(shù)語。特征列在 Yahoo/Microsoft 使用的 VW 系統(tǒng)中稱為“命名空間”,也稱為場。

          特征組合 (feature cross)

          通過將單獨(dú)的特征進(jìn)行組合(相乘或求笛卡爾積)而形成的合成特征。特征組合有助于表示非線性關(guān)系。

          特征工程 (feature engineering)

          指以下過程:確定哪些特征可能在訓(xùn)練模型方面非常有用,然后將日志文件及其他來源的原始數(shù)據(jù)轉(zhuǎn)換為所需的特征。在 TensorFlow 中,特征工程通常是指將原始日志文件條目轉(zhuǎn)換為 tf.Example proto buffer。另請(qǐng)參閱 tf.Transform。

          特征工程有時(shí)稱為特征提取。

          特征集 (feature set)

          訓(xùn)練機(jī)器學(xué)習(xí)模型時(shí)采用的一組特征。例如,對(duì)于某個(gè)用于預(yù)測房價(jià)的模型,郵政編碼、房屋面積以及房屋狀況可以組成一個(gè)簡單的特征集。

          特征規(guī)范 (feature spec)

          用于描述如何從 tf.Example proto buffer 提取特征數(shù)據(jù)。由于 tf.Example proto buffer 只是一個(gè)數(shù)據(jù)容器,因此您必須指定以下內(nèi)容:

          • 要提取的數(shù)據(jù)(即特征的鍵)

          • 數(shù)據(jù)類型(例如 float 或 int)

          • 長度(固定或可變)

          Estimator API 提供了一些可用來根據(jù)給定 FeatureColumns 列表生成特征規(guī)范的工具。

          完整 softmax (full softmax)

          請(qǐng)參閱 softmax。與候選采樣相對(duì)。

          全連接層 (fully connected layer)

          一種隱藏層,其中的每個(gè)節(jié)點(diǎn)均與下一個(gè)隱藏層中的每個(gè)節(jié)點(diǎn)相連。

          全連接層又稱為密集層。

          G

          泛化 (generalization)

          指的是模型依據(jù)訓(xùn)練時(shí)采用的數(shù)據(jù),針對(duì)以前未見過的新數(shù)據(jù)做出正確預(yù)測的能力。

          廣義線性模型 (generalized linear model)

          最小二乘回歸模型(基于高斯噪聲)向其他類型的模型(基于其他類型的噪聲,例如泊松噪聲或分類噪聲)進(jìn)行的一種泛化。廣義線性模型的示例包括:

          • 邏輯回歸

          • 多類別回歸

          • 最小二乘回歸

          可以通過凸優(yōu)化找到廣義線性模型的參數(shù)。

          廣義線性模型具有以下特性:

          • 最優(yōu)的最小二乘回歸模型的平均預(yù)測結(jié)果等于訓(xùn)練數(shù)據(jù)的平均標(biāo)簽。

          • 最優(yōu)的邏輯回歸模型預(yù)測的平均概率等于訓(xùn)練數(shù)據(jù)的平均標(biāo)簽。

          廣義線性模型的功能受其特征的限制。與深度模型不同,廣義線性模型無法“學(xué)習(xí)新特征”。

          梯度 (gradient)

          偏導(dǎo)數(shù)相對(duì)于所有自變量的向量。在機(jī)器學(xué)習(xí)中,梯度是模型函數(shù)偏導(dǎo)數(shù)的向量。梯度指向最速上升的方向。

          梯度裁剪 (gradient clipping)

          在應(yīng)用梯度值之前先設(shè)置其上限。梯度裁剪有助于確保數(shù)值穩(wěn)定性以及防止梯度爆炸。

          梯度下降法 (gradient descent)

          一種通過計(jì)算并且減小梯度將損失降至最低的技術(shù),它以訓(xùn)練數(shù)據(jù)為條件,來計(jì)算損失相對(duì)于模型參數(shù)的梯度。通俗來說,梯度下降法以迭代方式調(diào)整參數(shù),逐漸找到權(quán)重和偏差的最佳組合,從而將損失降至最低。

          圖 (graph)

          TensorFlow 中的一種計(jì)算規(guī)范。圖中的節(jié)點(diǎn)表示操作。邊緣具有方向,表示將某項(xiàng)操作的結(jié)果(一個(gè)張量)作為一個(gè)操作數(shù)傳遞給另一項(xiàng)操作??梢允褂?TensorBoard 直觀呈現(xiàn)圖。

          H

          啟發(fā)法 (heuristic)

          一種非最優(yōu)但實(shí)用的問題解決方案,足以用于進(jìn)行改進(jìn)或從中學(xué)習(xí)。

          隱藏層 (hidden layer)

          神經(jīng)網(wǎng)絡(luò)中的合成層,介于輸入層(即特征)和輸出層(即預(yù)測)之間。神經(jīng)網(wǎng)絡(luò)包含一個(gè)或多個(gè)隱藏層。

          合頁損失函數(shù) (hinge loss)

          一系列用于分類的損失函數(shù),旨在找到距離每個(gè)訓(xùn)練樣本都盡可能遠(yuǎn)的決策邊界,從而使樣本和邊界之間的裕度最大化。 KSVM 使用合頁損失函數(shù)(或相關(guān)函數(shù),例如平方合頁損失函數(shù))。對(duì)于二元分類,合頁損失函數(shù)的定義如下:

          其中“y'”表示分類器模型的原始輸出:

          y′=b+w1x1+w2x2+…wnxn

          “y”表示真標(biāo)簽,值為 -1 或 +1。

          因此,合頁損失與 (y * y') 的關(guān)系圖如下所示:

          維持?jǐn)?shù)據(jù) (holdout data)

          訓(xùn)練期間故意不使用(“維持”)的樣本。驗(yàn)證數(shù)據(jù)集和測試數(shù)據(jù)集都屬于維持?jǐn)?shù)據(jù)。維持?jǐn)?shù)據(jù)有助于評(píng)估模型向訓(xùn)練時(shí)所用數(shù)據(jù)之外的數(shù)據(jù)進(jìn)行泛化的能力。與基于訓(xùn)練數(shù)據(jù)集的損失相比,基于維持?jǐn)?shù)據(jù)集的損失有助于更好地估算基于未見過的數(shù)據(jù)集的損失。

          超參數(shù) (hyperparameter)

          在模型訓(xùn)練的連續(xù)過程中,您調(diào)節(jié)的“旋鈕”。例如,學(xué)習(xí)速率就是一種超參數(shù)。

          與參數(shù)相對(duì)。

          超平面 (hyperplane)

          將一個(gè)空間劃分為兩個(gè)子空間的邊界。例如,在二維空間中,直線就是一個(gè)超平面,在三維空間中,平面則是一個(gè)超平面。在機(jī)器學(xué)習(xí)中更典型的是:超平面是分隔高維度空間的邊界。核支持向量機(jī)利用超平面將正類別和負(fù)類別區(qū)分開來(通常是在極高維度空間中)。

          I

          獨(dú)立同分布 (i.i.d, independently and identically distributed)

          從不會(huì)改變的分布中提取的數(shù)據(jù),其中提取的每個(gè)值都不依賴于之前提取的值。i.i.d. 是機(jī)器學(xué)習(xí)的理想氣體 - 一種實(shí)用的數(shù)學(xué)結(jié)構(gòu),但在現(xiàn)實(shí)世界中幾乎從未發(fā)現(xiàn)過。例如,某個(gè)網(wǎng)頁的訪問者在短時(shí)間內(nèi)的分布可能為 i.i.d.,即分布在該短時(shí)間內(nèi)沒有變化,且一位用戶的訪問行為通常與另一位用戶的訪問行為無關(guān)。不過,如果將時(shí)間窗口擴(kuò)大,網(wǎng)頁訪問者的分布可能呈現(xiàn)出季節(jié)性變化。

          推斷 (inference)

          在機(jī)器學(xué)習(xí)中,推斷通常指以下過程:通過將訓(xùn)練過的模型應(yīng)用于無標(biāo)簽樣本來做出預(yù)測。在統(tǒng)計(jì)學(xué)中,推斷是指在某些觀測數(shù)據(jù)條件下擬合分布參數(shù)的過程。(請(qǐng)參閱維基百科中有關(guān)統(tǒng)計(jì)學(xué)推斷的文章。)

          輸入函數(shù) (input function)

          在 TensorFlow 中,用于將輸入數(shù)據(jù)返回到 Estimator 的訓(xùn)練、評(píng)估或預(yù)測方法的函數(shù)。例如,訓(xùn)練輸入函數(shù)用于返回訓(xùn)練集中的批次特征和標(biāo)簽。

          輸入層 (input layer)

          神經(jīng)網(wǎng)絡(luò)中的第一層(接收輸入數(shù)據(jù)的層)。

          實(shí)例 (instance)

          是樣本的同義詞。

          可解釋性 (interpretability)

          模型的預(yù)測可解釋的難易程度。深度模型通常不可解釋,也就是說,很難對(duì)深度模型的不同層進(jìn)行解釋。相比之下,線性回歸模型和寬度模型的可解釋性通常要好得多。

          評(píng)分者間一致性信度 (inter-rater agreement)

          一種衡量指標(biāo),用于衡量在執(zhí)行某項(xiàng)任務(wù)時(shí)評(píng)分者達(dá)成一致的頻率。如果評(píng)分者未達(dá)成一致,則可能需要改進(jìn)任務(wù)說明。有時(shí)也稱為注釋者間一致性信度或評(píng)分者間可靠性信度。另請(qǐng)參閱 Cohen's kappa(最熱門的評(píng)分者間一致性信度衡量指標(biāo)之一)。

          迭代 (iteration)

          模型的權(quán)重在訓(xùn)練期間的一次更新。迭代包含計(jì)算參數(shù)在單個(gè)批量數(shù)據(jù)上的梯度損失。

          K

          Keras

          一種熱門的Python機(jī)器學(xué)習(xí) API。Keras 能夠在多種深度學(xué)習(xí)框架上運(yùn)行,其中包括 TensorFlow(在該框架上,Keras 作為 tf.keras 提供)。

          核支持向量機(jī) (KSVM,Kernel Support Vector Machines)

          一種分類算法,旨在通過將輸入數(shù)據(jù)向量映射到更高維度的空間,來最大化正類別和負(fù)類別之間的裕度。以某個(gè)輸入數(shù)據(jù)集包含一百個(gè)特征的分類問題為例。為了最大化正類別和負(fù)類別之間的裕度,KSVM 可以在內(nèi)部將這些特征映射到百萬維度的空間。KSVM 使用合頁損失函數(shù)。

          L

          L1 損失函數(shù) (L? loss)

          一種損失函數(shù),基于模型預(yù)測的值與標(biāo)簽的實(shí)際值之差的絕對(duì)值。與 L2 損失函數(shù)相比,L1 損失函數(shù)對(duì)離群值的敏感性弱一些。

          L1 正則化 (L? regularization)

          一種正則化,根據(jù)權(quán)重的絕對(duì)值的總和來懲罰權(quán)重。在依賴稀疏特征的模型中,L1 正則化有助于使不相關(guān)或幾乎不相關(guān)的特征的權(quán)重正好為 0,從而將這些特征從模型中移除。與 L2 正則化相對(duì)。

          L2 損失函數(shù) (L? loss)

          請(qǐng)參閱平方損失函數(shù)。

          L2 正則化 (L? regularization)

          一種正則化,根據(jù)權(quán)重的平方和來懲罰權(quán)重。L2 正則化有助于使離群值(具有較大正值或較小負(fù)值)權(quán)重接近于 0,但又不正好為 0。(與 L1 正則化相對(duì)。)在線性模型中,L2 正則化始終可以改進(jìn)泛化。

          標(biāo)簽 (label)

          在監(jiān)督式學(xué)習(xí)中,標(biāo)簽指樣本的“答案”或“結(jié)果”部分。有標(biāo)簽數(shù)據(jù)集中的每個(gè)樣本都包含一個(gè)或多個(gè)特征以及一個(gè)標(biāo)簽。例如,在房屋數(shù)據(jù)集中,特征可以包括臥室數(shù)、衛(wèi)生間數(shù)以及房齡,而標(biāo)簽則可以是房價(jià)。在垃圾郵件檢測數(shù)據(jù)集中,特征可以包括主題行、發(fā)件人以及電子郵件本身,而標(biāo)簽則可以是“垃圾郵件”或“非垃圾郵件”。

          有標(biāo)簽樣本 (labeled example)

          包含特征和標(biāo)簽的樣本。在監(jiān)督式訓(xùn)練中,模型從有標(biāo)簽樣本中進(jìn)行學(xué)習(xí)。

          lambda

          是正則化率的同義詞。

          (多含義術(shù)語,我們?cè)诖岁P(guān)注的是該術(shù)語在正則化中的定義。)

          層 (layer)

          神經(jīng)網(wǎng)絡(luò)中的一組神經(jīng)元,處理一組輸入特征,或一組神經(jīng)元的輸出。

          此外還指 TensorFlow 中的抽象層。層是 Python 函數(shù),以張量和配置選項(xiàng)作為輸入,然后生成其他張量作為輸出。當(dāng)必要的張量組合起來,用戶便可以通過模型函數(shù)將結(jié)果轉(zhuǎn)換為 Estimator。

          Layers API (tf.layers)

          一種 TensorFlow API,用于以層組合的方式構(gòu)建深度神經(jīng)網(wǎng)絡(luò)。通過 Layers API,您可以構(gòu)建不同類型的層,例如:

          • 通過 tf.layers.Dense 構(gòu)建全連接層。

          • 通過 tf.layers.Conv2D 構(gòu)建卷積層。

          在編寫自定義 Estimator 時(shí),您可以編寫“層”對(duì)象來定義所有隱藏層的特征。

          Layers API 遵循 [Keras](#Keras) layers API 規(guī)范。也就是說,除了前綴不同以外,Layers API 中的所有函數(shù)均與 Keras layers API 中的對(duì)應(yīng)函數(shù)具有相同的名稱和簽名。

          學(xué)習(xí)速率 (learning rate)

          在訓(xùn)練模型時(shí)用于梯度下降的一個(gè)變量。在每次迭代期間,梯度下降法都會(huì)將學(xué)習(xí)速率與梯度相乘。得出的乘積稱為梯度步長。

          學(xué)習(xí)速率是一個(gè)重要的超參數(shù)。

          最小二乘回歸 (least squares regression)

          一種通過最小化 L2 損失訓(xùn)練出的線性回歸模型。

          線性回歸 (linear regression)

          一種回歸模型,通過將輸入特征進(jìn)行線性組合,以連續(xù)值作為輸出。

          邏輯回歸 (logistic regression)

          一種模型,通過將 S 型函數(shù)應(yīng)用于線性預(yù)測,生成分類問題中每個(gè)可能的離散標(biāo)簽值的概率。雖然邏輯回歸經(jīng)常用于二元分類問題,但也可用于多類別分類問題(其叫法變?yōu)槎囝悇e邏輯回歸或多項(xiàng)回歸)。

          對(duì)數(shù)損失函數(shù) (Log Loss)

          二元邏輯回歸中使用的損失函數(shù)。

          損失 (Loss)

          一種衡量指標(biāo),用于衡量模型的預(yù)測偏離其標(biāo)簽的程度?;蛘吒^地說是衡量模型有多差。要確定此值,模型必須定義損失函數(shù)。例如,線性回歸模型通常將均方誤差用于損失函數(shù),而邏輯回歸模型則使用對(duì)數(shù)損失函數(shù)。

          M

          機(jī)器學(xué)習(xí) (machine learning)

          一種程序或系統(tǒng),用于根據(jù)輸入數(shù)據(jù)構(gòu)建(訓(xùn)練)預(yù)測模型。這種系統(tǒng)會(huì)利用學(xué)到的模型根據(jù)從分布(訓(xùn)練該模型時(shí)使用的同一分布)中提取的新數(shù)據(jù)(以前從未見過的數(shù)據(jù))進(jìn)行實(shí)用的預(yù)測。機(jī)器學(xué)習(xí)還指與這些程序或系統(tǒng)相關(guān)的研究領(lǐng)域。

          均方誤差 (MSE, Mean Squared Error)

          每個(gè)樣本的平均平方損失。MSE 的計(jì)算方法是平方損失除以樣本數(shù)。TensorFlow Playground 顯示的“訓(xùn)練損失”值和“測試損失”值都是 MSE。

          指標(biāo) (metric)

          您關(guān)心的一個(gè)數(shù)值??赡芸梢砸部赡懿豢梢灾苯釉跈C(jī)器學(xué)習(xí)系統(tǒng)中得到優(yōu)化。您的系統(tǒng)嘗試優(yōu)化的指標(biāo)稱為目標(biāo)。

          Metrics API (tf.metrics)

          一種用于評(píng)估模型的 TensorFlow API。例如,tf.metrics.accuracy 用于確定模型的預(yù)測與標(biāo)簽匹配的頻率。在編寫自定義 Estimator 時(shí),您可以調(diào)用 Metrics API 函數(shù)來指定應(yīng)如何評(píng)估您的模型。

          小批次 (mini-batch)

          從訓(xùn)練或推斷過程的一次迭代中一起運(yùn)行的整批樣本內(nèi)隨機(jī)選擇的一小部分。小批次的規(guī)模通常介于 10 到 1000 之間。與基于完整的訓(xùn)練數(shù)據(jù)計(jì)算損失相比,基于小批次數(shù)據(jù)計(jì)算損失要高效得多。

          小批次隨機(jī)梯度下降法 (SGD, mini-batch stochastic gradient descent)

          一種采用小批次樣本的梯度下降法。也就是說,小批次 SGD 會(huì)根據(jù)一小部分訓(xùn)練數(shù)據(jù)來估算梯度。Vanilla SGD 使用的小批次的規(guī)模為 1。

          ML

          機(jī)器學(xué)習(xí)的縮寫。

          模型 (model)

          機(jī)器學(xué)習(xí)系統(tǒng)從訓(xùn)練數(shù)據(jù)學(xué)到的內(nèi)容的表示形式。多含義術(shù)語,可以理解為下列兩種相關(guān)含義之一:

          • 一種 TensorFlow 圖,用于表示預(yù)測計(jì)算結(jié)構(gòu)。

          • 該 TensorFlow 圖的特定權(quán)重和偏差,通過訓(xùn)練決定。

          模型訓(xùn)練 (model training)

          確定最佳模型的過程。

          動(dòng)量 (Momentum)

          一種先進(jìn)的梯度下降法,其中學(xué)習(xí)步長不僅取決于當(dāng)前步長的導(dǎo)數(shù),還取決于之前一步或多步的步長的導(dǎo)數(shù)。動(dòng)量涉及計(jì)算梯度隨時(shí)間而變化的指數(shù)級(jí)加權(quán)移動(dòng)平均值,與物理學(xué)中的動(dòng)量類似。動(dòng)量有時(shí)可以防止學(xué)習(xí)過程被卡在局部最小的情況。

          多類別分類 (multi-class classification)

          區(qū)分兩種以上類別的分類問題。例如,楓樹大約有 128 種,因此,確定楓樹種類的模型就屬于多類別模型。反之,僅將電子郵件分為兩類(“垃圾郵件”和“非垃圾郵件”)的模型屬于二元分類模型。

          多項(xiàng)分類 (multinomial classification)

          是多類別分類的同義詞。

          N

          NaN 陷阱 (NaN trap)

          模型中的一個(gè)數(shù)字在訓(xùn)練期間變成 NaN,這會(huì)導(dǎo)致模型中的很多或所有其他數(shù)字最終也會(huì)變成 NaN。

          NaN 是“非數(shù)字”的縮寫。

          負(fù)類別 (negative class)

          在二元分類中,一種類別稱為正類別,另一種類別稱為負(fù)類別。正類別是我們要尋找的類別,負(fù)類別則是另一種可能性。例如,在醫(yī)學(xué)檢查中,負(fù)類別可以是“非腫瘤”。在電子郵件分類器中,負(fù)類別可以是“非垃圾郵件”。另請(qǐng)參閱正類別。

          神經(jīng)網(wǎng)絡(luò) (neural network)

          一種模型,靈感來源于腦部結(jié)構(gòu),由多個(gè)層構(gòu)成(至少有一個(gè)是隱藏層),每個(gè)層都包含簡單相連的單元或神經(jīng)元(具有非線性關(guān)系)。

          神經(jīng)元 (neuron)

          神經(jīng)網(wǎng)絡(luò)中的節(jié)點(diǎn),通常是接收多個(gè)輸入值并生成一個(gè)輸出值。神經(jīng)元通過將激活函數(shù)(非線性轉(zhuǎn)換)應(yīng)用于輸入值的加權(quán)和來計(jì)算輸出值。

          節(jié)點(diǎn) (node)

          多含義術(shù)語,可以理解為下列兩種含義之一:

          • 隱藏層中的神經(jīng)元。

          • TensorFlow 圖中的操作。

          標(biāo)準(zhǔn)化 (normalization)

          將實(shí)際的值區(qū)間轉(zhuǎn)換為標(biāo)準(zhǔn)的值區(qū)間(通常為 -1 到 +1 或 0 到 1)的過程。例如,假設(shè)某個(gè)特征的自然區(qū)間是 800 到 6000。通過減法和除法運(yùn)算,您可以將這些值標(biāo)準(zhǔn)化為位于 -1 到 +1 區(qū)間內(nèi)。

          另請(qǐng)參閱縮放。

          數(shù)值數(shù)據(jù) (numerical data)

          用整數(shù)或?qū)崝?shù)表示的特征。例如,在房地產(chǎn)模型中,您可能會(huì)用數(shù)值數(shù)據(jù)表示房子大小(以平方英尺或平方米為單位)。如果用數(shù)值數(shù)據(jù)表示特征,則可以表明特征的值相互之間具有數(shù)學(xué)關(guān)系,并且與標(biāo)簽可能也有數(shù)學(xué)關(guān)系。例如,如果用數(shù)值數(shù)據(jù)表示房子大小,則可以表明面積為 200 平方米的房子是面積為 100 平方米的房子的兩倍。此外,房子面積的平方米數(shù)可能與房價(jià)存在一定的數(shù)學(xué)關(guān)系。

          并非所有整數(shù)數(shù)據(jù)都應(yīng)表示成數(shù)值數(shù)據(jù)。例如,世界上某些地區(qū)的郵政編碼是整數(shù),但在模型中,不應(yīng)將整數(shù)郵政編碼表示成數(shù)值數(shù)據(jù)。這是因?yàn)猷]政編碼 20000 在效力上并不是郵政編碼 10000 的兩倍(或一半)。此外,雖然不同的郵政編碼確實(shí)與不同的房地產(chǎn)價(jià)值有關(guān),但我們也不能假設(shè)郵政編碼為 20000 的房地產(chǎn)在價(jià)值上是郵政編碼為 10000 的房地產(chǎn)的兩倍。郵政編碼應(yīng)表示成分類數(shù)據(jù)。

          數(shù)值特征有時(shí)稱為連續(xù)特征。

          Numpy

          一個(gè)開放源代碼數(shù)學(xué)庫,在 Python 中提供高效的數(shù)組操作。Pandas 就建立在 Numpy 之上。

          O

          目標(biāo) (objective)

          算法嘗試優(yōu)化的指標(biāo)。

          離線推斷 (offline inference)

          生成一組預(yù)測,存儲(chǔ)這些預(yù)測,然后根據(jù)需求檢索這些預(yù)測。與在線推斷相對(duì)。

          one-hot 編碼 (one-hot encoding)

          一種稀疏向量,其中:

          • 一個(gè)元素設(shè)為 1。

          • 所有其他元素均設(shè)為 0。

          one-hot 編碼常用于表示擁有有限個(gè)可能值的字符串或標(biāo)識(shí)符。例如,假設(shè)某個(gè)指定的植物學(xué)數(shù)據(jù)集記錄了 15000 個(gè)不同的物種,其中每個(gè)物種都用獨(dú)一無二的字符串標(biāo)識(shí)符來表示。在特征工程過程中,您可能需要將這些字符串標(biāo)識(shí)符編碼為 one-hot 向量,向量的大小為 15000。

          一對(duì)多 (one-vs.-all)

          假設(shè)某個(gè)分類問題有 N 種可能的解決方案,一對(duì)多解決方案將包含 N 個(gè)單獨(dú)的二元分類器 - 一個(gè)二元分類器對(duì)應(yīng)一種可能的結(jié)果。例如,假設(shè)某個(gè)模型用于區(qū)分樣本屬于動(dòng)物、蔬菜還是礦物,一對(duì)多解決方案將提供下列三個(gè)單獨(dú)的二元分類器:

          • 動(dòng)物和非動(dòng)物

          • 蔬菜和非蔬菜

          • 礦物和非礦物

          在線推斷 (online inference)

          根據(jù)需求生成預(yù)測。與離線推斷相對(duì)。

          操作 (op, Operation)

          TensorFlow 圖中的節(jié)點(diǎn)。在 TensorFlow 中,任何創(chuàng)建、操縱或銷毀張量的過程都屬于操作。例如,矩陣相乘就是一種操作,該操作以兩個(gè)張量作為輸入,并生成一個(gè)張量作為輸出。

          優(yōu)化器 (optimizer)

          梯度下降法的一種具體實(shí)現(xiàn)。TensorFlow 的優(yōu)化器基類是 tf.train.Optimizer。不同的優(yōu)化器(tf.train.Optimizer 的子類)會(huì)考慮如下概念:

          • 動(dòng)量 (Momentum)

          • 更新頻率 (AdaGrad = ADAptive GRADient descent; Adam = ADAptive with Momentum;RMSProp)

          • 稀疏性/正則化 (Ftrl)

          • 更復(fù)雜的計(jì)算方法 (Proximal, 等等)

          甚至還包括 NN 驅(qū)動(dòng)的優(yōu)化器。

          離群值 (outlier)

          與大多數(shù)其他值差別很大的值。在機(jī)器學(xué)習(xí)中,下列所有值都是離群值。

          • 絕對(duì)值很高的權(quán)重。

          • 與實(shí)際值相差很大的預(yù)測值。

          • 值比平均值高大約 3 個(gè)標(biāo)準(zhǔn)偏差的輸入數(shù)據(jù)。

          離群值常常會(huì)導(dǎo)致模型訓(xùn)練出現(xiàn)問題。

          輸出層 (output layer)

          神經(jīng)網(wǎng)絡(luò)的“最后”一層,也是包含答案的層。

          過擬合 (overfitting)

          創(chuàng)建的模型與訓(xùn)練數(shù)據(jù)過于匹配,以致于模型無法根據(jù)新數(shù)據(jù)做出正確的預(yù)測。

          P

          Pandas

          面向列的數(shù)據(jù)分析API。很多機(jī)器學(xué)習(xí)框架(包括 TensorFlow)都支持將 Pandas 數(shù)據(jù)結(jié)構(gòu)作為輸入。請(qǐng)參閱 Pandas 文檔。

          參數(shù) (parameter)

          機(jī)器學(xué)習(xí)系統(tǒng)自行訓(xùn)練的模型的變量。例如,權(quán)重就是一種參數(shù),它們的值是機(jī)器學(xué)習(xí)系統(tǒng)通過連續(xù)的訓(xùn)練迭代逐漸學(xué)習(xí)到的。與超參數(shù)相對(duì)。

          參數(shù)服務(wù)器 (PS, Parameter Server)

          一種作業(yè),負(fù)責(zé)在分布式設(shè)置中跟蹤模型參數(shù)。

          參數(shù)更新 (parameter update)

          在訓(xùn)練期間(通常是在梯度下降法的單次迭代中)調(diào)整模型參數(shù)的操作。

          偏導(dǎo)數(shù) (partial derivative)

          一種導(dǎo)數(shù),除一個(gè)變量之外的所有變量都被視為常量。例如,f(x, y) 對(duì) x 的偏導(dǎo)數(shù)就是 f(x) 的導(dǎo)數(shù)(即,使 y 保持恒定)。f 對(duì) x 的偏導(dǎo)數(shù)僅關(guān)注 x 如何變化,而忽略公式中的所有其他變量。

          分區(qū)策略 (partitioning strategy)

          參數(shù)服務(wù)器中分割變量的算法。

          性能 (performance)

          多含義術(shù)語,具有以下含義:

          • 在軟件工程中的傳統(tǒng)含義。即:相應(yīng)軟件的運(yùn)行速度有多快(或有多高效)?

          • 在機(jī)器學(xué)習(xí)中的含義。在機(jī)器學(xué)習(xí)領(lǐng)域,性能旨在回答以下問題:相應(yīng)模型的準(zhǔn)確度有多高?即模型在預(yù)測方面的表現(xiàn)有多好?

          困惑度 (perplexity)

          一種衡量指標(biāo),用于衡量模型能夠多好地完成任務(wù)。例如,假設(shè)任務(wù)是讀取用戶使用智能手機(jī)鍵盤輸入字詞時(shí)輸入的前幾個(gè)字母,然后列出一組可能的完整字詞。此任務(wù)的困惑度 (P) 是:為了使列出的字詞中包含用戶嘗試輸入的實(shí)際字詞,您需要提供的猜測項(xiàng)的個(gè)數(shù)。

          困惑度與交叉熵的關(guān)系如下:

          流水線 (pipeline)

          機(jī)器學(xué)習(xí)算法的基礎(chǔ)架構(gòu)。流水線包括收集數(shù)據(jù)、將數(shù)據(jù)放入訓(xùn)練數(shù)據(jù)文件、訓(xùn)練一個(gè)或多個(gè)模型,以及將模型導(dǎo)出到生產(chǎn)環(huán)境。

          正類別 (positive class)

          在二元分類中,兩種可能的類別分別被標(biāo)記為正類別和負(fù)類別。正類別結(jié)果是我們要測試的對(duì)象。(不可否認(rèn)的是,我們會(huì)同時(shí)測試這兩種結(jié)果,但只關(guān)注正類別結(jié)果。)例如,在醫(yī)學(xué)檢查中,正類別可以是“腫瘤”。在電子郵件分類器中,正類別可以是“垃圾郵件”。

          與負(fù)類別相對(duì)。

          精確率 (precision)

          一種分類模型指標(biāo)。精確率指模型正確預(yù)測正類別的頻率,即:

          預(yù)測 (prediction)

          模型在收到輸入的樣本后的輸出。

          預(yù)測偏差 (prediction bias)

          一個(gè)值,用于表明預(yù)測平均值與數(shù)據(jù)集中標(biāo)簽的平均值相差有多大。

          預(yù)創(chuàng)建的 Estimator (pre-made Estimator)

          其他人已建好的 Estimator。TensorFlow 提供了一些預(yù)創(chuàng)建的 Estimator,包括 DNNClassifier、DNNRegressor和 LinearClassifier。您可以按照這些說明構(gòu)建自己預(yù)創(chuàng)建的 Estimator。

          預(yù)訓(xùn)練模型 (pre-trained model)

          已經(jīng)過訓(xùn)練的模型或模型組件(例如嵌套)。有時(shí),您需要將預(yù)訓(xùn)練的嵌套饋送到神經(jīng)網(wǎng)絡(luò)。在其他時(shí)候,您的模型將自行訓(xùn)練嵌套,而不依賴于預(yù)訓(xùn)練的嵌套。

          先驗(yàn)信念 (prior belief)

          在開始采用相應(yīng)數(shù)據(jù)進(jìn)行訓(xùn)練之前,您對(duì)這些數(shù)據(jù)抱有的信念。例如,L2 正則化依賴的先驗(yàn)信念是權(quán)重應(yīng)該很小且應(yīng)以 0 為中心呈正態(tài)分布。

          Q

          隊(duì)列 (queue)

          一種 TensorFlow 操作,用于實(shí)現(xiàn)隊(duì)列數(shù)據(jù)結(jié)構(gòu)。通常用于 I/O 中。

          R

          等級(jí) (rank)

          機(jī)器學(xué)習(xí)中的一個(gè)多含義術(shù)語,可以理解為下列含義之一:

          • 張量中的維度數(shù)量。例如,標(biāo)量等級(jí)為 0,向量等級(jí)為 1,矩陣等級(jí)為 2。

          • 在將類別從最高到最低進(jìn)行排序的機(jī)器學(xué)習(xí)問題中,類別的順序位置。例如,行為排序系統(tǒng)可以將狗狗的獎(jiǎng)勵(lì)從最高(牛排)到最低(枯萎的羽衣甘藍(lán))進(jìn)行排序。

          評(píng)分者 (rater)

          為樣本提供標(biāo)簽的人。有時(shí)稱為“注釋者”。

          召回率 (recall)

          一種分類模型指標(biāo),用于回答以下問題:在所有可能的正類別標(biāo)簽中,模型正確地識(shí)別出了多少個(gè)?即:

          修正線性單元 (ReLU, Rectified Linear Unit)

          一種激活函數(shù),其規(guī)則如下:

          • 如果輸入為負(fù)數(shù)或 0,則輸出 0。

          • 如果輸入為正數(shù),則輸出等于輸入。

          回歸模型 (regression model)

          一種模型,能夠輸出連續(xù)的值(通常為浮點(diǎn)值)。請(qǐng)與分類模型進(jìn)行比較,分類模型輸出離散值,例如“黃花菜”或“虎皮百合”。

          正則化 (regularization)

          對(duì)模型復(fù)雜度的懲罰。正則化有助于防止出現(xiàn)過擬合,包含以下類型:

          • L1 正則化

          • L2 正則化

          • 丟棄正則化

          • 早停法(這不是正式的正則化方法,但可以有效限制過擬合)

          正則化率 (regularization rate)

          一種標(biāo)量值,以 lambda 表示,用于指定正則化函數(shù)的相對(duì)重要性。從下面簡化的損失公式中可以看出正則化率的影響:

          minimize(loss function + λ(regularization function))

          提高正則化率可以減少過擬合,但可能會(huì)使模型的準(zhǔn)確率降低。

          表示法 (representation)

          將數(shù)據(jù)映射到實(shí)用特征的過程。

          受試者工作特征曲線(receiver operating characteristic, 簡稱 ROC 曲線)

          不同分類閾值下的真正例率和假正例率構(gòu)成的曲線。另請(qǐng)參閱曲線下面積。

          根目錄 (root directory)

          您指定的目錄,用于托管多個(gè)模型的 TensorFlow 檢查點(diǎn)和事件文件的子目錄。

          均方根誤差 (RMSE, Root Mean Squared Error)

          均方誤差的平方根。

          S

          SavedModel

          保存和恢復(fù) TensorFlow 模型時(shí)建議使用的格式。SavedModel 是一種獨(dú)立于語言且可恢復(fù)的序列化格式,使較高級(jí)別的系統(tǒng)和工具可以創(chuàng)建、使用和轉(zhuǎn)換 TensorFlow 模型。

          如需完整的詳細(xì)信息,請(qǐng)參閱《TensorFlow 編程人員指南》中的保存和恢復(fù)。

          Saver

          一種 TensorFlow 對(duì)象,負(fù)責(zé)保存模型檢查點(diǎn)。

          縮放 (scaling)

          特征工程中的一種常用做法,是對(duì)某個(gè)特征的值區(qū)間進(jìn)行調(diào)整,使之與數(shù)據(jù)集中其他特征的值區(qū)間一致。例如,假設(shè)您希望數(shù)據(jù)集中所有浮點(diǎn)特征的值都位于 0 到 1 區(qū)間內(nèi),如果某個(gè)特征的值位于 0 到 500 區(qū)間內(nèi),您就可以通過將每個(gè)值除以 500 來縮放該特征。

          另請(qǐng)參閱標(biāo)準(zhǔn)化。

          scikit-learn

          一個(gè)熱門的開放源代碼機(jī)器學(xué)習(xí)平臺(tái)。請(qǐng)?jiān)L問 www.scikit-learn.org。

          半監(jiān)督式學(xué)習(xí) (semi-supervised learning)

          訓(xùn)練模型時(shí)采用的數(shù)據(jù)中,某些訓(xùn)練樣本有標(biāo)簽,而其他樣本則沒有標(biāo)簽。半監(jiān)督式學(xué)習(xí)采用的一種技術(shù)是推斷無標(biāo)簽樣本的標(biāo)簽,然后使用推斷出的標(biāo)簽進(jìn)行訓(xùn)練,以創(chuàng)建新模型。如果獲得有標(biāo)簽樣本需要高昂的成本,而無標(biāo)簽樣本則有很多,那么半監(jiān)督式學(xué)習(xí)將非常有用。

          序列模型 (sequence model)

          一種模型,其輸入具有序列依賴性。例如,根據(jù)之前觀看過的一系列視頻對(duì)觀看的下一個(gè)視頻進(jìn)行預(yù)測。

          會(huì)話 (session)

          維持 TensorFlow 程序中的狀態(tài)(例如變量)。

          S 型函數(shù) (sigmoid function)

          一種函數(shù),可將邏輯回歸輸出或多項(xiàng)回歸輸出(對(duì)數(shù)幾率)映射到概率,以返回介于 0 到 1 之間的值。S 型函數(shù)的公式如下:

          在邏輯回歸問題中,

          非常簡單:

          換句話說,S 型函數(shù)可將

          轉(zhuǎn)換為介于 0 到 1 之間的概率。

          在某些神經(jīng)網(wǎng)絡(luò)中,S 型函數(shù)可作為激活函數(shù)使用。

          softmax

          一種函數(shù),可提供多類別分類模型中每個(gè)可能類別的概率。這些概率的總和正好為 1.0。例如,softmax 可能會(huì)得出某個(gè)圖像是狗、貓和馬的概率分別是 0.9、0.08 和 0.02。(也稱為完整 softmax。)

          與候選采樣相對(duì)。

          稀疏特征 (sparse feature)

          一種特征向量,其中的大多數(shù)值都為 0 或?yàn)榭?。例如,某個(gè)向量包含一個(gè)為 1 的值和一百萬個(gè)為 0 的值,則該向量就屬于稀疏向量。再舉一個(gè)例子,搜索查詢中的單詞也可能屬于稀疏特征 - 在某種指定語言中有很多可能的單詞,但在某個(gè)指定的查詢中僅包含其中幾個(gè)。

          與密集特征相對(duì)。

          平方合頁損失函數(shù) (squared hinge loss)

          合頁損失函數(shù)的平方。與常規(guī)合頁損失函數(shù)相比,平方合頁損失函數(shù)對(duì)離群值的懲罰更嚴(yán)厲。

          平方損失函數(shù) (squared loss)

          在線性回歸中使用的損失函數(shù)(也稱為 L2 損失函數(shù))。該函數(shù)可計(jì)算模型為有標(biāo)簽樣本預(yù)測的值和標(biāo)簽的實(shí)際值之差的平方。由于取平方值,因此該損失函數(shù)會(huì)放大不佳預(yù)測的影響。也就是說,與 L1 損失函數(shù)相比,平方損失函數(shù)對(duì)離群值的反應(yīng)更強(qiáng)烈。

          靜態(tài)模型 (static model)

          離線訓(xùn)練的一種模型。

          平穩(wěn)性 (stationarity)

          數(shù)據(jù)集中數(shù)據(jù)的一種屬性,表示數(shù)據(jù)分布在一個(gè)或多個(gè)維度保持不變。這種維度最常見的是時(shí)間,即表明平穩(wěn)性的數(shù)據(jù)不隨時(shí)間而變化。例如,從 9 月到 12 月,表明平穩(wěn)性的數(shù)據(jù)沒有發(fā)生變化。

          步 (step)

          對(duì)一個(gè)批次的向前和向后評(píng)估。

          步長 (step size)

          是學(xué)習(xí)速率的同義詞。

          隨機(jī)梯度下降法 (SGD, stochastic gradient descent)

          批次規(guī)模為 1 的一種梯度下降法。換句話說,SGD 依賴于從數(shù)據(jù)集中隨機(jī)均勻選擇的單個(gè)樣本來計(jì)算每步的梯度估算值。

          結(jié)構(gòu)風(fēng)險(xiǎn)最小化 (SRM, structural risk minimization)

          一種算法,用于平衡以下兩個(gè)目標(biāo):

          • 期望構(gòu)建最具預(yù)測性的模型(例如損失最低)。

          • 期望使模型盡可能簡單(例如強(qiáng)大的正則化)。

          例如,旨在將基于訓(xùn)練集的損失和正則化降至最低的模型函數(shù)就是一種結(jié)構(gòu)風(fēng)險(xiǎn)最小化算法。

          如需更多信息,請(qǐng)參閱 http://www.svms.org/srm/。

          與經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化相對(duì)。

          總結(jié) (summary)

          在 TensorFlow 中的某一步計(jì)算出的一個(gè)值或一組值,通常用于在訓(xùn)練期間跟蹤模型指標(biāo)。

          監(jiān)督式機(jī)器學(xué)習(xí) (supervised machine learning)

          根據(jù)輸入數(shù)據(jù)及其對(duì)應(yīng)的標(biāo)簽來訓(xùn)練模型。監(jiān)督式機(jī)器學(xué)習(xí)類似于學(xué)生通過研究一系列問題及其對(duì)應(yīng)的答案來學(xué)習(xí)某個(gè)主題。在掌握了問題和答案之間的對(duì)應(yīng)關(guān)系后,學(xué)生便可以回答關(guān)于同一主題的新問題(以前從未見過的問題)。請(qǐng)與非監(jiān)督式機(jī)器學(xué)習(xí)進(jìn)行比較。

          合成特征 (synthetic feature)

          一種特征,不在輸入特征之列,而是從一個(gè)或多個(gè)輸入特征衍生而來。合成特征包括以下類型:

          • 將一個(gè)特征與其本身或其他特征相乘(稱為特征組合)。

          • 兩個(gè)特征相除。

          • 對(duì)連續(xù)特征進(jìn)行分桶,以分為多個(gè)區(qū)間分箱。

          通過標(biāo)準(zhǔn)化或縮放單獨(dú)創(chuàng)建的特征不屬于合成特征。

          T

          目標(biāo) (target)

          是標(biāo)簽的同義詞。

          時(shí)態(tài)數(shù)據(jù) (temporal data)

          在不同時(shí)間點(diǎn)記錄的數(shù)據(jù)。例如,記錄的一年中每一天的冬外套銷量就屬于時(shí)態(tài)數(shù)據(jù)。

          張量 (Tensor)

          TensorFlow 程序中的主要數(shù)據(jù)結(jié)構(gòu)。張量是 N 維(其中 N 可能非常大)數(shù)據(jù)結(jié)構(gòu),最常見的是標(biāo)量、向量或矩陣。張量的元素可以包含整數(shù)值、浮點(diǎn)值或字符串值。

          張量處理單元 (TPU, Tensor Processing Unit)

          一種ASIC(應(yīng)用專用集成電路),用于優(yōu)化 TensorFlow 程序的性能。

          張量等級(jí) (Tensor rank)

          請(qǐng)參閱等級(jí)。

          張量形狀 (Tensor shape)

          張量在各種維度中包含的元素?cái)?shù)。例如,張量 [5, 10] 在一個(gè)維度中的形狀為 5,在另一個(gè)維度中的形狀為 10。

          張量大小 (Tensor size)

          張量包含的標(biāo)量總數(shù)。例如,張量 [5, 10] 的大小為 50。

          TensorBoard

          一個(gè)信息中心,用于顯示在執(zhí)行一個(gè)或多個(gè) TensorFlow 程序期間保存的摘要信息。

          TensorFlow

          一個(gè)大型的分布式機(jī)器學(xué)習(xí)平臺(tái)。該術(shù)語還指 TensorFlow 堆棧中的基本 API 層,該層支持對(duì)數(shù)據(jù)流圖進(jìn)行一般計(jì)算。

          雖然 TensorFlow 主要應(yīng)用于機(jī)器學(xué)習(xí)領(lǐng)域,但也可用于需要使用數(shù)據(jù)流圖進(jìn)行數(shù)值計(jì)算的非機(jī)器學(xué)習(xí)任務(wù)。

          TensorFlow Playground

          一款用于直觀呈現(xiàn)不同的超參數(shù)對(duì)模型(主要是神經(jīng)網(wǎng)絡(luò))訓(xùn)練的影響的程序。

          要試用 TensorFlow Playground,請(qǐng)往 http://playground.tensorflow.org

          TensorFlow Serving

          一個(gè)平臺(tái),用于將訓(xùn)練過的模型部署到生產(chǎn)環(huán)境。

          測試集 (test set)

          數(shù)據(jù)集的子集,用于在模型經(jīng)由驗(yàn)證集的初步驗(yàn)證之后測試模型。

          與訓(xùn)練集和驗(yàn)證集相對(duì)。

          tf.Example

          一種標(biāo)準(zhǔn)的 proto buffer,旨在描述用于機(jī)器學(xué)習(xí)模型訓(xùn)練或推斷的輸入數(shù)據(jù)。

          時(shí)間序列分析 (time series analysis)

          機(jī)器學(xué)習(xí)和統(tǒng)計(jì)學(xué)的一個(gè)子領(lǐng)域,旨在分析時(shí)態(tài)數(shù)據(jù)。很多類型的機(jī)器學(xué)習(xí)問題都需要時(shí)間序列分析,其中包括分類、聚類、預(yù)測和異常檢測。例如,您可以利用時(shí)間序列分析根據(jù)歷史銷量數(shù)據(jù)預(yù)測未來每月的冬外套銷量。

          訓(xùn)練 (training)

          確定構(gòu)成模型的理想?yún)?shù)的過程。

          訓(xùn)練集 (training set)

          數(shù)據(jù)集的子集,用于訓(xùn)練模型。

          與驗(yàn)證集和測試集相對(duì)。

          轉(zhuǎn)移學(xué)習(xí) (transfer learning)

          將信息從一個(gè)機(jī)器學(xué)習(xí)任務(wù)轉(zhuǎn)移到另一個(gè)機(jī)器學(xué)習(xí)任務(wù)。例如,在多任務(wù)學(xué)習(xí)中,一個(gè)模型可以完成多項(xiàng)任務(wù),例如針對(duì)不同任務(wù)具有不同輸出節(jié)點(diǎn)的深度模型。轉(zhuǎn)移學(xué)習(xí)可能涉及將知識(shí)從較簡單任務(wù)的解決方案轉(zhuǎn)移到較復(fù)雜的任務(wù),或者將知識(shí)從數(shù)據(jù)較多的任務(wù)轉(zhuǎn)移到數(shù)據(jù)較少的任務(wù)。

          大多數(shù)機(jī)器學(xué)習(xí)系統(tǒng)都只能完成一項(xiàng)任務(wù)。轉(zhuǎn)移學(xué)習(xí)是邁向人工智能的一小步;在人工智能中,單個(gè)程序可以完成多項(xiàng)任務(wù)。

          真負(fù)例 (TN, true negative)

          被模型正確地預(yù)測為負(fù)類別的樣本。例如,模型推斷出某封電子郵件不是垃圾郵件,而該電子郵件確實(shí)不是垃圾郵件。

          真正例 (TP, true positive)

          被模型正確地預(yù)測為正類別的樣本。例如,模型推斷出某封電子郵件是垃圾郵件,而該電子郵件確實(shí)是垃圾郵件。

          真正例率(true positive rate, 簡稱 TP 率)

          是召回率的同義詞,即:

          真正例率是 ROC 曲線的 y 軸。

          U

          無標(biāo)簽樣本 (unlabeled example)

          包含特征但沒有標(biāo)簽的樣本。無標(biāo)簽樣本是用于進(jìn)行推斷的輸入內(nèi)容。在半監(jiān)督式和非監(jiān)督式學(xué)習(xí)中,無標(biāo)簽樣本在訓(xùn)練期間被使用。

          非監(jiān)督式機(jī)器學(xué)習(xí) (unsupervised machine learning)

          訓(xùn)練模型,以找出數(shù)據(jù)集(通常是無標(biāo)簽數(shù)據(jù)集)中的模式。

          非監(jiān)督式機(jī)器學(xué)習(xí)最常見的用途是將數(shù)據(jù)分為不同的聚類,使相似的樣本位于同一組中。例如,非監(jiān)督式機(jī)器學(xué)習(xí)算法可以根據(jù)音樂的各種屬性將歌曲分為不同的聚類。所得聚類可以作為其他機(jī)器學(xué)習(xí)算法(例如音樂推薦服務(wù))的輸入。在很難獲取真標(biāo)簽的領(lǐng)域,聚類可能會(huì)非常有用。例如,在反濫用和反欺詐等領(lǐng)域,聚類有助于人們更好地了解相關(guān)數(shù)據(jù)。

          非監(jiān)督式機(jī)器學(xué)習(xí)的另一個(gè)例子是主成分分析 (PCA)。例如,通過對(duì)包含數(shù)百萬購物車中物品的數(shù)據(jù)集進(jìn)行主成分分析,可能會(huì)發(fā)現(xiàn)有檸檬的購物車中往往也有抗酸藥。

          請(qǐng)與監(jiān)督式機(jī)器學(xué)習(xí)進(jìn)行比較。

          V

          驗(yàn)證集 (validation set)

          數(shù)據(jù)集的一個(gè)子集,從訓(xùn)練集分離而來,用于調(diào)整超參數(shù)。

          與訓(xùn)練集和測試集相對(duì)。

          W

          權(quán)重 (weight)

          線性模型中特征的系數(shù),或深度網(wǎng)絡(luò)中的邊。訓(xùn)練線性模型的目標(biāo)是確定每個(gè)特征的理想權(quán)重。如果權(quán)重為 0,則相應(yīng)的特征對(duì)模型來說沒有任何貢獻(xiàn)。

          寬度模型 (wide model)

          一種線性模型,通常有很多稀疏輸入特征。我們之所以稱之為“寬度模型”,是因?yàn)檫@是一種特殊類型的神經(jīng)網(wǎng)絡(luò),其大量輸入均直接與輸出節(jié)點(diǎn)相連。與深度模型相比,寬度模型通常更易于調(diào)試和檢查。雖然寬度模型無法通過隱藏層來表示非線性關(guān)系,但可以利用特征組合、分桶等轉(zhuǎn)換以不同的方式為非線性關(guān)系建模。



          關(guān)鍵詞: 機(jī)器學(xué)習(xí)

          評(píng)論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉
          看屁屁www成人影院,亚洲人妻成人图片,亚洲精品成人午夜在线,日韩在线 欧美成人 (function(){ var bp = document.createElement('script'); var curProtocol = window.location.protocol.split(':')[0]; if (curProtocol === 'https') { bp.src = 'https://zz.bdstatic.com/linksubmit/push.js'; } else { bp.src = 'http://push.zhanzhang.baidu.com/push.js'; } var s = document.getElementsByTagName("script")[0]; s.parentNode.insertBefore(bp, s); })();