資料內(nèi)容:
1.3 監(jiān)督學(xué)習(xí)
在這段視頻中,我要定義可能是最常見一種機(jī)器學(xué)習(xí)問題:那就是監(jiān)督學(xué)習(xí)。我將在后
面正式定義監(jiān)督學(xué)習(xí)。
我們用一個(gè)例子介紹什么是監(jiān)督學(xué)習(xí)把正式的定義放在后面介紹。假如說你想預(yù)測房價(jià)。
前陣子,一個(gè)學(xué)生從波特蘭俄勒岡州的研究所收集了一些房價(jià)的數(shù)據(jù)。你把這些數(shù)據(jù)畫
出來,看起來是這個(gè)樣子:橫軸表示房子的面積,單位是平方英尺,縱軸表示房價(jià),單位是
千美元。那基于這組數(shù)據(jù),假如你有一個(gè)朋友,他有一套 750 平方英尺房子,現(xiàn)在他希望把
房子賣掉,他想知道這房子能賣多少錢。
那么關(guān)于這個(gè)問題,機(jī)器學(xué)習(xí)算法將會(huì)怎么幫助你呢?
我們應(yīng)用學(xué)習(xí)算法,可以在這組數(shù)據(jù)中畫一條直線,或者換句話說,擬合一條直線,根
據(jù)這條線我們可以推測出,這套房子可能賣$150,000,當(dāng)然這不是唯一的算法??赡苓€有更
好的,比如我們不用直線擬合這些數(shù)據(jù),用二次方程去擬合可能效果會(huì)更好。根據(jù)二次方程
的曲線,我們可以從這個(gè)點(diǎn)推測出,這套房子能賣接近$200,000。稍后我們將討論如何選擇
學(xué)習(xí)算法,如何決定用直線還是二次方程來擬合。兩個(gè)方案中有一個(gè)能讓你朋友的房子出售
得更合理。這些都是學(xué)習(xí)算法里面很好的例子。以上就是監(jiān)督學(xué)習(xí)的例子。
可以看出,監(jiān)督學(xué)習(xí)指的就是我們給學(xué)習(xí)算法一個(gè)數(shù)據(jù)集。這個(gè)數(shù)據(jù)集由“正確答案”組
成。在房價(jià)的例子中,我們給了一系列房子的數(shù)據(jù),我們給定數(shù)據(jù)集中每個(gè)樣本的正確價(jià)格,
即它們實(shí)際的售價(jià)然后運(yùn)用學(xué)習(xí)算法,算出更多的正確答案。比如你朋友那個(gè)新房子的價(jià)格。
用術(shù)語來講,這叫做回歸問題。我們試著推測出一個(gè)連續(xù)值的結(jié)果,即房子的價(jià)格。
一般房子的價(jià)格會(huì)記到美分,所以房價(jià)實(shí)際上是一系列離散的值,但是我們通常又把房
價(jià)看成實(shí)數(shù),看成是標(biāo)量,所以又把它看成一個(gè)連續(xù)的數(shù)值。
回歸這個(gè)詞的意思是,我們在試著推測出這一系列連續(xù)值屬性。
我再舉另外一個(gè)監(jiān)督學(xué)習(xí)的例子。我和一些朋友之前研究過這個(gè)。假設(shè)說你想通過查看
病歷來推測乳腺癌良性與否,假如有人檢測出乳腺腫瘤,惡性腫瘤有害并且十分危險(xiǎn),而良
性的腫瘤危害就沒那么大,所以人們顯然會(huì)很在意這個(gè)問題。