資料內容:
AI 的應用領域非常非常廣,上圖只是大家相對熟悉的幾個,而且每一個領域用到的算法都
不一樣。有很多想轉型的產品,第一個考慮的點就是:不懂技術就做不了 AI,我是不是學
完算法才能入行?
其實不是。
大家可能知道:
不僅算法重要,很多時候數(shù)據(jù)可能更重要;有保質保量的數(shù)據(jù),才可能有好的訓練效果。
數(shù)據(jù)可分為兩種類型:“被標記過”的數(shù)據(jù)和“未被標記過”的數(shù)據(jù)。什么是標記呢?意
同“貼標簽”,當你看到一個西瓜,你知道它是屬于水果。那么你就可以為它貼上一個水
果的標簽。算法同事用“有標簽的數(shù)據(jù)”去訓練模型,這里就有了“監(jiān)督學習”。
重點就是這里:只要是跟“監(jiān)督學習”沾邊的產品/技術,比如圖像識別、人臉識別、自
然語言理解等等,他們都有一個必走的流程——
不斷地用標注后的數(shù)據(jù)去訓練模型,不斷調整模型參數(shù),得到指標數(shù)值更高的模型。
二、數(shù)據(jù)處理流程拆解
1、數(shù)據(jù)標注
數(shù)據(jù)的質量直接會影響到模型的質量,因此數(shù)據(jù)標注在整個流程中絕對是非要重要的一點。
1)一般來說,數(shù)據(jù)標注部分可以有三個角色
標注員:標注員負責標記數(shù)據(jù)。
審核員:審核員負責審核被標記數(shù)據(jù)的質量。
管理員:管理人員、發(fā)放任務、統(tǒng)計工資。
只有在數(shù)據(jù)被審核員審核通過后,這批數(shù)據(jù)才能夠被算法同事利用。
2)數(shù)據(jù)標記流程
任務分配:假設標注員每次標記的數(shù)據(jù)為一次任務,則每次任務可由管理員分批發(fā)放記錄,
也可將整個流程做成“搶單式”的,由后臺直接分發(fā)。
標記程序設計:需要考慮到如何提升效率,比如快捷鍵的設置、邊標記及邊存等等功能都
有利于提高標記效率。
3)進度跟蹤:程序對標注員、審核員的工作分別進行跟蹤,可利用“規(guī)定截止日期”的
方式淘汰怠惰的人。
4)質量跟蹤:通過計算標注人員的標注正確率和被審核通過率,對人員標注質量進行跟
蹤,可利用“末位淘汰”制提高標注人員質量。