【自有技術大講堂】數據驅動的AI(系列2):AI數據標注管理方法
一、什么是AI數據標注
數據標注是對未經處理的初級數據, 包括語音、圖片、文本、視頻等進行加工處理, 并轉換為機器可識別信息的過程。原始數據一般通過數據采集獲得, 隨后的數據標注相當于對數據進行加工, 然后輸送到人工智能算法和模型里完成調用。
在工業場景的AI落地過程中,數據的標注占了相當大的工作量,如何快速有效的實施數據標注,需要通過相應的標注管理手段來保證。而相應的管理對象,即參與實施數據標注人員,包括且不限于開發人員、產品團隊和現場操作員。
二、數據標注過程中的挑戰和問題
出現的問題經??梢詺w結為一種錯誤的信念,即數據注釋可以完全放手:AI開發人員相信他們的指令能夠清晰傳遞給下游的使用者和維護者(包括現場技術支持人員和客戶方的操作人員)。當我們相信任務“如此簡單!”時,往往會缺少足夠標注信息與方法的傳遞,往往導致混亂的反饋,并且下游人員會對任務感到沮喪,這不可避免地不像看起來那么簡單。
讓我們舉個例子,這是一個標記在線評論是否“惡意”的簡單任務,光就一條在線評論,就有大約一半的標注者認為它“惡意”了,而另一半則沒有。我們看到這項任務很容易描述,但挑戰在于細節。確切地說,如何判定“惡意”?判定“惡意”的界限在哪?
如果每項任務都以這樣或那樣的方式出現。要求下游人員執行標注任務,例如用文本標記圖像或將其分類到某個類別,似乎是一項簡單的任務,但不同解釋的巨大多樣性會對下游工作人員生成的數據質量產生不利影響,進而影響到AI模型的最終效果,這是我們不想看到的。
三、一些解決方法與步驟
3.1 開發人員需要自己標記許多示例。
一般來說,開發人員(AI算法工程師)需要自己進行一定程度的標記,以了解他們正在構建的概念。李飛飛(美國國家工程院院士、斯坦福大學教授)說過,你應該總是自己標記前一千個樣本,這樣你才能真正理解你的數據。通常,當您標記更多時,您會意識到您最初對類或注釋的概念化并不完全正確,您需要改變標記數據的方式。開發人員要一開始就意識到你的任務和下游工作人員之間存在大量潛在的誤解,這使得你不斷迭代你的任務設計變得至關重要。
3.2 始終從小范圍任務開始。
不要立即啟動大規模,大范圍的標注任務。相反,首先讓同事或同事測試您的產品。在你開始擴大你的任務之前,向少數人發布你的任務。Jacob Nielsen在人機交互中的一個經典結果表明,界面中的絕大多數可用性錯誤可以被五到七個人發現。通過試點你的標簽任務——首先是你自己,然后是幾個同事,然后是幾個能給你反饋的下游人員(例如客戶端的產線質檢人員),等等——你可以及早發現你發布的標注任務中的漏洞,并給自己一個迭代的機會。迭代可以改進你的數據集和你的模型。
3.3 標注糾錯邏輯
當出現問題時,您(開發人員)的反應應該是“我在傳達我的意圖時做錯了什么?”,而不是“他們為什么不注意? ”
誤解和缺乏明確性無處不在,一個好的做法是提供充分的準確的示例和完備的標注說明(往往以文檔形式提供),并依靠下游工作人員的反饋來迭代和改進您的任務設計。
3.4 通過反饋進行培訓
開發人員在派發標注任務之前,往往會注重對相關下游人員的培訓,而在啟動之后,同樣也需要通過下游任務執行的進度來獲取反饋,針對性的培訓。任務設計中應該始終有這樣一個階段。
四、高視科技數據標注管理方法相關介紹
高視科技的GoMind平臺,提供多種適用于工業AI場景的標注工具,包括分類標注,目標檢測標注,分割標注等。使用智能標注,批量標注等方式降低標注工作量。通過多用戶,多任務的標注管理,實現標注任務的下發,并發,反饋優化等一系列閉環,最終生成高質量,高性能的標注數據集,為AI模型在工業場景的良好落地打下堅實的數據基礎。