/ 最新消息
最新消息

調查發現大量 AI 研究採用資料庫標籤混亂

2021.07.21|
AI

作者  | 發布日期 2021 年 07 月 19 日 8:45 

 

對人工智慧的機器學習訓練而言,優質資料庫是製作有效模型的關鍵,但有研究發現,不少 AI 研究使用的標籤多不統一,研究效率降低、造成錯誤。

最近《Quantitative Science Studies》雜誌的研究,諮詢公司 Webster Pacific 和加州大學聖地亞哥分校和柏克萊分校研究人員調查 AI 研究論文遵循資料庫標記最佳實踐狀況,發現很多研究都沒有註明到底是誰標記資料庫,或資料庫來源。建立資料庫的過程容易發生人為錯誤,而導致比較訓練進度時採用的資料庫子集有問題。

MIT 最近研究也發現,訓練商用模型的資料庫有幾千到幾百萬個錯誤標記,這些問題有可能導致研究人員最後選擇劣質模型。研究呼籲人工標記應採用單一方案,重複使用資料庫也要更謹慎,避免偏見蔓延,確保最後訓練出來的模型不會有相同問題。

(本文由 Unwire Pro 授權轉載;首圖來源:shutterstock) 

 

延伸閱讀: 

被演算法開除並無處申訴,亞馬遜 Flex「員工」難以忍受被程式支配的恐懼

全球第一場 AI 戰爭!從以色列軍事行動見證未來的戰爭模式

原始文章: https://technews.tw/2021/07/19/data-label-confusion-for-a-large-number-of-ai-research/