/ 最新消息

調查發現大量 AI 研究採用資料庫標籤混亂

2021.07.21|

作者 Unwire Pro | 發布日期 2021 年 07 月 19 日 8:45

對人工智慧的機器學習訓練而言，優質資料庫是製作有效模型的關鍵，但有研究發現，不少 AI 研究使用的標籤多不統一，研究效率降低、造成錯誤。

最近《Quantitative Science Studies》雜誌的研究，諮詢公司 Webster Pacific 和加州大學聖地亞哥分校和柏克萊分校研究人員調查 AI 研究論文遵循資料庫標記最佳實踐狀況，發現很多研究都沒有註明到底是誰標記資料庫，或資料庫來源。建立資料庫的過程容易發生人為錯誤，而導致比較訓練進度時採用的資料庫子集有問題。

MIT 最近研究也發現，訓練商用模型的資料庫有幾千到幾百萬個錯誤標記，這些問題有可能導致研究人員最後選擇劣質模型。研究呼籲人工標記應採用單一方案，重複使用資料庫也要更謹慎，避免偏見蔓延，確保最後訓練出來的模型不會有相同問題。

Data labeling for AI research is highly inconsistent, study finds

（本文由 Unwire Pro 授權轉載；首圖來源：shutterstock）

被演算法開除並無處申訴，亞馬遜 Flex「員工」難以忍受被程式支配的恐懼

全球第一場 AI 戰爭！從以色列軍事行動見證未來的戰爭模式

原始文章： https://technews.tw/2021/07/19/data-label-confusion-for-a-large-number-of-ai-research/

後疫情時代餐飲業自動化加速，企業用機器人減少員工短缺的衝擊

全球第一場 AI 戰爭！從以色列軍事行動見證未來的戰爭模式