】 【打 印】 
【 第1頁 第2頁 第3頁 】 
數據標注為AI發展加工“優質原料”
http://www.crntt.hk   2025-01-27 14:08:49
  中評社北京1月27日電/據科技日報報導,隨著人工智能迅猛發展,高質量訓練數據短缺逐漸成為制約行業進步的一大瓶頸,而數據標注產業可為人工智能創新發展提供強大動力。國家發展改革委、國家數據局、財政部、人力資源和社會保障部四部門日前聯合印發的《關於促進數據標注產業高質量發展的實施意見》(以下簡稱《實施意見》),提出到2027年的發展目標:數據標注產業專業化、智能化及科技創新能力顯著提升,產業規模大幅躍升,年均復合增長率超過20%。

  我國數據標注產業現狀如何?數據標注產業高質量發展還需要跨過哪些“門檻”?針對這些問題,科技日報記者進行了採訪。

  原始數據變為可用資源

  “通俗地說,訓練人工智能大模型的過程就像老師教學生識字。”華南理工大學計算機科學與工程學院副院長張通形象地解釋道,數據標注就是給數據“貼標簽”或者“做記號”,需要專業人員向大模型闡釋各個數據的標簽及需執行的相應任務。他們“教導”大模型參與訓練的數據是什麼,給圖像、語音、文本等各種數據“貼標簽”。高質量的數據標注,有助於機器精準理解、快速學習、高效訓練,顯著提升大模型的準確性和泛化能力。

  在訓練ChatGPT時,美國開放人工智能研究中心(OpenAI)就投入了大量資源用於數據標注。為確保標注任務高質量完成,使ChatGPT能更好地理解人類指令,保障大模型的準確性與可靠性,OpenAI聘請了眾多“老師”。這些“老師”涵蓋一般數據標注人員和專業人士,還包括博士級別的專家。

  數據標注是人工智能發展的核心基石之一。“數據標注產業是對數據進行篩選、清洗、分類、注釋、標記和質量檢驗等加工處理的新興產業,其核心任務是對原始數據進行加工,使之成為可用於訓練人工智能大模型的優質原料。”張通介紹,數據標注作為訓練大模型至關重要的一環,直接影響機器學習模型的性能,對支撐人工智能能力水平提升有重要作用。

  在張通看來,未經處理的原始數據只是潛在資源,而經過標注處理後沉澱的數據,才能在市場上進行有效交易和流通,從而充分釋放數據要素價值。培育壯大數據標注產業,對於提升數據供給質量、推動人工智能創新發展不可或缺。

  業內人士認為,隨著人工智能技術不斷成熟、應用領域持續拓展,數據標注行業將迎來更廣闊市場空間,尤其是在低空經濟、智慧城市、自動駕駛、智慧醫療等新興科技領域展現出巨大潛力。 


【 第1頁 第2頁 第3頁 】 


          
】 【打 印】 

 相關新聞: