• <dl id="gwmu8"><menu id="gwmu8"></menu></dl>
  • <dl id="gwmu8"><ins id="gwmu8"></ins></dl>
  • <div id="gwmu8"><tr id="gwmu8"></tr></div>

    精準數據讓人工智能更“聰明”

    2018-09-29 16:51:54 來源: 中國科技網-科技日報 作者: 何沛蓯

    標題:龍貓數據|精準數據讓人工智能更“聰明”

    2017年網絡熱詞——人工智能,熱度不減。2018世界人工智能大會近日在上海舉行,來自近40個國家和地區的專家學者、企業家等圍繞人工智能技術前沿、產業趨勢和熱點問題開展對話交流,200多家人工智能領域領軍企業參加論壇和展示活動。

    什么是人工智能?從1997年IBM深藍計算機戰勝國際象棋大師卡斯帕羅夫,到2016年AlphaGo橫掃人類職業圍棋選手;從機器學習、算法研究到智能音箱、智慧物流等產品化、產業化,以人類智能相似的方式做出反應的智能機器越來越多的出現在我們面前。

    經歷一甲子,人工智能已經從爭論不定的“概念”,逐漸具象、延伸為愈加豐富的學科,并培育起一批科技產業,被全世界更廣大范圍內的人群接觸、認知。

    人工智能營造的產業及市場規模有多大,目前沒有確切的說法。但保守預估,2018年中國人工智能市場將達到381億元,全球人工智能市場規模將達2697億元;2020年這兩個指標將分別達到700億元、6800億元。

    智能家居、路線導航、物流配送……人類生活中的各種場景及行為正在被AI拆解為一個個需求模塊,在重構了生產資料與勞動力之間的關系后,重新嵌入社會、經濟的各個環節。

    一些業內專家認為,當前AI的發展現狀僅相當于“互聯網在上世紀90年代初期的階段”,主要方法論仍是基于大數據、大計算模式,需要海量數據去“喂養”。

    也就是說,人工智能并不會像人類那樣推斷出結論,它要進行不斷地試驗和錯誤學習,這得需要大量的數據來教授和培訓。人工智能應用的數據越多,獲得的結果就越準確。毫無疑問,沒有大數據就沒有人工智能。

    現在,越來越多的AI企業對數據的要求越來越嚴格,精準、海量的數據是AI企業的“必需品”。而成立于2014年的“龍貓數據”,正是致力于為整個AI領域提供最專業的數據服務。

    “有的企業需要對人臉的識別更加精準,在海量數據中,辨別出哪幾張照片顯示的是同一個人,即使這幾張照片顯示的是這個人的不同角度。如果我們從網上找來一些圖片,或者是一些原始的數據,根本達不到精準的訓練目的,也不會滿足AI公司提出的各種需求。而數據服務行業,就是有針對性的為AI研發企業提供他們想要的數據。”龍貓數據運營總監張翠玲說道。

    APP解決數據收集難題

    如何搜集到一手、海量的數據,龍貓數據的獨到之處在于線上眾包平臺:移動端APP以及Web端標注平臺。其中,“龍貓數據”APP于去年5月上線運行,用戶量已突破600萬人,日活在10萬人以上,用戶可以利用閑暇時間,根據要求進行文字、圖像、語音、視頻的采集并獲得一定獎勵和報酬。

    龍貓數據Java發開工程師郝軍生說:“比如這里有個采集沙灘照片的任務,先查看一下任務下面的說明,再根據說明拍攝、選擇、上傳。上傳后提交審核,審核通過就可以得到一定的現金回報。我們對數據采集用戶的限制和要求都比較高,比如聲音采集中嬰兒的哭聲,老人說話的聲音,或者某地的方言,基本上都要在10萬數量級別的用戶中,去尋找符合要求的人。”

    并不是每條素材都是符合要求的,龍貓數據有自己的審核團隊,通過審核后,至少每5名用戶才可以產生一張有效圖片,每1000人才可以產生一條合格的語音。

    “用戶在采集數據時,我們會給予一定的指導。在用戶完成采集后,我們會有兩道審核機制來把控數據的質量。第一,是全部審核,所有的數據都按規則審核一遍;第二,是一定比例的抽審。這些都由優秀的、能夠把控產出質量的審核人員來做。我們還有內部審核機制,實時自審自查。通過多維度、多層次的審核,嚴格保證數據出廠的質量。”龍貓數據項目運營琚振超告訴我們。

    為了激發大家參與數據采集的積極性,迅速找到和自己匹配度高的任務,“龍貓數據”APP還推出“工會”服務功能,對優質用戶進行額外獎勵。

    “用戶之間可以創建工會,經過多方評定,選擇一個活躍用戶做工會長,定期根據工會用戶的個人情況選擇合適任務,推薦給他們。工會的成員做任務會獲得額外增加的報酬,其比例也會隨著公會等級的增加而提高。”郝軍生說道。

    Web端標注平臺讓數據精準可用

    數據采集只是第一步,還遠遠達不到人工智能訓練的目的。龍貓數據推出的Web端標注平臺,通過對圖像、文本、語音、視頻等數據進行采集、評估、歸類,最終完成標注。標注過程中可實現對內容進行提取、分類、轉寫、語義分割、清洗、脫敏、校驗等相關任務。

    龍貓數據項目運營琚振超說:“對于人工智能數據訓練而言,數據采集和標注是相互貫連的兩塊內容。標注也分為視頻、音頻、文本、圖像幾大類,我們還可以做像3D點云這類3D內容的標注,這些都需要有經驗的人按照算法特定的需求做出精準標注,然后機器才能進行學習訓練。”

    以人臉照片素材為例,圖上有密密麻麻的點,而每一個點都有其特征含義,如內眼角、外眼角等。工作人員需要把這些特征點在圖中標記出來,才算是一份可以用的素材。

    通常人臉識別需要的訓練素材,少則 160 個點,多則數百個點,通過人工的手段想要正確且完整地標記一整張圖是非常困難的。龍貓數據在眾包平臺的數據采集階段采用了一種自研的人工智能預處理技術,即當用戶上傳原始素材至龍貓眾包平臺后,人工智能會直接在后端開始預處理,提前標記好任務所需要的特征點。當素材進入人工標記階段時,操作人員只需要輕微地挪動一些不合理的點即可完成任務。

    張翠玲告訴記者:“就人臉識別而言,因為算法不一樣,有的人工智能公司要求打點是270多個,少一點的則需要200個,所以我們需要向這些公司提供符合他們需求的數據。我們之前做過大概的預計,未來AI行業一年應該有2000億的規模,數據成本應該占到研發成本的5%到10%嗎,市場潛力非常巨大。”

    龍貓數據有著自己的打算,要把移動端APP、Web端標注平臺做更好的優化,特別是根據自身業務流程調整,將Web端標注平臺進行更高效的設計,以更迅捷地處理各種各樣的數據,滿足客戶日益增長的數據需求。

    “我們希望能夠建立起數據共享生態系統,數據共享平臺是我們已經走出的第一步。我們將歸納整理好的各種各樣的數據集,分享給有需求的高校或者其他行業企業來用,以此助推人工智能領域的快速發展”琚振超說道。

    加載更多>>
    責任編輯:趙衛華

    時評

    更多>>

    讓科普之翼更為有力

    科學素質是決定人思維和行為方式的重要因素,它包括了解科學知識,掌握科學方法,樹立... [詳細]

    重庆时时彩历史开奖数
  • <dl id="gwmu8"><menu id="gwmu8"></menu></dl>
  • <dl id="gwmu8"><ins id="gwmu8"></ins></dl>
  • <div id="gwmu8"><tr id="gwmu8"></tr></div>
  • <dl id="gwmu8"><menu id="gwmu8"></menu></dl>
  • <dl id="gwmu8"><ins id="gwmu8"></ins></dl>
  • <div id="gwmu8"><tr id="gwmu8"></tr></div>