近日,東芝開發(fā/fà)出了可(kě)高速對(duì)照大數據、大規模媒體數據 注1 的數據處理技術。此技術以高維矢量 注2 表現人物的面部、銷售數據等,通過(guò)預先将類似的矢量群索引化處理,可(kě)實現高速對(duì)照。利用(yòng)此技術從1000萬張人物的面部圖像數據中提取指定人物的實驗 注3 中,僅8.31毫秒(1毫秒=1/1000秒)即可(kě)完成處理。比傳統的處理速度高出約50倍 注4。
近年(nián)來,大數據的分析、活用(yòng)技術不斷用(yòng)于(yú)機械學習或機器故障預測等領域,大幅提高了故障的預測精度,給人們的生(shēng)活帶來諸多便利的同時,分析的數據量也比人們預想的更快實現了大容量化、大規模化,尋求計算處理的高速化需求日益凸顯。
東芝開發(fā/fà)的高速對(duì)照技術,結合了“矢量符号技術”(以盡量維持矢量間的距離的狀态進行(háng / xíng)壓縮)、“矢量索引技術”(不計算矢量間的距離而(ér)是預先索引化處理距離比較近的矢量群)、“管道搜索技術”(将粗略搜索和詳細搜索進行(háng / xíng)階段性組合)這3項技術,從而(ér)實現了計算處理的高性能(néng)化、高速化。其(qí)中,“矢量索引技術”是東芝最先開發(fā/fà)的技術,擺脫了逐一對(duì)照咨詢數據的矢量,而(ér)是對(duì)照已經過(guò)索引化處理的類似的矢量群,使得(dé / de / děi)處理速度大幅提高。
東芝以模式挖掘 注5、媒體識别的強化 注6、大數據分析 注7 三個領域爲中心,将此技術向解決方案服務領域推廣應用(yòng)。例如(rú),可(kě)通過(guò)在大範圍内設置的監控攝像頭的影像瞬時發(fā/fà)現指定人物,可(kě)使用(yòng)機場等的水域監控高速對(duì)照國際通緝犯的人臉照片列表 注8。
今後(hòu),東芝還将把此技術應用(yòng)于(yú)深度學習,擴大與提高人工智能(néng)等相關的應用(yòng)領域,爲企業創造全新的價值。
此外,東芝已将此技術與向外擴展型數據庫“GridDB®”組合,建立了可(kě)高速處理大數據、大規模媒體數據的世界首個适用(yòng)高維矢量對(duì)照的數據庫,計劃将于(yú)2016年(nián)制作成産品。
注1:例如(rú),監控影像、廣播節目檔案、客戶服務中心儲存的語音記錄、Web文本等大規模媒體數據。
注2:并非二維(平面)或三維(空間)的矢量,而(ér)是擁有數百~數萬等維數的矢量。
注3:使用(yòng)拍攝的5800人的面部共1000萬張圖像,以98%或以上的面部識别精度爲限制條件進行(háng / xíng)實施。
注4:依據東芝獨立調查獲得(dé / de / děi)的速度比較值。
注5:模式挖掘(類似模式搜索)
可(kě)對(duì)照監控攝像頭等的影像的広域監控(追蹤需要(yào / yāo)監控的對(duì)象人員等)
配置場所(suǒ)可(kě)以是車站、機場、高速道路等的閘口(驗票)、主題公園、娛樂場等的各監控點、從車站到運動場(音樂會(huì)、體育)的移動路線監控、ATM、接待窗口、售票機等。
注6:媒體識别的強化
國際通緝犯的檢查(在機場等場所(suǒ)的監控強化等)
注7:大數據分析
對(duì)學習和預測自(zì)動進行(háng / xíng)數據分析雲服務。隻将銷售數據、機械信号數據等需要(yào / yāo)分析的數據上傳至服務器,無需另行(háng / xíng)配置分析管理等人員,可(kě)自(zì)動獲得(dé / de / děi)分析結果。
注8:将1千萬人的國際通緝犯的人臉照片列表和通過(guò)安全門的人物進行(háng / xíng)對(duì)照,使用(yòng)其(qí)它公司的類似技術需要(yào / yāo)約20秒,使用(yòng)本技術則僅需約0.68秒便可(kě)進行(háng / xíng)對(duì)照(依據東芝與系統整體處理時間相關的理論估計值)。
※ GridDB是株式會(huì)社東芝的注冊商标。