无码国产精品久久一区免费,欧美一区内射最近更新,日本免费人成视频在线观看,丰满多毛大陰户毛茸茸

AI 2.0時代(一)

發(fā)表時間:2017-07-25????文章來源:遠博志城

導(dǎo)語:2017年7月,國外媒體報道蘋果或?qū)⒂赪WDC 推出智能音箱產(chǎn)品,引發(fā)語音人工智能領(lǐng)域關(guān)注。一方面,以亞馬遜Echo 智能音箱為代表的現(xiàn)象級AI 產(chǎn)品廣泛應(yīng)用于日常家居生活;另一方面,中國2017 年兩會政府工作報告首提人工智能,“科技創(chuàng)新2030—重大項目”關(guān)注人工智能2.0 主題,AI 全面升級為國家層面發(fā)展戰(zhàn)略。由于學(xué)習驅(qū)動方式、數(shù)據(jù)處理方式、計算形態(tài)、平臺生成方式和研究理念五大方面的變化,政策和產(chǎn)業(yè)的現(xiàn)狀表明AI 2.0 時代已經(jīng)來臨。

人工智能躍遷2.0 階段,

智能音箱催熟語音AI 新入口

(一)市場面語音類產(chǎn)品熱度提升,政策面AI 被密集提及

1、語音類AI 產(chǎn)品突破市場,用戶體驗良好帶動銷量大增

2017年7月,來自AppleInsider、KGI 等多處消息顯示蘋果公司正在籌劃推出智能音箱類產(chǎn)品,其中或?qū)⒅踩隨iri 語音助手,并有望在WWDC 蘋果大會上發(fā)布。全球消費者電子龍頭公司的加入,讓語音類人工智能產(chǎn)品再次吸引了業(yè)界和消費者的濃厚興趣。

一方面,人工智能受多個有影響力影響力的事件推動早已成為關(guān)注點。2016 年谷歌AlphaGo 大比分戰(zhàn)勝人類圍棋高手李世石,2017 年初騰訊圍棋機器人絕藝在UEC 杯世界計算機圍棋大賽等比賽中戰(zhàn)績突出,近期百度小度機器人在《最強大腦》節(jié)目里擊敗人類頂尖選手。這些事件表明AI 技術(shù)發(fā)展越來越成熟,特別是深度學(xué)習技術(shù)不斷實現(xiàn)突破。

另一方面,從產(chǎn)品化角度看,語音類AI 產(chǎn)品最為接近實用,性能表現(xiàn)能夠基本滿足用戶需求。最有代表性的是Amazon 在2014 年11 月發(fā)布的Echo 智能音箱,以及在后期陸續(xù)發(fā)布入門級智能音箱Echo Dot 和便攜式藍牙智能音箱Echo Tap。消費者可通過內(nèi)置語音助手Alexa 進行智能設(shè)備控制、多媒體操作、信息獲取、日程提醒等服務(wù),Echo 還可提供第三方接口以實現(xiàn)功能擴展。根據(jù)CIRP 和RBC Capital Market 等公司的估計,截止到2017 年2 月,Echo 系列產(chǎn)品累計銷售量接近1000 萬臺,銷售額達到8~10 億美元。客戶體驗方面,Echo 系列產(chǎn)品一改早期AI 產(chǎn)品“嘗鮮勝過實用”的表現(xiàn),收獲了良好的用戶口碑。其官網(wǎng)已積累了5 萬余條用戶評論,評分達4.4 星。

銷量激增和口碑優(yōu)秀的背后折射出Echo 這一類語音交互類產(chǎn)品正迅速從早期用戶的小眾圈子進入大眾市場。受此影響,Google、京東等也陸續(xù)推出Google Home、叮咚音箱等類似產(chǎn)品。若蘋果推出智能音箱,則將成為另一個重要玩家。美國調(diào)查公司VoiceLabs在2017 年初發(fā)布的《2017 年語音報告》預(yù)測2017 年將有2450 萬臺以語音為主要交互方式的智能硬件產(chǎn)品發(fā)貨,市場總量將達到3300 萬臺,市場規(guī)模超過200 億美元。

ai1_副本_副本.jpg

Google Home 音箱

ai2_副本_副本.jpg

Amazon 借助Echo 音箱構(gòu)建智能生態(tài)

2、兩會首提人工智能,科技規(guī)劃緊隨其后

2017 年3 月5 日國務(wù)院總理李克強在政府工作報告中首次提到要加快人工智能等技術(shù)研發(fā)和轉(zhuǎn)化,做大做強產(chǎn)業(yè)集群。實際上,最近一年來政府對人工智能的關(guān)注明顯提升,相關(guān)政策的推進也有所加快:2016 年7 月,國務(wù)院在《“十三五”國家科技創(chuàng)新規(guī)劃》中提出重點發(fā)展新一代信息技術(shù),對人工智能和智能交互做出重點規(guī)劃;2017 年2 月15日,科技部表示在“科技創(chuàng)新2030—重大項目”中新增“人工智能2.0”項目,并已進入實施方案的最終論證階段;2017 年3 月11 日,科技部部長萬鋼還在表示,科技部正和相關(guān)方面共同起草促進中國人工智能創(chuàng)新發(fā)展規(guī)劃,此規(guī)劃旨在推動人工智能在經(jīng)濟建設(shè)、社會民生、環(huán)保事業(yè)、國家安全等方面應(yīng)用。我們認為,政府工作報告首次提及AI,表明其已升級為國家戰(zhàn)略,相關(guān)規(guī)劃的具體設(shè)計和配套政策的落地也將助力AI 產(chǎn)業(yè)深化發(fā)展。國家陸續(xù)出臺的多項政策在政策面對人工智能產(chǎn)業(yè)的發(fā)展起到積極的助推和引導(dǎo)作用。

(二)AI 2.0 概念成型,語音入口地位顯現(xiàn)

1、AI 2.0時代來臨

目前多個研究認為,人工智能已基本發(fā)展到2.0 階段,應(yīng)用領(lǐng)域深入到機器人、安防、金融、醫(yī)療、家居等多個垂直行業(yè)??偟膩碚f,AI 2.0 的基本含義是指人工智能在內(nèi)部新算法模型和高性能硬件發(fā)展的支持下,應(yīng)對外部信息環(huán)境及社會需求的快速變動,從單個技術(shù)解決單一場景的“1.0”階段跨越到不同產(chǎn)業(yè)融合式發(fā)展的新階段。

AI 1.0 向2.0 轉(zhuǎn)型升級具有五大表現(xiàn)特征:

(1)學(xué)習驅(qū)動方式升級:從傳統(tǒng)知識表達方式、單純大數(shù)據(jù)驅(qū)動方式,轉(zhuǎn)向大數(shù)據(jù)驅(qū)動和知識指導(dǎo)相結(jié)合的方式,可自動進行機器學(xué)習,其應(yīng)用范圍更加廣泛;

(2)數(shù)據(jù)處理方式升級:從分類型處理多媒體數(shù)據(jù) (如視覺、聽覺、文字等),邁向跨媒體認知、學(xué)習和推理的新水平;

(3)計算形態(tài)升級:從直接追求“智能機器”和高水平的人機協(xié)同融合,走向漸進型混合增強智能的新計算形態(tài);

(4)平臺生成方式升級:從聚焦研究“個體智能”,走向基于互聯(lián)網(wǎng)絡(luò)的群體智能,形成在網(wǎng)上激發(fā)組織群體智能的技術(shù)與平臺;

(5)研究理念升級:從機器人主導(dǎo),轉(zhuǎn)向更加廣闊的智能自主系統(tǒng),從而促進改造各種機械、裝備和產(chǎn)品,走上泛智能化之路。

支撐技術(shù)日趨成熟,產(chǎn)品服務(wù)創(chuàng)新有跡可循。語音AI 技術(shù)包括三個要素:算法、計算能力和數(shù)據(jù)。(1)算法方面,按照“機器感知—人機理解—智能判斷”這一典型語音AI 作業(yè)流程劃分,涉及的基礎(chǔ)支撐技術(shù)主要包含語音識別、聲紋識別、自然語言處理、深度學(xué)習等;(2)計算能力方面,主要涉及用于計算加速的GPU 芯片和提升語音預(yù)處理效果的麥克風陣列等硬件;(3)數(shù)據(jù)方面,則和業(yè)務(wù)相關(guān),主要分為通用型(如人機對話等)和專用型(如工作任務(wù)、特定信息查詢、操作指令等)等。

(一)語音識別技術(shù)高度成熟,傳統(tǒng)科技公司優(yōu)勢明顯

語音識別(Automatic Speech Recognition,ASR)是將人類的聲音信號轉(zhuǎn)化為文字或者指令的過程,是大多數(shù)語音交互的第一道門檻,只有首先聽對用戶說的話才能進行后續(xù)的理解和決策。一個完整的語音識別系統(tǒng)包括特征提取、聲學(xué)模型、語言模型、搜索算法等模塊。而在具體實現(xiàn)上,一般的需要先準備特征模型庫,在識別時對采集到的語音信號提取待檢測特征,然后將得到的語音特征參數(shù)與模型庫進行比對。由聲音模式匹配模塊對該段語音進行識別,從而識別出語音內(nèi)容。

ai3_副本.jpg

語音識別系統(tǒng)流程

從市場格局來看,傳統(tǒng)的科技公司占據(jù)ASR 市場絕對份額:2015 年,全球市場中Nuance、谷歌、蘋果、微軟占據(jù)絕對市場份額,國內(nèi)市場中科大訊飛和百度占據(jù)約73%的份額。

(二)聲紋識別助力身份認證,安防與移動支付場景成看點

1、VPR 技術(shù)原理、應(yīng)用和實現(xiàn)路徑

聲紋識別技術(shù)(Voiceprint Recognition,VPR)是通過語音信號提取發(fā)聲人的身份的相關(guān)特征,并通過這些特征進行模式匹配,從而識別出發(fā)聲人身份的技術(shù)。聲紋是一種承載語音頻譜的音頻信息,不同生物個體的發(fā)音器官均有其特殊性,發(fā)出的語音、語調(diào)等信號是有區(qū)別的,因此聲紋識別技術(shù)可以實現(xiàn)身份信息的識別,并在現(xiàn)實生活中得到廣泛應(yīng)用。聲紋識別作為生物識別技術(shù)的一種,受益于消費者電子技術(shù)創(chuàng)新的發(fā)展趨勢。生物識別技術(shù)進入消費者電子產(chǎn)品的標志事件是2013 年iPhone 5S 采用指紋識別技術(shù)。隨后,虹膜、人臉、聲紋等其他的生物識別技術(shù)也開始獲得長足的發(fā)展。

VPR 技術(shù)原理:VPR 的實現(xiàn)是先對收到的語音信息提取特征做預(yù)處理,然后進行語音訓(xùn)練和語音識別兩個階段處理。語音訓(xùn)練是對提取出的語音信息特征進行學(xué)習訓(xùn)練,創(chuàng)建全面的聲紋信息模板或語音信息庫。識別部分則是根據(jù)信息模板或信息庫對語音特征進行模式匹配計算,由此判斷該語音是否為已知模板或語音庫中的特征信息,從而得出識別結(jié)果。

ai4_副本.jpg

聲紋識別系統(tǒng)原理圖

VPR 技術(shù)主要使用動態(tài)檢測的方法。動態(tài)檢測的方法是在靜態(tài)檢測的原理方法之上增加語音激活檢測(Voice Activity Detect,VAD)、降噪、去混響等算法。VAD 的目的是檢測人聲開始與結(jié)束的時間點,將對應(yīng)音頻截取出來以供分析,避免無效的錄音部分帶來的額外時間開銷;降噪和去混響是排除環(huán)境干擾,進一步提高識別正確率。

2、安全控制應(yīng)用廣泛,移動支付成看點

VPR 在政府、鐵路、電力、安全等特殊部門中依然具有較好的實用價值。根據(jù)美國聯(lián)邦調(diào)查局對近2000 例與聲紋相關(guān)的案件進行的統(tǒng)計,利用聲紋作為證據(jù)時只有0.31%的錯誤率。同樣聲紋鑒別已是國內(nèi)公安部的證據(jù)鑒定標準之一,這說明某些環(huán)境下聲紋可以用來作為有效的身份鑒別方式。

產(chǎn)業(yè)界一些領(lǐng)先企業(yè)開始在移動支付領(lǐng)域采用“聲紋+人臉識別”的融合方式開展產(chǎn)品化工作。2015 年,支付寶和百度錢包相繼上線聲紋支付功能。科大訊飛依托聲紋識別和人臉識別技術(shù)構(gòu)建了統(tǒng)一生物認證系統(tǒng),并聯(lián)合中國銀聯(lián)、徽商銀行共同推出“聲紋+人臉”融合認證個人轉(zhuǎn)賬應(yīng)用。聲紋識別一個重要的的優(yōu)點是可以將語音操作和身份認證融合在同一個環(huán)節(jié)中,即用戶發(fā)出語音指令即可同時進行聲紋識別和語義理解,因此我們預(yù)計未來配合人臉識別的聲紋認證服務(wù)將更多涌現(xiàn)。

ai5_副本_副本.jpg

圖:科大訊飛等聯(lián)合推出的“聲紋+人臉”支付產(chǎn)品

ai6_副本_副本.jpg

圖:支付寶聲紋支付演示

(三)自然語言處理仍存技術(shù)難點,機器翻譯或為突破口

1、自然語言處理是語音AI 的重要核心

自然語言處理(Natural Language Processing,NLP)是一門融語言學(xué)、計算機科學(xué)、數(shù)學(xué)于一體的科學(xué)。NLP 可分為自然語言理解和自然語言生成。前者是計算機能理解自然語言文本的意義,后者是計算機能以自然語言文本來表達給定的意思。NLP 是語音AI領(lǐng)域中的核心部分,但當前面臨的技術(shù)挑戰(zhàn)難度較大,基于統(tǒng)計技術(shù)的傳統(tǒng)方法并未完全解決語言理解的難點。

人機對話是NLP 技術(shù)最為典型的應(yīng)用之一。人機對話系統(tǒng)的基本結(jié)構(gòu)包括三個部分:語言理解、語言生成和對話管理。語言理解和生成分別是指理解用戶的語言輸入和產(chǎn)生系統(tǒng)的語言輸出。這兩部分直接影響對話系統(tǒng)的性能,成為NLP 中其他應(yīng)用不可缺少的部分。對話管理則可用于區(qū)分對話系統(tǒng)和問答系統(tǒng),是指從語言理解部分獲取輸入信息,維護對話過程中的系統(tǒng)內(nèi)部狀態(tài)(如上下文、指代詞等),并基于狀態(tài)生成對話策略,為產(chǎn)生對話言語提供依據(jù)。對話管理的評價指標主要是要控制對話流程的自然程度和用戶體驗。

2、機器翻譯技術(shù)發(fā)展迅速,互聯(lián)網(wǎng)公司占主導(dǎo)優(yōu)勢

NLP 領(lǐng)域一個較成熟的方向是機器翻譯(Machine Translation)。一種方案是采用神經(jīng)機器翻譯模型,是一種通用的計算裝置,適合處理“序列到序列”的問題。所謂“序列”是指機器翻譯中源語言的句子和對應(yīng)的目標語言的對應(yīng)關(guān)系。機器翻譯的發(fā)展主要經(jīng)歷以下四個階段,如下圖所示。

ai7_副本.jpg

圖:機器翻譯發(fā)展歷程

影響機器翻譯水平的方面中雙語語料庫的構(gòu)建很關(guān)鍵。大型互聯(lián)網(wǎng)公司在這一領(lǐng)域積累深厚,已占據(jù)主導(dǎo)優(yōu)勢。例如科大訊飛在2016 年底的年度發(fā)布會上演示的訊飛聽見系統(tǒng)在實時轉(zhuǎn)寫的同時,能同步翻譯成英語、日語、韓語、維語等。

除了機器翻譯應(yīng)用,在新的消費者電子產(chǎn)品上NLP 主流應(yīng)用以智能語音助手為主,如IBM Watson、蘋果Siri、Google Assistant、微軟小冰和小娜、百度度秘等。人們對此已經(jīng)比較熟悉,不再過多論述。目前,由于技術(shù)成熟度有限,NLP 應(yīng)用整體上還處于一個早期階段,只能理解一些簡單的句子,滿足用戶初級的溝通與交互需求。

Copyright © 2019 遠博志城 版權(quán)所有   All rights reserved.備案號:滬ICP備17029468號-2design by Mfweb