|
本文源自 太平洋證券 人工智能專題研究之一 證券分析師 王文龍、徐中華 信息化顧問團(tuán) 楊凱 整理 百度AI平臺將逐步開放,助力構(gòu)建百度AI生態(tài)圈 “云+大腦”打磨升級構(gòu)成百度AI平臺 百度AI開發(fā)者大會(Baidu Create 2017)上,百度AI平臺架構(gòu)圖首次完整亮相,全新開放了視頻、語音、AR/VR、機(jī)器人視覺、自然語音處理等五大類目共14項(xiàng)全新能力,此次開放的技術(shù)能力總共有60個(gè),是目前最全面的AI技術(shù)開放平臺。百度AI平臺由百度大腦及百度云組成,分為云、大數(shù)據(jù)、算法層、感知層、認(rèn)知層、平臺層五大層次,核心能力的開放已達(dá)60余項(xiàng)。 圖表1:百度AI平臺的架構(gòu) 作為百度AI平臺的核心,百度大腦由算法層、感知層、認(rèn)知層、平臺層共同組成,是業(yè)界第一個(gè)完整清晰地把認(rèn)知層和感知層放在一起的人工智能平臺。
圖表2:百度大腦各層次能力 多領(lǐng)域在人工智能方向進(jìn)行戰(zhàn)略構(gòu)建 百度自2013年1月組建專注于Deep Learning(深度學(xué)習(xí))的研究院—Institute of Deep Learning(簡稱IDL)開始,百度便已經(jīng)積極布局人工智能:
2017年1月,陸奇先生加入百度擔(dān)任集團(tuán)總裁兼CEO,圍繞人工智能在集團(tuán)架構(gòu)、業(yè)務(wù)以及人事方面大刀闊斧進(jìn)行改革,包括將自動(dòng)駕駛事業(yè)部(L4)、智能汽車事業(yè)部(L3)、車聯(lián)網(wǎng)業(yè)務(wù)(Car Life etc)合并組建新的智能駕駛事業(yè)群組(IDG),并向汽車行業(yè)及自動(dòng)駕駛領(lǐng)域的合作伙伴提供一款名叫Apollo的開放軟件平臺。 國外方面,Amazon、Facebook布局人工智能主要是為了智能其各自的傳統(tǒng)主業(yè)以使自身在各自領(lǐng)域保持競爭力,而Google及IBM則是從集團(tuán)層面對其人工智能生態(tài)建設(shè)進(jìn)行了整體規(guī)劃。國內(nèi)方面,阿里巴巴在人工智能方面的行動(dòng)主要是針對具體的應(yīng)用場景進(jìn)行智能化,而騰訊則主要是通過在各事業(yè)部組建AI團(tuán)隊(duì)來推進(jìn)集團(tuán)人工智能的發(fā)展。 圖表3:其他科技巨頭在AI的布局概況
可以看到,百度在AI方面的布局已經(jīng)相對完善,無論是從AI部門的設(shè)置、集團(tuán)戰(zhàn)略定位,還是從開放的各類技術(shù)平臺,均能夠幫助百度更快地構(gòu)建生態(tài)圈,以此帶來更多場景應(yīng)用的落地。 AI平臺開放、百度生態(tài)建設(shè)延伸至端 百度AI平臺以百度智能云為基礎(chǔ)、百度大腦為核心,目前開放DuerOS和Apollo兩大平臺向終端下沉,與云端一起初步構(gòu)建起AI生態(tài)圈。同時(shí),深度學(xué)習(xí)開放平臺PaddlePaddle具備易用、高效、靈活和可伸縮等特點(diǎn),使程序員可以快速應(yīng)用深度學(xué)習(xí)模型來解決各種實(shí)際問題,加快實(shí)驗(yàn)室技術(shù)在各類場景的應(yīng)用落地,促進(jìn)百度AI生態(tài)的擴(kuò)散。 圖表4:百度AI平臺與生態(tài)構(gòu)建 百度AI平臺的開源有助于百度吸引更多優(yōu)秀的開發(fā)者參與進(jìn)來,在幫助完善AI平臺功能的同時(shí),培養(yǎng)用戶的使用習(xí)慣,構(gòu)建起開發(fā)者生態(tài)。此外,還可以通過開發(fā)者使實(shí)驗(yàn)室技術(shù)更快地在具體場景落地。百度可憑借開放的平臺尋找到更多的合作者,構(gòu)建起合作伙伴生態(tài),共同推出行業(yè)解決方案和生態(tài)合作方案。 DuerOS:開放的對話式人工智能系統(tǒng) 百度在2017CES上推出了DuerOS。此外,百度還發(fā)布了DuerOS智慧芯片,具有:“三低、三高”的特點(diǎn)—低成本、低門檻、低消耗、高安全、高集成、高附加。這款DuerOS智慧芯片已將DuerOS與紫光展銳RDA5981完美集成;還采用了ARM公司mbed OS內(nèi)核及其安全網(wǎng)絡(luò)協(xié)議棧,實(shí)現(xiàn)了與云端的安全連接,降低了設(shè)備商應(yīng)用開發(fā)門檻。 7月15日,在Baidu Create 2017上,度秘事業(yè)部總經(jīng)理景鯤發(fā)布了DuerOS開放平臺。該平臺以DuerOS對話系統(tǒng)為核心層,應(yīng)用層為智能設(shè)備開放平臺,能力層為技能開放平臺。其中技能開放平臺目前已經(jīng)擁有10大品類、100多項(xiàng)原生技能且支持第三方資源和內(nèi)容接入。作為中國版Alexa,未來百度將以DuerOS為切入點(diǎn),進(jìn)一步推動(dòng)集團(tuán)人工智能生態(tài)的構(gòu)建。 圖表5:DuerOS開放平臺整體架構(gòu) 【參考資料:Alexa】 Alexa是Amazon推出的一款語音助手,可以對語音指令進(jìn)行處理并做出語音回復(fù)或執(zhí)行相應(yīng)操作,截止2017年6月底,Alexa語音助手已擁有超過1.5萬項(xiàng)技能,比官方2月份公布的1萬多項(xiàng)增長了一半多。 圖表6:語音助手技能數(shù)量(單位:項(xiàng)) 目前Alexa主要應(yīng)用于智能音箱、智能家居、可穿戴設(shè)備、購物助手等。亞馬遜允許設(shè)備制造商通過使用Alexa語音服務(wù)(AVS)將Alexa不斷增長的語音功能集成到自己的連接產(chǎn)品中。該語音服務(wù)(AVS)是一種云服務(wù),提供基于云的自動(dòng)語音識別(ASR)和自然語言理解(NLP)。 Alexa的語音識別系統(tǒng)框架主要包括四大塊:信號處理(Signal processing)、聲學(xué)模型(Acoustic model)、解碼器(Decoder)和后處理(Post processing)。 首先將收集來的聲音進(jìn)行一些信號處理,將語音信號轉(zhuǎn)化到頻域,每10毫秒的語音生成一個(gè)特征向量,發(fā)送到后面的聲學(xué)模型。聲學(xué)模型把音頻分成不同的音素。接下來解碼器可以解出概率最高的詞串。最后一步是后處理,把單詞組合成易讀取的文本。 圖表7:Alexa語音識別步驟 其中,聲學(xué)模型就是一個(gè)分類器,輸入的是向量,輸出的是音頻類別對應(yīng)的概率。該模型是一個(gè)典型的神經(jīng)網(wǎng)絡(luò),底部是輸入的信息,隱藏層將向量轉(zhuǎn)化到最后一層里的音素概率。 一個(gè)美式英語的Alexa語音識別系統(tǒng),會輸出美式英語的音素。以美式英語為基礎(chǔ)的Echo,錄了幾千小時(shí)的美式英語語音來訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型,這個(gè)成本非常高。但是,世界上還有很多其它的語言,比如德語,如果再從頭用幾千小時(shí)的德語語音訓(xùn)練,成本太高。所以,這個(gè)神經(jīng)網(wǎng)絡(luò)模型有趣的地方就是可以“遷移學(xué)習(xí)”,它可以保持原有模型中其它層不變,只把最后一層換成德語。兩種不同的語言,音素大部分是不一樣的,但是仍然有不少相同的部分。因此,僅使用少量的德語語音數(shù)據(jù),就可以在稍作改變的模型上得到較準(zhǔn)確的德語結(jié)果。 現(xiàn)在,DuerOS可以將搭載Alexa的智能音箱變成能聽懂中文。未來,百度將把DuerOS打造成AI時(shí)代的“安卓”,為AI開發(fā)者鋪墊好技術(shù)基礎(chǔ),幫助其更方便快捷地開發(fā)智能語音交互設(shè)備,從而打造以DuerOS為入口的智能語音生態(tài)鏈。 Apollo:自動(dòng)駕駛開放平臺 百度AI的核心突破口當(dāng)屬自動(dòng)駕駛,首先是成立智能駕駛事業(yè)群組(IDG)。緊接著于今年4月在上海車展上發(fā)布了“Apollo”計(jì)劃,向汽車行業(yè)及自動(dòng)駕駛領(lǐng)域的合作伙伴提供開放的、完整的、安全的軟件平臺,幫助他們快速搭建一套屬于自己的自動(dòng)駕駛系統(tǒng)。Apollo開放平臺的發(fā)布標(biāo)志著百度在人工智能的系統(tǒng)級開放進(jìn)程更進(jìn)一步,這也是全球范圍內(nèi)自動(dòng)駕駛技術(shù)的第一次系統(tǒng)級開放。百度將致力于將Apollo打造成汽車工業(yè)時(shí)代的安卓,但是比安卓更開放、能量更大。 7月5日百度AI開發(fā)者大會上,百度首次對外公布Apollo詳細(xì)的路線圖、技術(shù)框架以及首期開放Apollo 1.0的能力。會上,百度宣布Apollo生態(tài)合作伙伴聯(lián)盟規(guī)模超50家,目前Apollo生態(tài)合作伙伴聯(lián)盟已輻射OEM、Tier1、地圖公司、芯片公司、基金投資、個(gè)人開發(fā)者、創(chuàng)業(yè)公司、研究機(jī)構(gòu)及政府機(jī)構(gòu)等,成為全球最強(qiáng)大的自動(dòng)駕駛生態(tài)。 Apollo將提供一套完整的軟硬件和服務(wù)系統(tǒng),包括車輛平臺、硬件平臺、軟件平臺、云端數(shù)據(jù)服務(wù)等四大部分。此外,百度還將開放環(huán)境感知、路徑規(guī)劃、車輛控制、車載操作系統(tǒng)等功能的代碼或能力,并且提供完整的開發(fā)測試工具。并且,百度還會在車輛和傳感器等領(lǐng)域選擇協(xié)同度和兼容性最好的合作伙伴,推薦給接入Apollo開放平臺的第三方合作伙伴使用,進(jìn)一步降低自動(dòng)駕駛的研發(fā)門檻。 Apollo核心技術(shù)的總體技術(shù)框架由4個(gè)部分組成:
圖表8:2017年7月發(fā)布的Apollo路線圖 圖表9:Apollo平臺開放情況(紫色為Apollo1.0開放部分,紅色部分為Apollo1.5開放部分) 2017年9月20日,百度宣布Apollo1.5正式開放,包含障礙物感知、決策規(guī)劃、云端仿真、高精地圖服務(wù)、端到端的深度學(xué)習(xí)(End-to-End)等五大核心開放能力,并支持晝夜定車道自動(dòng)駕駛。其中,原本計(jì)劃于年底開放的端到端的深度學(xué)習(xí)(End-to-End)在9月20日宣布提前開放。 能力一:障礙物感知 感知模塊的目標(biāo)是在給定從激光雷達(dá)傳感器獲得的三維點(diǎn)云數(shù)據(jù)后提供感知障礙的能力。它能檢測、分段和跟蹤以高精度地圖ROI方式定義的障礙。此外,它預(yù)測障礙物的運(yùn)動(dòng)和姿態(tài)信息(如航向、速度等)。核心的3D感知模塊是基于大規(guī)模點(diǎn)云數(shù)據(jù)訓(xùn)練的深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)的障礙物檢測和分割算法,包括高精地圖ROI過濾、基于CNN的障礙物檢測與分割、MinBox障礙物框構(gòu)建和HM物體跟蹤。 圖表10:3D感知模塊的組成部分
止目前Apollo已有70多家合作伙伴。新增合作伙伴包括OEM主機(jī)廠、Tier1供應(yīng)商、開發(fā)者生態(tài)公司。同時(shí)百度宣布Apollo基金“雙百計(jì)劃”,將在三年內(nèi)投入100億資金,完成超過100家項(xiàng)目的投資,未來將進(jìn)一步壯大Apollo平臺的生態(tài)聯(lián)盟。 能力二:決策規(guī)劃 決策規(guī)劃模塊根據(jù)實(shí)時(shí)路況、感知模塊輸出的信息、道路限速等信息做出相應(yīng)的軌跡預(yù)測和智能規(guī)劃,同時(shí)兼顧安全性和舒適性,提高行駛效率。決策規(guī)劃模塊主要由障礙物檢測、路徑規(guī)劃、選擇與控制三部分組成。 圖表11:決策規(guī)劃模塊的組成部分
能力三:高精度地圖 高精度地圖與普通電子地圖的主要區(qū)別是高精度地圖擁有更精確的車輛位置信息和更豐富的道路元素?cái)?shù)據(jù)信息,起到構(gòu)建類似于人腦對于空間的整體記憶與認(rèn)知的功能,可以幫助汽車預(yù)知路面復(fù)雜信息,如坡度、曲率、航向等,更好地規(guī)避潛在的風(fēng)險(xiǎn)。是實(shí)現(xiàn)自動(dòng)駕駛的關(guān)鍵所在。此外,高精度地圖還起到了車輛間共享路況信息、識別交通標(biāo)志的作用。 能力四:云端仿真 其中開放云端仿真功能作用極為重要,在正常的產(chǎn)品開發(fā)過程中,良好的仿真測試環(huán)境將方便產(chǎn)品開發(fā)者在模擬環(huán)境中快速測試產(chǎn)品的性能、可靠性等,加快產(chǎn)品的迭代測試周期從而提高產(chǎn)品測試效率: 圖表12:云端仿真功能的作用
能力五:端到端 按照2017年7月百度發(fā)布的規(guī)劃,端到端深度學(xué)習(xí)能力比原定的2017年12月提前了3個(gè)月,開放速度有所加快。本次開放的障礙物感知和決策規(guī)劃能力使車輛能夠?qū)崿F(xiàn)不分晝夜的精準(zhǔn)障礙物識別,并能通過深度神經(jīng)網(wǎng)絡(luò)精準(zhǔn)預(yù)測行駛路徑,從而做出最終的駕駛決策。 百度IDG部門的郁浩在百度技術(shù)沙龍上的演講中提到,和Apollo中端到端學(xué)習(xí)相對的是傳統(tǒng)無人駕駛項(xiàng)目中主要使用的規(guī)則式系統(tǒng),這是過去二十多年無人駕駛研究的主流方向。規(guī)則式系統(tǒng)從車輛開始是一個(gè)閉環(huán):從車輛到車上的傳感器,獲取輸入信息,這些信息經(jīng)過感知層處理,提取出道路、行人和車輛等各種信息。在感知到的信息的基礎(chǔ)之上,再加入高精地圖等一些靜態(tài)信息,把動(dòng)態(tài)信息和靜態(tài)信息結(jié)合到一起形成較完備的世界模型(World Model)——對外部環(huán)境的完備描述。在此基礎(chǔ)之上就可以進(jìn)入到?jīng)Q策模塊產(chǎn)生決策,然后控制模塊把決策信號傳遞給車輛。 圖表13:規(guī)則式系統(tǒng) 上圖是一個(gè)很簡單的閉環(huán)模式,也有很多人提出了相關(guān)的或類似的架構(gòu),比如國際汽車工程師學(xué)會(SAE)在上邊閉環(huán)的基礎(chǔ)上,更細(xì)化分成大環(huán)、小環(huán)和各個(gè)模塊之間的關(guān)系。
圖表14:國際汽車工程師學(xué)會(SAE)推薦的系統(tǒng)架構(gòu)圖 為了使規(guī)則式系統(tǒng)能夠滿足自動(dòng)駕駛的需要,需要不斷細(xì)化、得到更復(fù)雜的功能模塊圖,真正系統(tǒng)落地時(shí)往往有上千個(gè)模塊。因此規(guī)則式系統(tǒng)有3個(gè)特點(diǎn):
簡單地歸納一下,與規(guī)則式系統(tǒng)相比,端到端學(xué)習(xí)更像是在模擬、貼合人的思考過程,包括人的下意識思考。相對規(guī)則式系統(tǒng)而言,端到端學(xué)習(xí)成本更低,但需要大量優(yōu)質(zhì)數(shù)據(jù)來讓機(jī)器進(jìn)行學(xué)習(xí)、篩選各種情況下有效的路徑。
圖表15:Rule based與End-to-End比較 端到端的已有案例 Apollo1.5的合作者M(jìn)omenta基于定車道晝夜自動(dòng)駕駛能力,很快完成了實(shí)車驗(yàn)證。實(shí)際道路測試表明,搭載了Apollo1.5的平臺即使在夜間可視度不佳的情形下,依舊能完成各種復(fù)雜的交通場景識別。 另一個(gè)合作伙伴智行者科技在Apollo平臺上打造的無人駕駛掃路車,目前已經(jīng)在北京一家園區(qū)正式落地,開創(chuàng)了Apollo自動(dòng)駕駛作業(yè)車的先例。2017 CES Asia展會上,百度聯(lián)合長城汽車、NVIDIA,在哈弗H7展示了基于單目攝像頭+百度深度學(xué)習(xí)技術(shù)的端到端自動(dòng)駕駛解決方案,進(jìn)行了公開試乘。
圖表16:封閉園區(qū)的固定路線的接駁 Apollo平臺目標(biāo)實(shí)現(xiàn)生態(tài),開源廣納合作者參與 自Apollo1.0發(fā)布2個(gè)多月后,其在知名開源平臺Github上已經(jīng)聚集了6000多的開發(fā)者,位居開源平臺前列。Apollo GitHub將自己定義為一個(gè)開放的、完整的、安全的自動(dòng)駕駛平臺,以靈活和高性能的技術(shù)架構(gòu),為全自動(dòng)駕駛提供支持。 Apollo開源代碼資源可以分為三部分,分別是apollo、apollo-platform、apollo-kernel。 第一部分,apollo該部分有入門文檔,介紹了Apollo的基本信息。modules文件夾中是各個(gè)模塊(如感知模塊perception,預(yù)測模塊prediction,端到端e2e)的開源內(nèi)容。還有一些其他文件夾:docker沙箱,scripts腳本,third_party第三方開源代碼,tools工具。說明文檔推薦使用已經(jīng)設(shè)置好的沙箱模式。 第二部分,apollo-platform該部分內(nèi)容用來提供平臺支持,目前主要是一套經(jīng)過修改的ROS(機(jī)器人操作系統(tǒng))。 第三部分apollo-kernel,該部分內(nèi)容用來提供核心支持,目前Apollo核心使用的是修改過的Linux Kernel 4.4.32。 Apollo生態(tài)鏈及標(biāo)的公司 無人駕駛快速落地,行業(yè)生態(tài)起到了關(guān)鍵性作用,對比手機(jī)的Android系統(tǒng)來看,在Android系統(tǒng)2009年面世之前,各個(gè)手機(jī)廠家都有自己的操作系統(tǒng),而在Android系統(tǒng)出來后,短短幾年內(nèi),各大手機(jī)廠商操作系統(tǒng)都統(tǒng)一在開源的Android系統(tǒng)之下(蘋果公司的IOS除外),而沒有跟上這個(gè)趨勢的廠商(如諾基亞、摩托羅拉等)很快就銷聲匿跡了。現(xiàn)在Apollo平臺,正如Android系統(tǒng)初生之時(shí),在國內(nèi)有一統(tǒng)平臺的潛質(zhì),Apollo目前已經(jīng)擁有70多家合作伙伴,已有多家合作伙伴采用公司的平臺進(jìn)行產(chǎn)品研發(fā),未來前景良好。因此,如果關(guān)注A股上市公司,建議投資者重點(diǎn)關(guān)注參與到Apollo產(chǎn)業(yè)鏈的公司,尤其是那些細(xì)分行業(yè)的龍頭,具有良好的爆發(fā)性機(jī)會。 圖表17:Apollo合作伙伴分類
Apollo保持著每周數(shù)十次頻率的代碼更新,從2017年7月到9月兩個(gè)多月時(shí)間新增6.5萬行代碼。同時(shí),Apollo獲得全球開發(fā)者的積極響應(yīng)。截止2017年9月20日,共有1300多個(gè)合作伙伴下載使用了Apollo開源代碼,近百個(gè)合作伙伴通過Apollo官網(wǎng)申請開放數(shù)據(jù)。上線當(dāng)月,在全球最大的開源社區(qū)Github的全球C++類項(xiàng)目中排名第一,6000多個(gè)開發(fā)者推薦使用Apollo開源軟件。 PaddlePaddle:深度學(xué)習(xí)開放平臺 PaddlePaddle前身是百度于2013年自主研發(fā)的深度學(xué)習(xí)平臺,一直為百度內(nèi)部工程師研發(fā)使用。2016年9月,百度宣布其深度學(xué)習(xí)平臺PaddlePaddle在開源社區(qū)Github及百度大腦平臺開放。2017年年初,PaddlePaddle可在Google開源的Docker容器集群管理系統(tǒng)Kubernetes運(yùn)行,并成為目前唯一官方支持Kubernetes的深度學(xué)習(xí)框架,兩個(gè)開源項(xiàng)目的結(jié)合意味著深度學(xué)習(xí)對于廣大開發(fā)者正變得“觸手可及”。 PaddlePaddle具備5大優(yōu)勢:
圖表18:幾類深度學(xué)習(xí)平臺的比較
圖表19:Paddle與TensorFlow在RNN下的表現(xiàn) 目前,PaddlePaddle已經(jīng)被應(yīng)用于百度的30多個(gè)主要產(chǎn)品,如外賣菜品識別、預(yù)估出餐時(shí)間、海量圖像識別分類、字符識別(OCR)、機(jī)器翻譯和自動(dòng)駕駛等領(lǐng)域。 百度“能聽會看”作為觸手、帶動(dòng)技術(shù)領(lǐng)域的商業(yè)化落地 從“能聽”走向“能聽懂”的學(xué)習(xí)之路 1、百度以語音識別為切入點(diǎn),構(gòu)建人工智能生態(tài)圈。 2017年,百度語音開放生態(tài)2.0。目前,百度語音開放生態(tài)已經(jīng)構(gòu)建起包括模型層、功能層、交互層、接入層的四層開放架構(gòu),已有近25萬開發(fā)者納入生態(tài)圈,日調(diào)用總數(shù)達(dá)20億次。在開放生態(tài)2.0中,百度將開放遠(yuǎn)場識別及喚醒技術(shù)、定制化語音合成、語音合成音色等技術(shù):
圖表20:語音技術(shù)開放現(xiàn)狀 目前,百度已與聯(lián)想、中興、長虹、索尼、iReader、攜程、特斯拉等品牌合作,構(gòu)建包含模型層、功能層、交互層、接入層的語音開放架構(gòu)。 語音識別的目標(biāo)是以電腦自動(dòng)將人類的語音內(nèi)容轉(zhuǎn)換為相應(yīng)的文字,其應(yīng)用包括語音撥號、語音導(dǎo)航、室內(nèi)設(shè)備控制、語音文檔檢索、簡單的聽寫數(shù)據(jù)錄入等。 直到第三次人工智能熱潮來臨,深度學(xué)習(xí)的崛起、高性能計(jì)算和大數(shù)據(jù)的迅速發(fā)展才使語音識別從實(shí)驗(yàn)室走出并開始實(shí)現(xiàn)商業(yè)落地。近年來語音識別準(zhǔn)確率得到了極大的提升。2016年11月,搜狗、百度、科大訊飛相繼宣布其中文語音識別率達(dá)到了97%。
圖表21:語音識別錯(cuò)誤率在近幾年得到了極大降低 語音識別作為人工智能核心技術(shù)之一,目前各科技巨頭都將其作為切入點(diǎn),積極布局人工智能。在智能語音領(lǐng)域方面的布局,科技巨頭和初創(chuàng)公司的打法有所差異,具體表現(xiàn)為:
2、自然語言處理技術(shù)賦予機(jī)器認(rèn)知能力 人類語言與計(jì)算機(jī)之間相互作用的研究領(lǐng)域稱為自然語言處理(簡稱NLP)。它結(jié)合了計(jì)算機(jī)科學(xué)、人工智能和計(jì)算語言學(xué)。開發(fā)人員利用NLP可以組織和構(gòu)建知識,執(zhí)行自動(dòng)總結(jié)、翻譯、命名實(shí)體識別、關(guān)系提取、情感分析、語音識別和主題分割等任務(wù)。目前,中國在自然語言處理領(lǐng)域的專利數(shù)量占比僅次于美國。 自百度誕生之日起,中文分詞這種的基礎(chǔ)NLP技術(shù)便已經(jīng)應(yīng)用于搜索引擎。自然語言處理專家王海峰博士加入百度后對百度NLP工作進(jìn)行了重新梳理。在加強(qiáng)分詞、專名識別、query需求分析、query改寫等傳統(tǒng)方向的同時(shí)還拓展了機(jī)器翻譯、機(jī)器學(xué)習(xí)、語義搜索、語義理解、智能交互、深度問答、篇章理解等新的技術(shù)方向。在他的帶領(lǐng)下,NLP團(tuán)隊(duì)已經(jīng)包括了算法開發(fā)、系統(tǒng)實(shí)現(xiàn)、學(xué)術(shù)研究、語言學(xué)、產(chǎn)品設(shè)計(jì)和架構(gòu)、前端、客戶端工程開發(fā)等多領(lǐng)域的人才,全面支持百度各種產(chǎn)品應(yīng)用。
圖表22:百度自然語言處理技術(shù)概要 歷經(jīng)17年的積累,2013年百度首次開發(fā)了NLP Cloud平臺,擁有20多種NLP模塊,每天的請求數(shù)超1000億次,每日流量達(dá)數(shù)十億次,已為超2萬個(gè)企業(yè)和開發(fā)者提供百度翻譯API,應(yīng)用于百度搜索、Feed、O2O和廣告等業(yè)務(wù)與產(chǎn)品方向。此外,百度還提供語音翻譯及利用字符識別技術(shù)進(jìn)行的圖片內(nèi)容翻譯。 在Baidu Create 2017上,百度開放了基于百度自然語言處理技術(shù)的理解與交互技術(shù)平臺UNIT(Understanding and Interaction Technology Platform),包括詞法分析、情感分析、機(jī)器翻譯、語義表示、語言模型、語義相似度等技術(shù),為機(jī)器賦予“理解”能力。
圖表23:UNIT整體框架 UNIT基于百度海量的搜索數(shù)據(jù)、問答數(shù)據(jù)、網(wǎng)頁數(shù)據(jù)等為對話系統(tǒng)的開發(fā)提供大數(shù)據(jù)保障,為每個(gè)不同的對話任務(wù)智能推薦相關(guān)數(shù)據(jù),以供進(jìn)一步的訓(xùn)練數(shù)據(jù)標(biāo)注。并首次推出理解與交互“對話訓(xùn)練師”模式讓普通開發(fā)者乃至零編程基礎(chǔ)的人都能成為訓(xùn)練師。對話系統(tǒng)通過與訓(xùn)練師對話便可不斷完善系統(tǒng)功能、提升對話能力。目前,UNIT已經(jīng)應(yīng)用于車載、客服、家居等場景。
圖表24:訓(xùn)練師模式 全方位視頻理解技術(shù)使機(jī)器不僅“會看”,還會理解 在Baidu Create 2017上,百度發(fā)布了全方位視頻理解技術(shù),包括視頻分割技術(shù)、語義理解、人臉識別及機(jī)器人視覺等。
計(jì)算機(jī)視覺是最主要的人工智能基礎(chǔ)技術(shù)之一,主要包括信息采集、模型訓(xùn)練及識別。目前,計(jì)算機(jī)視覺在圖像識別和人臉識別兩大領(lǐng)域的準(zhǔn)確率都已經(jīng)超過人類極限。計(jì)算機(jī)視覺技術(shù)主要包括圖像及視頻處理、人臉識別、文字識別、智能監(jiān)控等,其中人臉識別已經(jīng)廣泛應(yīng)用于安防、公安、金融等行業(yè)。在計(jì)算機(jī)視覺領(lǐng)域,我國與國外的差距較小。2014年3月,香港中文大學(xué)湯曉鷗教授團(tuán)隊(duì)的GaussianFace算法在人臉識別數(shù)據(jù)庫LFW上準(zhǔn)確率達(dá)98.52%,在全球首次突破人眼識別能力。目前,中國在計(jì)算機(jī)視覺方面的專利已躍居世界第一,占當(dāng)前全球?qū)@_數(shù)量的55%,并且增長勢頭強(qiáng)勁。
圖表25:計(jì)算機(jī)視覺專利數(shù)量分布(單位:%) 今年1月,百度研究院成立AR實(shí)驗(yàn)室,同時(shí)推出AR開放平臺DuMix供開發(fā)者及內(nèi)容創(chuàng)作者使用。在Baidu Create 2017上,百度發(fā)布全新DuMix AR開放平臺,提供基礎(chǔ)的AR技術(shù),包括AR SDK、內(nèi)容制作工具、云端內(nèi)容平臺和內(nèi)容分發(fā)服務(wù)4大部分:
圖表26:DuMix AR的能力特點(diǎn)和技術(shù)優(yōu)勢 未來,DuMix AR開放平臺將通過打通手機(jī)百度上內(nèi)容分發(fā)渠道,提供更多場景的AR行業(yè)解決方案,賦能各行各業(yè),共同探索AR價(jià)值。 總結(jié):人工智能仍在探索階段,各家技術(shù)方向并不完全趨同,又涉及整個(gè)產(chǎn)業(yè)鏈的融合能力,因此,最終落地形態(tài)和成熟的商業(yè)場景存在較大的不確定性。 |
|
|