云知聲億元融資后發(fā)力計算機語義理解
近日,F(xiàn)acebook單獨組建了一個新的人工智能部門,其研究目的是將人們分享的內(nèi)容聯(lián)系起來,從而使得Facebook可以對用戶提出的問題做出更深入的回答。往前追溯,2012年5月,Google推出知識圖譜(Knowledge Graph),可以將搜索結(jié)果進(jìn)行知識系統(tǒng)化,任何一個關(guān)鍵詞都能獲得完整的知識體系;2012年9月份,國內(nèi)搜索公司搜狗和百度分別推出知立方和實體搜索,意圖構(gòu)建中文的互聯(lián)網(wǎng)知識圖譜;2011年,IBM推出知識問答系統(tǒng)Watson,并在智力問答比賽中成功戰(zhàn)勝了兩位人類選手;2010年10月蘋果隨iPhone 4S的發(fā)布推出了智能語音助手Siri。
這些巨頭的意圖,是對互聯(lián)網(wǎng)大量無序數(shù)據(jù)做結(jié)構(gòu)化重組,目的是更好的理解用戶的自然語言和行為,并且其背后都使用了一個共同的技術(shù):語義理解技術(shù)。
你不可不知的語義理解
語義就是自然語言文本的涵義。對計算機來說,就是當(dāng)計算機遇到這個文本輸入的時候,應(yīng)該進(jìn)行的回答或響應(yīng)。例如,當(dāng)用戶問“北京明天什么天氣”,計算機能夠理解這句話的意圖是問天氣信息,且城市是北京,時間是明天,從而執(zhí)行的操作是從特定數(shù)據(jù)源中查詢到北京明天的天氣信息并呈現(xiàn)給用戶。語義理解讓計算機聽懂用戶說了什么,并進(jìn)一步回答用戶的問題或與用戶對話。語義技術(shù)可以讓搜索引擎通過推理獲得答案,已經(jīng)被業(yè)界公認(rèn)為是搜索的未來,也同時是人機交互的未來。語義技術(shù)的重要性已經(jīng)在工業(yè)界得到了廣泛的認(rèn)可。今年3月份,Gartner就發(fā)布了一份報告,認(rèn)為語義技術(shù)在2013年及以后的信息管理領(lǐng)域十大重要技術(shù)中列第三位。
對普通用戶來說,語義技術(shù)會給我們的日常生活帶來什么新的體驗?zāi)亍W顬槌R姷姆绞绞钦Z義技術(shù)和語音技術(shù)的結(jié)合,它創(chuàng)造了一種更為自然和智能的交互方式。以今年11月1日“去哪兒”推出的新版移動客戶端為例,它包含了一個語音搜索的新功能,用戶可以直接用自然語音來查詢機票酒店,不需要通過文字輸入或下拉選擇等交互方式來輸入查詢獲取信息,確實很方便。這是最近語義技術(shù)在移動互聯(lián)網(wǎng)應(yīng)用中一個非常有代表性的嘗試。
語義技術(shù)比較適合的應(yīng)用類型至少有兩種:一是操控類的應(yīng)用,通過語音可以直接發(fā)出指令,如語音撥號,發(fā)短信等;二是信息查詢類的應(yīng)用,特別是查詢條件比較多的情況,傳統(tǒng)的交互方式需要用戶用文字輸入很多查詢條件,這對用戶來說很繁瑣。而語義的交互方式可以讓用戶通過一句話或者多回合的對話方式獲取其所要的信息。從應(yīng)用場景來說,語義技術(shù)與語音識別相結(jié)合在下面三種場景是可以非常有效地解決用戶交互的問題:1)不方便使用雙手的車載設(shè)備;2)在環(huán)境相對私密的家庭中的智能家電家居,如樂視的超級電視語音助手; 3)只有小尺寸屏幕或沒有屏幕的可穿戴設(shè)備中,如智能手表、智能手環(huán)。
語音時代,沒語義,不智能
語義技術(shù)因其專業(yè)性和復(fù)雜性,目前主要掌握在一些專業(yè)公司手中。對普通開發(fā)者來說,要想利用語義技術(shù)簡化操作和提升用戶體驗,從頭開始學(xué)習(xí)和開發(fā)語義技術(shù),并不是一件容易的事情。所幸的是,國內(nèi)一些公司陸續(xù)以公有服務(wù)的方式提供語義解析服務(wù),一般稱之為“語義云”,這大大降低了開發(fā)者使用語義技術(shù)的門檻。目前,科大訊飛和北京云知聲先后推出了各自的公有語義服務(wù)。
科大訊飛是國內(nèi)著名的語音技術(shù)公司。其語義服務(wù)主要是把語音助手中需要的一些語義理解功能開放成API,主要功能是對某些領(lǐng)域的輸入文本,返回經(jīng)語義解析后的結(jié)果,解析結(jié)果是XML格式。科大訊飛的語義服務(wù)開放了16個領(lǐng)域,開發(fā)者能選擇最多5個領(lǐng)域測試。如果需要使用更多領(lǐng)域,是否免費還未知。
北京云知聲是最近崛起的新興語音技術(shù)公司,定位為B2B2C,用互聯(lián)網(wǎng)的方式切入市場。其語義服務(wù)總體設(shè)計和科大訊飛的語義云類似,提供了一些常見領(lǐng)域的語義解析功能,解析結(jié)果是JSON格式。云知聲的語義服務(wù)目前支持30多個領(lǐng)域,且全部領(lǐng)域都可以自由選擇。另外,云知聲語義服務(wù)的一個特點是,其部分領(lǐng)域不僅僅只是返回語義解析結(jié)果,還能返回該問題對應(yīng)的結(jié)果數(shù)據(jù),如天氣和股票等;同時部分領(lǐng)域還支持上下文理解和對話,如航班等生活信息領(lǐng)域。
開發(fā)者盡享語義技術(shù)紅利
對開發(fā)者來說,以上兩家公司的語義服務(wù)都可以嘗試,但開發(fā)者在選擇語義服務(wù)時,需要更多的權(quán)衡。因為語義解析是和業(yè)務(wù)領(lǐng)域相關(guān)的,而且各個語義服務(wù)返回的數(shù)據(jù)格式都不一致,所以選定了一家服務(wù)商,今后如果要更換,并不像語音云那么容易。筆者認(rèn)為在選擇時有兩個因素是需要重點考察的,一是語義解析的準(zhǔn)確率,由于語義與領(lǐng)域相關(guān)性很大,公共服務(wù)是否與開發(fā)者的應(yīng)用場景契合,會比較大的影響準(zhǔn)確率,所以需要由開發(fā)者自己來比較。另外,在準(zhǔn)確率方面,同時能提供語音云和語義服務(wù)的公司會更有優(yōu)勢。因為語義理解要處理的大部分文本是語音識別的結(jié)果,沒有語音識別技術(shù)則無法對特定領(lǐng)域做語音識別的優(yōu)化,而如果語音識別結(jié)果錯誤率在特定領(lǐng)域變高的話,必然會導(dǎo)致語義理解結(jié)果變差。 二是開放程度,供應(yīng)商面向自己和面向其他開發(fā)者提供的是否是一致的服務(wù)。如果供應(yīng)商自己的應(yīng)用與開發(fā)者有競爭關(guān)系,那語義服務(wù)的開放程度肯定會有所保留。
總的來說,語義技術(shù)的出現(xiàn),特別是語義技術(shù)和語音技術(shù)的結(jié)合為移動互聯(lián)網(wǎng)應(yīng)用提供了一種全新的交互方式。同時公有語義服務(wù)的推出大大降低了移動開發(fā)者使用語義技術(shù)的門檻。移動開發(fā)者可以抓住這個機會,在交互方式上進(jìn)行新的嘗試和突破,快人一步,也就意味著更快的成功。■
關(guān)注我們


