搜狗聽寫,現(xiàn)在是錄音筆硬件的“操作系統(tǒng)”了
本文經AI新媒體量子位(公眾號 ID: QbitAI)授權轉載,轉載請聯(lián)系出處。
本文引用地址:http://www.ex-cimer.com/article/201908/404248.htmGoogle把安卓做成了操作系統(tǒng),讓其他手機廠商也能用這樣的系統(tǒng),融入安卓的生態(tài)。
微軟把Windows做成了操作系統(tǒng),讓各種PC廠商都能接入,融入Windows生態(tài)。
搜狗也要這樣做了。
在手機和PC之外,搜狗瞄準了錄音筆這個硬件行業(yè),并正式將搜狗聽寫能力開放給業(yè)界,萬城集團、索尼、愛國者、紐曼是第一批吃螃蟹的合作伙伴。
也就是說,日后如果你購買搜狗和這四家廠商中任意一家接入了搜狗聽寫能力的錄音筆硬件產品,都可以使用同樣的交互方式來使用它,并且都可以借助搜狗聽寫能力,實現(xiàn)語音轉文字、同聲傳譯、文本編輯能功能。
并且,對于這幾家廠商來說,也不需要專門做適配,而是可以直接實現(xiàn)自動適配了。
這幾乎等于一個操作系統(tǒng)了。
打通搜狗輸入法,還能在線編輯
這個操作系統(tǒng)的具體功能,主要包括以下幾項:
語音轉寫:語音轉成文字,識別準確率95%。背后搜狗的語音識別技術訪問量達到了每日6億次。
搜狗輸入法:接入搜狗輸入法,以及背后的用戶賬號,用戶在輸入法中常用的個性化詞庫也可以用在語音識別里,常用的專業(yè)詞匯、人名地名都可以被識別。
多端同步編輯:無論在PC、安卓還是iOS上,用戶都可以同步錄音和轉寫的文字,進行編輯。由于配備了聲紋識別能力,轉寫的文字可以自動區(qū)分出說話人的角色,而不是直接呈現(xiàn)沒有人物區(qū)分、不分段的一大片文字。另外,如果有轉寫不確定的部分,搜狗聽寫服務會提供多個可能的詞匯備選,不用手動一個字一個字的人工刪改。
云存儲服務:用戶的錄音和轉寫都能保存在云端。
接入手機、PC端
除了錄音筆之外,在移動端和PC端也可以使用搜狗聽寫服務。
手機端的搜狗錄音助手App,就介入了轉寫同傳能力,面向藍牙協(xié)議開放。
而在PC端,即使是沒有接入搜狗聽寫的的錄音筆,如果連到電腦的USB接口上,用戶也可以用PC端的搜狗輸入法管理錄音筆中的錄音,提供轉寫服務。
而且,當連接到PC時,由于打開時使用的是你自己的搜狗輸入法賬號,像朋友的名字、行業(yè)詞匯、喜歡的動漫主角這些特殊詞匯都存儲在自己的賬號里,因此轉錄的時候,轉錄結果也會貼近你的詞庫。
舉個例子說,如果你是《長安十二時辰》的粉絲,平常使用輸入法有寫過劇中的相關詞匯,語音轉文字的時候,AI系統(tǒng)就能夠聽出“伏火雷”;
如果你是是機器學習研究者,那么你一定經常使用輸入法寫相關的技術名詞,語音轉文字的時候,系統(tǒng)就可以分辨出“卷積神經網絡”。
因此,即使是同一段錄音,由不同人的賬戶來轉寫,得到的結果可能也是不同的。
另外,語音轉文字的速度也有保證,一個小時的錄音,大約要5分鐘就能轉寫完。
開放服務,而非技術
在開放搜狗聽寫能力的發(fā)布會上,搜狗與萬城集團、索尼、愛國者、紐曼成立了“AI創(chuàng)新聯(lián)盟”。在搜狗CTO楊洪濤看來,錄音筆這個產品,單純提供錄音功能,20年來都沒有改進,而用戶拿到錄音后去聽、去記的過程,更是繁瑣的很。
因此,借助語音識別技術,結合搜狗輸入法,提供更豐富的服務,可以突破錄音筆這個行業(yè)的天花板,在企業(yè)會議、學習培訓、媒體采訪、寫作記事等領域充分提供服務。
簡單來說,原來你覺得整理錄音太麻煩,還不如現(xiàn)場記,因此不會購買錄音筆;但如果整理錄音的過程變簡單,能讓你更方便的整理老板在會上的講話、老師在課上講的知識點,或者直接用語音輸入來寫作,這樣,你就會選擇入手一支錄音筆。
行業(yè)的天花板,被升高了。
不過,讓合作伙伴的產品也能用上搜狗的聽寫能力,為什么不選擇直接做一個開發(fā)者平臺,讓全部的開發(fā)者都能接入API來實現(xiàn)呢?
“開放的是服務,不是技術”,楊洪濤這樣說。
在他看來,市面上的語音識別API已經相當多了,搜狗不希望再去做一個開放平臺,而是利用搜狗的優(yōu)勢,提供具備產業(yè)價值和商業(yè)價值的服務。
而這,也是搜狗將聽寫服務與搜狗輸入法中的用戶定制詞庫連接起來的原因。
最后,除了聽寫能力之外,搜狗公司AI交互技術中心總經理王硯峰表示,未來搜狗的AI分身、變聲、同傳等在行業(yè)內有競爭力的、能提供完整服務體驗的能力都會逐步開放。
評論