AI圖片語音(yīn)描述功能,助力視障者“看”

2018-02-12

  劉彪正在使用(yòng)qq空間。(信息無障礙研究會供圖)

  好機友

  劉彪打開手機QQ空間,觸摸到好友發的(de)圖片。

  以前,他(tā)耳邊響起的(de)是讀屏提示音(yīn)“圖片”。現在,他(tā)聽(tīng)到了(le)更多(duō)内容——“圖片:一個(gè)長(cháng)發女(nǚ)孩在夕陽下(xià)的(de)照(zhào)片。”

  這(zhè)是新的(de)安卓版QQ空間客戶端基于人(rén)工智能技術推出的(de)“圖片語音(yīn)即時(shí)描述”功能。

  “這(zhè)個(gè)感覺很不一般。”劉彪是視障者,也(yě)是公益組織信息無障礙研究會的(de)技術主管。雖然語音(yīn)隻是描述出了(le)圖片的(de)主要信息,但對(duì)劉彪而言,體驗從此大(dà)不相同。“以前好友發圖,就隻能‘繞道’。現在知道他(tā)大(dà)概發了(le)什(shén)麽,還(hái)能在評論區(qū)互動一下(xià)。”在人(rén)工智能的(de)幫助下(xià),視障者成功地在圖片動态下(xià)刷了(le)把存在感。

  讓科技在社交場(chǎng)所落地

  很早之前,信息無障礙研究會就和(hé)QQ空間建立了(le)合作,協助他(tā)們進行軟件的(de)無障礙優化(huà)。

  所謂信息無障礙,簡單來(lái)講,就是讓包括視障者、聽(tīng)障者、讀寫障礙者在内的(de)所有用(yòng)戶,都能夠順暢使用(yòng)互聯網。它是互聯網世界裏的(de)無障礙設施,就好像馬路上的(de)盲道、地鐵站裏的(de)無障礙電梯。

  視障者,同樣也(yě)是互聯網産品的(de)用(yòng)戶。他(tā)們靠語音(yīn)輔助程序或讀屏軟件,讀新聞、點外賣、購(gòu)物(wù)、打車……

  以及社交。

  劉彪說,現在越來(lái)越多(duō)的(de)人(rén)喜歡曬圖和(hé)發小視頻(pín),但他(tā)們看不見,就隻能去問一句——你發了(le)什(shén)麽?“我們就跟QQ空間的(de)工程師反饋了(le)這(zhè)個(gè)痛點——如果圖片能識别出來(lái),那多(duō)酷。”

  QQ空間産品開發技術人(rén)員(yuán)告訴科技日報記者,目前QQ空間用(yòng)戶發表的(de)動态中,60%以上包含圖片。如果無法讀圖,對(duì)視障人(rén)群來(lái)講,确實是相當大(dà)的(de)信息缺失。雙方都覺得(de)這(zhè)個(gè)功能挺酷,于是說幹就幹,著(zhe)手優化(huà)。QQ空間也(yě)和(hé)騰訊人(rén)工智能團隊溝通(tōng),尋找科技解決方案。這(zhè)次的(de)圖片語音(yīn)即時(shí)描述功能,就用(yòng)到騰訊AI Lab的(de)技術。

  “騰訊AI Lab圖片描述生成技術一般都是基于編碼器—解碼器框架。這(zhè)一技術的(de)難點在于設計出能夠充分(fēn)理(lǐ)解圖像内容的(de)模型,進而将相應編碼的(de)圖像内容再‘翻譯’成自然語句。”騰訊AI Lab技術人(rén)員(yuán)解釋,這(zhè)樣的(de)模型不僅需要深度理(lǐ)解圖像,也(yě)需要理(lǐ)解自然語言,更重要的(de)是學習(xí)圖像與自然語言之間的(de)多(duō)模态交互關系。

  要真正落地,技術還(hái)要應對(duì)一大(dà)難題,那就是用(yòng)戶上傳的(de)圖片具有高(gāo)度多(duō)樣性。他(tā)們發星辰大(dà)海,也(yě)發生活中的(de)細枝末節。由于圖片題材廣泛,騰訊AI Lab技術人(rén)員(yuán)坦言,有時(shí)圖像的(de)自然語句描述不會特别精确。“這(zhè)需不斷積累數據,不斷提升算(suàn)法的(de)性能,兩者互相促進,提升算(suàn)法精确度。”

  爲無障礙錦上添花

  其實就在幾年前,對(duì)國内互聯網公司來(lái)說,“信息無障礙”還(hái)是個(gè)有些陌生的(de)概念。

  當時(shí),科技日報記者曾采訪現在的(de)信息無障礙産品聯盟秘書(shū)長(cháng)梁振宇。他(tā)表示,對(duì)互聯網産品團隊來(lái)說,每個(gè)問題都有優先級。“無障礙優化(huà)”這(zhè)一看起來(lái)有些小衆的(de)需求,有時(shí)就被放在了(le)一旁。

  “這(zhè)兩年,社會各界對(duì)信息無障礙的(de)關注都在提升。”劉彪介紹,信息無障礙研究會和(hé)百度、騰訊以及阿裏旗下(xià)的(de)多(duō)款産品都建立了(le)合作關系。至少,現在主流的(de)互聯網公司都知道何爲無障礙,有條件的(de),也(yě)願意爲此努力。

  QQ空間産品團隊就表示,在信息無障礙技術方面,手機QQ空間從2014年開始,持續在好友動态、消息、個(gè)人(rén)主頁等核心場(chǎng)景優化(huà)體驗,并把信息無障礙作爲每一個(gè)功能發布的(de)必備特性,堅持每個(gè)版本解決一些問題,并從内測階段即邀請視障用(yòng)戶參與産品測評,再根據反饋的(de)建議(yì)和(hé)意見,持續進行版本優化(huà)。“讓QQ空間更好地服務障礙用(yòng)戶,爲障礙者提供舒适的(de)社交體驗。”

  要做(zuò)到信息無障礙,其實并不需要前沿什(shén)麽技術。劉彪介紹,開發者了(le)解用(yòng)戶需求并按照(zhào)一定規範進行APP的(de)設計開發,産品就能實現“信息無障礙”,從而造福廣大(dà)視障用(yòng)戶。而人(rén)工智能,則可(kě)以錦上添花。

  “語音(yīn)輸入讓我們的(de)輸入效率變得(de)更高(gāo),OCR文字識别讓我們能夠‘認’出藥瓶上的(de)字。那些改變你們生活的(de)應用(yòng),也(yě)提高(gāo)了(le)我們的(de)生活質量。”劉彪也(yě)在用(yòng)智能音(yīn)箱等智能家居産品。“我們以前用(yòng)空調、洗衣機等家電時(shí),是靠記憶來(lái)按按鈕,有了(le)人(rén)工智能技術,可(kě)以進行語音(yīn)控制,也(yě)省去了(le)這(zhè)些麻煩。”他(tā)提醒道,“有些智能家居有手機APP操控功能,這(zhè)些APP也(yě)要注意進行無障礙優化(huà)。”

       來(lái)源:科技日報

在線咨詢
聯系電話(huà)

023-60555111 13983226612