好未來AI背后的故事——教育OCR“4個9”的極限追求
2021-04-16
打開題拍拍,首先映入眼簾的是一幅拍照畫面。當(dāng)你將習(xí)題拍攝入框時,便可立即得到相匹配的題目解析。別看這個過程如此迅捷,背后的學(xué)問可不簡單。這個識別圖像里文字的技術(shù)叫作OCR,全稱是Optical Character Recognition,中文名為光學(xué)字符識別。
OCR這項技術(shù)其實并不新鮮,早在1929年德國科學(xué)家Tausheck便提出了OCR技術(shù)的概念。隨后在六七十年代世界各國就開展了系統(tǒng)的研究。但由于識別率和設(shè)備成本等問題,早期的OCR軟件一直離民用很遠。進入數(shù)字時代后,幫助機器理解物理世界成為了時代命題,OCR作為數(shù)字世界的眼睛,其重要性也在不斷提升,圍繞OCR的技術(shù)日新月異,但大多解決的仍是通用印刷體的識別問題。
教育場景需要的OCR技術(shù)有其特殊之處。學(xué)生將手機鏡頭對準(zhǔn)的,往往是一張卷子或者一頁練習(xí)冊。同時入框的不僅有多個習(xí)題,還會有很多學(xué)生答題的手寫筆跡,甚至還有混在一起的文字與公式(包括手寫算式)。如果沒有專為教育場景研究的OCR技術(shù),識別這些特殊場景中的文字往往是很難做到的。因此,好未來自研出了一套適合智慧教育的OCR技術(shù)。
從零到一 萬丈高樓平地起
好未來AI中臺成立伊始,就將教育OCR作為重點發(fā)力的研究領(lǐng)域之一。教育OCR包括印刷OCR、手寫OCR、公式OCR、表格OCR、版面結(jié)構(gòu)化識別等等。彼時,無論學(xué)術(shù)界還是教育行業(yè)內(nèi),都沒有成熟的公式識別方案。因此,好未來AI中臺將公式識別技術(shù)作為研究的重點,開始了從零向一摸索的過程。
好未來OCR技術(shù)應(yīng)用于教育場景的能力類型
公式識別具有鮮明的行業(yè)色彩和行業(yè)壁壘。
公式識別算法的基礎(chǔ)是數(shù)據(jù)。在這一方面,好未來多年的教育積累有了用武之地,各年級、各學(xué)科五花八門的真實習(xí)題為AI中臺提供了充足的數(shù)據(jù)“彈藥”。OCR團隊在短時間內(nèi)基于CRNN(卷積循環(huán)神經(jīng)網(wǎng)絡(luò),一個識別場景文字的常用方法),創(chuàng)新研發(fā)出能支持簡單公式的序列識別算法和基于公式字符分離的重建識別算法。這兩大能力,讓AI可以初步理解試卷上的公式和文字,而且可以像人腦一樣從左到右、從上到下地進行結(jié)構(gòu)化智能理解。
雖然這時的識別準(zhǔn)確率還有待提升,但標(biāo)志著算法研發(fā)進入了第二階段——探索印刷公式識別的最佳方案,提升準(zhǔn)確率。好未來吸收學(xué)術(shù)界的公式研究成果,在兩個月內(nèi)通過數(shù)百萬個數(shù)據(jù)驗證算法可行性,最終形成了有特色的算法框架,引入增強語義和避免漂移的網(wǎng)絡(luò)結(jié)構(gòu),并提升算法對模糊數(shù)據(jù)、多層嵌套數(shù)據(jù)的泛化性。經(jīng)過攻堅,此階段的印刷公式識別在學(xué)生拍照搜題的核心場景中得以應(yīng)用并大幅提升理科題目的搜索正確率。與此同時,好未來在教育場景的公式數(shù)據(jù)盲測中達到領(lǐng)先水平。
好未來公式識別的第三階段最具挑戰(zhàn)性。在學(xué)生實際使用中,還會出現(xiàn)手寫風(fēng)格不同、字跡潦草、隨意多行、字體大小不一和角度傾斜等各種問題,特別是低年級的學(xué)生手寫筆跡相比成年人還有顯著差異。
復(fù)雜的實際答題圖片好未來OCR依然能準(zhǔn)確識別
AI中臺與各業(yè)務(wù)線合作,為OCR提供了學(xué)生學(xué)習(xí)和作答的海量且真實的筆跡數(shù)據(jù),幫助算法實現(xiàn)數(shù)據(jù)從0到百萬的突破。同時,算法也積極開展多項創(chuàng)新,不僅實現(xiàn)多風(fēng)格數(shù)據(jù)遷移和增強,也在多行識別中取得技術(shù)突破并形成技術(shù)優(yōu)勢。
截至目前,好未來自研教育OCR已經(jīng)實現(xiàn)了通用公式識別,即適用印刷文字與手寫文字混合、多行文字與高級公式混合等復(fù)雜場景,很好地支持了題拍拍的印刷手寫一體化拍搜功能。
從90%到99.99% 行百里者半九十
解決了能力準(zhǔn)確性和多樣性的問題,還需要達成可用性——又要穩(wěn)定又要快。
先從“穩(wěn)定”講起。
在業(yè)內(nèi)有一句話:“搜索的準(zhǔn)確率每提升1%,所需的題庫成本就要以千萬計”。作為一家有18年教學(xué)經(jīng)驗和數(shù)據(jù)沉淀的科技教育公司,好未來將技術(shù)中臺與前臺業(yè)務(wù)相結(jié)合,使得技術(shù)人既能快速感知到用戶需求,又能得到大量教育數(shù)據(jù)的反哺,盡可能以技術(shù)和數(shù)據(jù)驅(qū)動降低成本。于是,AI中臺和題拍拍團隊聯(lián)合,挖掘可以為拍照搜題“提升1%”的每一個技術(shù)點。合作至今,教育OCR為這每一個“1%”展開了多項的技術(shù)專題攻堅,形成一系列的創(chuàng)新實踐并成功落地。教育OCR永遠保持對技術(shù)的追求,持續(xù)開拓新的技術(shù)能力,為智慧教育提供技術(shù)支撐。
AI中臺和題拍拍組成了高度協(xié)同的One team機制,雙方出專人專項每周一起研究前線最新問題,并制定最高標(biāo)準(zhǔn)的可用性推進目標(biāo)。雙方達成了一個有趣的“對賭協(xié)議”:在規(guī)定時間內(nèi),如果AI中臺每多實現(xiàn)一個9(即可用性從實現(xiàn)90%到99%、再到99.9%、99.99%……),則由題拍拍團隊提供“美食激勵”,反之則由AI中臺承擔(dān)。
雙方以高技術(shù)標(biāo)準(zhǔn)堅守教育初心,懷著創(chuàng)業(yè)的激情擼起袖子加油干,當(dāng)遇到難以解決的艱難問題時,在線會議常常從晚上七點不知不覺就開到了半夜兩三點。會議從公司到地鐵,再開到家中,地鐵的速度根本追不上每個參會者頭腦風(fēng)暴的速度。
然而當(dāng)99.99%可用性目標(biāo)實現(xiàn)的那一刻,投身其中的研發(fā)老師們反而沒有預(yù)想中的歡呼雀躍和狂歡慶祝,“大家互相看了看對方臉上的黑眼圈,腦子里想的是還有更多的技術(shù)挑戰(zhàn)等待去解決,這大概就是水到渠成吧。”一位項目組伙伴回想起那個時刻,平靜地說。
這是讓每個參與者都難忘的一段飛馳,非齊心協(xié)力的共創(chuàng)精神無以到達,如好未來的價值觀所言——為熱愛全力以赴。
千鈞一發(fā) 好產(chǎn)品不違人心
再來講講“快”。
為了盡可能為產(chǎn)品提速,算法的每一模塊都被單獨拎出來重構(gòu)提速,資源占用優(yōu)化提升了百分之三十五。好未來AI中臺的技術(shù)人用一周時間便做到了算法層面的毫秒級響應(yīng)。也就是說,如果題庫中已收錄,學(xué)生最慢也可以在一秒以內(nèi)獲得滿意的解答。
好未來的另一條很重要的價值觀是:“一切從用戶出發(fā)”。產(chǎn)品好不好,歸根結(jié)底還是要看能否經(jīng)得起用戶的考驗。
一位媽媽講述了她的真實故事。
最開始,這位母親下載了市面上許多拍照搜題類軟件,但是一個月后,她只留下了題拍拍。這是因為她發(fā)現(xiàn),別的拍照搜題的app在搜索整張卷子的題目時,框選每道題的位置都需要手動二次調(diào)整校準(zhǔn),而題拍拍可以精準(zhǔn)框選并直接生成每道題的解析,這一個小小的技術(shù)精進卻幫助這位母親節(jié)省了大量輔導(dǎo)孩子的時間。
這一位用戶的最終選擇,離不開好未來產(chǎn)研人對技術(shù)和體驗的極致追求。
自動分割框選出不同試題
題拍拍是AI中臺的一段征程,AI中臺已將其中“久經(jīng)考驗“的教育OCR技術(shù)形成Hawkeye教育通用OCR解決方案,涵蓋中英文識別和公式識別,支持手寫和印刷,并將支持表格識別和重建還原,服務(wù)于中英文作文批改、題庫試卷錄入等更多業(yè)務(wù)場景。據(jù)悉,Hawkeye解決方案在印刷體識別、手寫體識別、公式識別、表格識別、整頁框選、綜合識別的六大核心能力指標(biāo)里,已全部處于市場領(lǐng)先水平。
開放共創(chuàng) 智慧教育全速啟航
好未來不斷投入對教育OCR的研究,也吸引著學(xué)術(shù)屆、技術(shù)圈對教育領(lǐng)域OCR技術(shù)的重視。2020年9月,好未來就以“教育手寫公式識別”為賽題,依托智慧教育國家新一代人工智能開放創(chuàng)新平臺,聯(lián)合科技部火炬高技術(shù)產(chǎn)業(yè)開發(fā)中心、北京市科學(xué)技術(shù)委員會,舉辦了“第五屆中國創(chuàng)新挑戰(zhàn)賽·智慧教育專題賽”。
賽事吸引了來自清華、北大、中科大等高校,阿里、百度等互聯(lián)網(wǎng)企業(yè),以及中科院計算所、中科院自動化所等研究院所約數(shù)百支隊伍參賽,參賽隊伍人才濟濟,涵蓋國際賽事的冠軍團隊、中國圖形圖象學(xué)學(xué)會(CSIG)常務(wù)理事及專委會主任等眾多專業(yè)選手與優(yōu)秀的OCR團隊。
比賽中,好未來為業(yè)界提供了20萬張各教育場景下的手寫公式訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),以遠超各個開源學(xué)術(shù)數(shù)據(jù)集的數(shù)據(jù)體量和復(fù)雜性,為參賽團隊提供了充足的“彈藥”,助推行業(yè)伙伴共同碰撞出手寫公式識別技術(shù)新的發(fā)展方向。
同時,好未來依托正在承建的智慧教育國家新一代人工智能開放創(chuàng)新平臺,將優(yōu)秀的教育OCR能力逐步面向全行業(yè)開放,幫助教育行業(yè)內(nèi)暫時沒有AI、沒有OCR能力的機構(gòu)和創(chuàng)業(yè)者快速發(fā)展。
而這只是故事的開始。在向極致攀登的路上,挑戰(zhàn)只會更多,沒有捷徑。愛和科技,終將指引我們抵達教育事業(yè)的星辰大海。