當前位置: 每日小說 玄幻奇幻 重生學神有系統 第400章 不可逾越的高山

《重生學神有系統》 第400章 不可逾越的高山

江寒在網上搜索了一番,參考了一下同類件。

最後他決定,採用市場接度較高的免費下載、試用模式。

超過試用次數和時間後,只要花費58元RMB,購買註冊碼,就可以終使用。

件保護策略上,江寒毫不猶豫地啓了“壞蘋果2代”技

經過加後,“極OCR”的可執行文件,以及態鏈接庫等要害部位,堪稱堅不可摧。

江寒又用InstallShield Wizard,製作出一個1G大小的安裝包,然後掛到了大江網上。

上的事,至此全部搞定。

至於其他的事,全盤委託給老江和夏如冰就好……

江寒想了想,又訪問了一下佈置在地下機房裡的數據服務

過了這麼多天,他爲ISLVRC2013圖像識別挑戰賽,打造的深度CNN網絡,也終於完了訓練。

江寒將代碼中關於訓練的部分,暫時全部剔除,然後將驗證集數據加載進來,跑了一下。

結果還算不錯, top-1項目的識別正確率,達到了62.7%, top-5項目中,更是達到了85.4%的正確率。

所謂top-1,就是對於每張要分類的圖片,只允許給出唯一答案,對就對,錯就錯。

至於top-5,要求就比較寬鬆了,每張圖可以給出5種預測,有一個與標籤相同,就算分類正確。

現在這個績,已經相當接近去年的冠軍算法了。

但江寒怎麼可能就此滿足呢?

他深思考了一番,重新編寫了預測函數。

這一次,他使用了一個小技巧。

Advertisement

將待分類的圖片加載到存中之後,先進行預理。

從圖片的四個角,以及中間部分,依次進行矩形摳圖,這樣就得到了5張子圖片。

接下來,再對這5張子圖片,依次進行鏡像作,子圖片的總數就變了10。

最後再對這10張圖片,分別進行預測,再把10個結果的平均值,作爲網絡的最後輸出。

這可以有效地防止程序“發呆”,以得到更接近正確答案的預測。

不出所料,使用了這個技巧後,深度CNN在驗證集上的表現,果然改善了不

top-1上的正確率,足足提高了2%,在top-5上的正確率,也提高了1.84%。

不過,覺還有進一步提升的空間。

江寒思考了一下,又對訓練集圖片的RGB數值,做了PCA,也就是主分分析,並且對主分做了0.1標準差的高斯擾

這樣做的目的,是增加一些噪聲數據,以提高模型的泛化能力。

理完龐大的訓練集後,就可以讓網絡重新進行訓練了。

安排妥當這件事之後,江寒開始考慮學科等級的事

經過幾天的戰,他已經學完了化學、生兩科,在大學本科階段的全部專業課。

單論理論上的水平,超過了絕大多數相應科目的本科生、甚至碩士研究生。

江寒打開系統UI看了一眼。

學科等級面板上,數學、理、化學、生、信息學,這五個學科全都達到了高級。

其中,信息學的經驗條已經過半,距離下一個級別不遠了。

不過,工程、材料、能源三科,仍然沒有任何評級。

Advertisement

江寒思考了一下,決定在網上找一找這三個專業的教材,深地學習一番。

然而,他很快就發現了一個問題。

所謂的工程,到底是什麼工程呢?

工程也是工程,電子工程也是工程。

此外還有機械工程、信息工程、採礦工程、石油工程、建築工程……

不搜不知道,一搜嚇一跳,工程學這個總類裡,居然足足包括了21個小類,上百個專業!

然後是材料學。

化學材料、生材料、金屬材料、電工材料、材料理……

也是幾乎無所不包!

能源好一些,基本也就是引力能、熱能、生能、化學能、核能……

好吧,既然都是叉學科,那就叉著學唄。

江寒上網查找了一下,將所有涉及到這三科的書籍,彙總、整理了一下,列出了一張非常長的書單。

真的很長,足足有上千種書籍。

好在其中大多數,都能下載到PDF或者Ebook資源。

江寒將這些文件,全都用極OCR,轉換了txt加小圖片的格式,然後流發送到了虛擬空間中,並打印了出來。

也有部分資料,網上本下載不到,這種況,就只能郵購實書了。

江寒在各大網上書店裡,一頓狠淘,終於湊全了列表中的所有書籍。

至於花了多錢,他也沒仔細統計,大概估計下,怎麼也得幾萬RMB。

也就是本科階段的教材並不怎麼難買,很多專業很強的資料也都有中文版。

若是去亞馬遜海淘英文原版,估計再添一個0,可能都不怎麼夠……

※※※

有圖科技,件研發部。

Advertisement

藍嶄新再次主持會議。

與會的十來個人,全都陷了死一般的沉寂。

良久後,藍戰新嘆了口氣:“這件事問題不在咱們,你們開發的OCR件,已經是國領先的了……”

後面的話,他雖然沒說,可又有誰猜不到了?

那家大江科技,雖然立還不到一週……

然而,誰能想到這家公司手中,竟掌握著那麼厲害的OCR技呢?

王仁默然不語。

那個極OCR的能,實在太恐怖了一點,對於普通文本的識別正確率,竟然超過了98%!

這種技代差,真是讓人越想越渾無力。

外的同類件,沒有一個能與之競爭。

不誇張地說,這就是集被吊打,一點還手之力都沒有……

藍戰新忽然問:“王工,你們技部有沒有試一試,逆向一下極OCR?”

王仁苦著臉,回答說:“我們一發現這款產品,第一時間就下載並嘗試逆向了。”

代碼雖然不能抄,至也應該瞭解一下別人採用的算法……

王仁續道:“只可惜……試了很多辦法,全都失敗了。”

藍戰新有點意外。

王仁這些人的實力,他是十分清楚的,能難住他們的加手段,可謂之又

另一位同事搖了搖頭,說:“我們都懷疑,那是一種從來沒出現過的新加。”

藍戰新若有所思:“這樣啊……”

寂靜再一次籠罩了這個房間。

良久後。

“咱們接下來怎麼辦?”一名工程師問。

藍戰新思索了一下,嘆了口氣,說:“我先彙報一下,看看顧總怎麼說。”

十五分鐘後。

“我知道了……”

藍戰新掛了電話,掃視了在座的衆人一眼:“我先嚐試和大江的人聯繫一下,看有沒有達合作的可能。”

有圖的主要業務是賣件,爲了促進掃描儀的銷售,纔去研發配套的OCR件。

既然自家研發的OCR,能上比不上別人,那爭取合作、取長補短,也在理之中。

如果可以達獨家代理,那麼無論多錢,都一定要拿下來!

這是顧總的原話。

藍戰新看向王仁:“至於咱們研發部,還得繼續努力研發下一代產品。”

頓了頓:“至於目標……暫時先跟極OCR看齊吧!”

在場幾位技大拿的心頭,頓時覺沉甸甸的。

98%!

這個數字,就彷彿一座不可逾越的高山……

※※※

兩天後,深度CNN網絡再次完了訓練。

江寒重新跑了一次驗證集,這一次,錯誤率在原來的基礎上,又下降了1%以上。

top-1的正確率接近樂66%,而在top-5項目中,更是達到了驚人的88.8%!

江寒對這個績還算滿意,給這個網絡命名爲:“JiangNet -3”。

然後登錄ImageNet網,將最終的算法模型提了上去。

他沒有對代碼進行加,一個是賽事規則不允許,再一個也是沒有必要。

上去的代碼和數據,只包含網絡主架構、激活函數、預測函數,以及訓練得到的權重數據。

至於算法的核心部分,訓練函數、損失函數和梯度下降……一概予以刪除。

這樣的代碼,本沒有什麼可以抄的。

搞定了這件事後,江寒將目放在了書桌上。

從昨天開始,網購的實書就陸續快遞到了手中。

到了今天下午,終於到齊了。

看著那高高一堆,上百本書籍,他不有點頭疼。

看書不費力氣,一本一本慢慢看,兩、三個月怎麼也看完了。

但如果想加快學習進度,就得把這些實書,全都折騰到虛擬空間裡……

猜你喜歡

分享

複製如下連結,分享給好友、附近的人、Facebook的朋友吧!
複製鏈接

問題反饋

反饋類型
正在閱讀: