第四十四章 超級視頻壓縮
字數:4734 加入書籤
畢竟,王一男和陳子豪冒著生命危險,弄到了七十四塊采用牙膏廠最新工藝的專用cpu,其中六十四塊,正在機櫃裏麵拚命幹活呢,當然,王一男也不算吃虧,他還順帶泡到了妹子不是。
哥德爾係統的超級計算能力這次總算派上了用場。
王一男選擇的視頻源的規格是標準的1080p,也就是1920 x 1080 的分辨率,h265的碼率大概是h264的50%左右,也就是5000kbps,大概不到0.7m字節每秒。
作為一個比較,普通家用寬帶,如果采用adsl線路的話,基本上是1mbps 或者2mbps,大概140k或者280k字節每秒,離h265標準要求的800k字節每秒差得還比較遠,所以在ads80p的h265視頻的,更不要說帶寬要求更高的h264了。
所以adsl用戶隻能下載視頻文件之後,離線觀看高清影片,當然光纖到戶之後,接入10mbps或者20mbps的帶寬,就可以支持在線觀看1080p視頻的需求了。
如果是立體的視頻,那麽左眼和右眼都是單獨的視頻流,這樣帶寬需求增加一倍,如果是全景視頻,那麽雖然人眼看到的範圍比較小,但是不能等眼睛轉過去之後,再傳送要看到的部分啊,那樣的體驗就太差了,所以全景視頻需要同時傳送所有角度的視頻數據,這樣至少又是三倍以上的帶寬開銷。
立體加上全景,就是通常說的vr,帶來了至少六倍普通高清的帶寬要求,這也是目前vr直播炒的火熱,但是基本體驗不到的根本原因,因為不要說家庭了,一般公司的辦公網絡都沒有這麽高的帶寬。
整個視頻的長度大概是十五分鍾,哥德爾係統的神經網絡隻花了不到二十秒就完成了壓縮過程,“不會吧”,王一男有點不相信自己的眼睛,“這麽快的速度,不會是出現了 bug 吧”,
這種情況也不罕見,神經網絡訓練過程中如果沒有收斂的話,是很有可能造成無效的數據處理過程的,也就是說,壓縮的數據裏麵啥都沒有,隻是一些隨機噪聲。
王一男看了一眼最後生成數據的大小,150m,也就說,哥德爾係統的神經網絡壓縮算法,壓縮效率是h265的接近五倍,壓縮和解壓縮的速度暫時還不知道,因為畢竟是超級電腦,實際的速度要看編譯成指令之後的執行結果。
“不會吧”,王一男被這個大小嚇傻了,150m的大小,可以存放差不多1000秒的1080p視頻內容,也就是說,碼率150k字節每秒,這已經很接近家用adsk最大數據傳輸速率了。
換句話說,在普通的最lo 的寬帶上,如果使用哥德爾係統的神經網絡視頻壓縮算法,稍加優化,或者降低一點點質量,就可以實現1080p的全高清視頻直播了。
再換句話說,網紅用戶,使用4g進行直播的時候,現在隻能播放480p的直播內容,而使用了王一男的神經網絡壓縮算法,就可以實現全高清的手機直播,當然,這對網紅的顏值也提出了更高的要求,畢竟,臉上一個小痘痘在直播中都會被觀眾看的清清楚楚。
“冷靜,冷靜”,王一男不斷的提醒自己,還需要看看能不能還原出視頻來,這種笑話又不是沒發生過,曾經有一家公司,號稱不論對於任何數據,都可以壓縮到原始大小的一百分之一,而且還假模假樣的出了一個程序,確實可以把任何文件壓縮到原始大小的百分之一。
一開始,人們都驚為天人,不過細細一想不對啊,這是違反基本科學規律的,再後來,大夥發現這程序是能夠壓縮,但是沒法還原啊,結果你猜怎麽著,人家公司說,我程序的說明就是這樣寫的,可以壓縮到原始大小的百分之一,可沒有保證能還原!
要是哥德爾係統給王一男來這麽一手,那可就要哭了,不過真那樣,我估計王一男也顧不上哭,趕緊把哥德爾係統砸了才對,這種成精的人工智能,還是砸了放心啊。
王一男將壓縮後150m大小的視頻文件輸入到反向神經網絡中,這個視頻文件的格式可是完全自定義的,而且估計每段視頻都不一樣,隻有哥德爾係統或者等價的llvm代碼可以識別。
“這以後可就麻煩了,視頻壓縮完全沒有格式和規範啊,神經網絡選擇最高效的方式,想怎麽壓縮就怎麽壓縮,反正隻要自己認得就行了,說不定隻有傳說中四維空間模型,才能解釋神經網絡內部的壓縮機製”。
王一男正有一搭沒一搭的想著呢,“嗶嗶”的蜂鳴聲又響了起來,看了看時間,解壓縮的時間還不到十秒,這也是正常的,任何壓縮算法理論上都會比解壓縮算法耗費時間。
不過這個時間的比例也超乎王一男的意料,因為按照h264或者h265的經驗來看,壓縮所需要的計算能力至少是解壓縮的十倍以上,也就是說,在同樣的硬件下,如果是和h264、h265類似的算法,解壓縮的時間應該在兩秒左右。
“看來哥德爾係統的壓縮算法跟現有體係完全不同,不過,在這個領域跟圍棋一樣,機器也已經遠遠超過人了,至少,人設想的最好算法比神經網絡差了五倍以上”,
“隻不過,人類永遠也無法理解哥德爾係統的算法啊”,王一男感慨了一番,
“理解不了沒關係,能複製就行了,我真的是個天才,居然想到功能複製這一招,就是不知道米歌的狗狗讓不讓人去複製一把”。
高興歸高興,王一男還是沒忘記最後一步,他讓哥德爾係統按照每秒三十幀的速度在屏幕上回放解壓縮出來的圖像序列,王一男抽幾段看了一會,至少肉眼看不出來跟原始的片源有什麽差別。
不過光主觀感受沒用,還是需要數據說話,王一男運行了一個開源的psnr評價程序,也就是對原始圖像和壓縮/解壓縮之後的圖像,比較峰值信噪比,但是讓王一男意外的事情發生了,
峰值信噪比的差異非常大,也就說是,評價程序認為前後兩幅圖像的差異非常大,甚至比h265 降低一倍碼率之後壓縮成h264的差異還要大。
但是這和王一男的主觀感受是完全相反的,王一男也看過降低一半碼率的h264視頻,那整個畫麵的質量下降非常明顯,什麽模糊、毛刺都出現了,但是現在的視頻流,王一男感覺不到圖像有任何生硬的地方。
問題出在哪裏呢,應該說,王一男對自己的眼力還是有很強信心的,要知道,當年看波多女士的片子,王一男可是連碼率500k還是碼率550k壓製都能分的出來。
看起來,問題隻可能出在psnr算法了,因為圖像主觀上如果有一些結構的小變化,或者整體的位移等等,是不會影響視頻的整體主觀感覺的,但是psnr看起來,誤差就非常大了。
王一男立刻查閱了相關文獻,果然,網上對psnr算法的吐槽聲一片,在開源的機器視覺網站,王一男找到了最新的複小波結構相似性指標算法,從多方文獻來看,這應該是和主觀性評測符合的最好的機器視覺檢測指標了。
王一男下載了最新的複小波結構相似性指標算法代碼,重新對解壓縮之後的圖像序列進行了評估,
結果也不出預料,整體的差異性指標非常低,甚至可以忽略,這和王一男的主觀感覺也是一致的。
王一男跑到洗手間,用冷水好好衝了把臉,才讓激動的情緒稍微平複了一些,在1m的ads80p的高清視頻,或者,在普通的10m,20m家用光纖寬帶條件下,觀看立體加上全景三百六十度的實時直播,這意味著什麽?
這不僅僅是視頻壓縮技術的突破,甚至有可能帶來整個視頻娛樂行業的變革!
現在隻剩下唯一的一個問題了,編譯神經網絡到llvm的ir代碼(機器無關中間層表示)是不是可行,還有,llvm的ir代碼所生成的指令,能達到什麽樣的性能水平?
達到哥德爾係統這樣的程度就不用想了,如果達到實時解壓縮,就是解壓縮的速度跟得上網絡傳輸的速度,那就不得了了,
如果不小心達到實時壓縮,就是壓縮的速度跟得上實際畫麵的速度,那就是不得了的平方了!
王一男好好睡了一覺,然後把自己收拾整齊,去找周慧吃了頓大餐,嗯,據說盤古八星的自助餐不錯,還能看到我大帝都的景色,雖然王一男對太陽國的料理不怎麽感興趣,還是去美美的吃了一頓。
接下來,王一男再次開始了閉關,算法的性能得到證實之後,動力也完全不一樣了,神經網絡編譯係統,這種大殺器,想想都讓人興奮。
編譯出來的代碼,能運行起來嗎?
龐大的神經網絡,能夠壓縮到普通pc或者手機的存儲器裏麵嗎?
運行起來的代碼,效率足夠嗎,能達到實時解壓縮,還是實時壓縮呢?
或者,所有想法都太樂觀,壓根慢的像蝸牛一樣?
(www.101novel.com)