特效視頻製作軟件app(特效怎麼做)
特效視頻製作軟件app(特效怎麼做)西瓜視頻穩定性治理體係建設二:Raphael 原理及實踐
摘要
Raphael [1]是西瓜視頻基礎技術團隊開發的一款 native 內存泄漏檢測工具,廣泛用於字節跳動旗下各大 App 的 native 內存泄漏治理,收益顯著。工具現已開源,本文將通過原理、方案和實踐來剖析 Raphael 的相關細節。
背景Android 平台上的內存問題一直是性能優化和穩定性治理的焦點和痛點,Java 堆內存因為有比較成熟的工具和方法論,加上 hprof 快照作為補充,定位和治理都很方便。而 native 內存問題一直缺乏穩定、高效的工具,僅有的 malloc debug [6]不僅性能和穩定性難以滿足需要,還存在 Android 版本兼容的問題。
現狀事實上,native 內存泄漏治理一直不乏優秀的工具,已知的可用於調查 native 內存泄漏問題的工具主要有:LeakTracer、MTrace、MemWatch、Valgrind-memcheck、TCMalloc、LeakSanitizer 等。但由於 Android 平台的特殊性,這些工具要麼不兼容,要麼接入成本過高,很難在 Android 平台上落地。這些工具的原理基本都是:先代理內存分配/釋放相關的函數(如:malloc/calloc/realloc/memalign/free),再通過 unwind 回溯調用堆棧,最後借助緩存管理過濾出未釋放的內存分配記錄。因此,這些工具的主要差異也就體現在代理實現、棧回溯和緩存管理三個方麵。根據這些工具代理實現的差異,大致可以分為 hook 和 LD_PRELOAD 兩大類,典型的如 malloc debug [5] 和 LeakTracer。

malloc debug
malloc debug 是 Android 係統自帶的內存調試工具(官方 Native 內存調試 有相關介紹 ) ,雖然沒有額外的接入代碼,但開啟方式和核心功能等都受 Android 版本限製。

我們在線下嚐試使用 malloc debug 監控西瓜視頻 App(配置 wrap.sh)時發現,正常啟動時間小於 1s 的機型(Pixel 2 & Android 10),其冷啟動時間被拉長到了 11s+。而er且qie在zai正zheng常chang使shi用yong過guo程cheng中zhong滑hua動dong時shi的de卡ka頓dun感gan非fei常chang明ming顯xian,頁ye麵mian切qie換huan時shi耗hao時shi難nan以yi接jie受shou,監jian控kong過guo程cheng中zhong應ying用yong的de使shi用yong體ti驗yan極ji差cha。不bu僅jin如ru此ci,西xi瓜gua視shi頻pin在zai malloc debug 監控過程中還會遇到必現的棧回溯 crash(堆棧如下,《libunwind llvm 編年史》[8] 有相關分析)。
LeakTracerLeakTracer 是另一個比較知名的內存泄漏監控工具,其原理是:通過 LD_PRELOAD 機製搶先加載一個定義了 malloc/calloc/realloc/memalign/free 等同名函數的代理庫,這樣就全局代理了應用層內存的分配和釋放,通過 unwind 回溯調用棧並過濾出疑似的內存泄漏信息。Android 平台上的 LD_PRELOAD 是被嚴格限製的,因為其沒有獨立的 unwind 實現,依賴係統的 unwind 能力,也會遇到 malloc debug 遇到的棧幀兼容問題;如果把 LeakTracer 集成到目標 so 裏通過 override 方式實現代理,隻能攔截到本 so 裏顯式的內存分配/釋放,無法攔截到其他 so 和跨 so 調用的內存分配/釋放。通過 native 插樁的方式也是如此,隻能監控局部單純的內存泄漏,無法全局監控內存使用。
綜合以上分析和接入體驗,我們不難發現,這些內存泄漏監控工具在 Android 平台上實際接入時基本都存在以下三個比較典型的問題:
流程繁瑣:需要配置 wrap.sh/root permission/setprop 等,受 Android 版本限製兼容問題:unwind 庫存在嚴重的兼容性問題,libunwind_llvm 無法正確回溯 GNU 編譯的棧幀性能問題:官方的 malloc debug 性能數據是損失 10 倍以上,實測西瓜開啟後在中高端機上不可用我們的需求西瓜視頻 App 是一個彙集了視頻播放、特效拍攝、視頻剪輯輯、P2P 加速等 native 代碼非常多的中大型應用,每個 native 代碼相關的模塊背後都有一個專業團隊在高速迭代,加上日人均使用時長超過 100 分鍾的影響,西瓜視頻 App 的 native 內nei存cun問wen題ti治zhi理li難nan度du非fei常chang大da。事shi實shi上shang,單dan純chun的de內nei存cun泄xie漏lou問wen題ti相xiang對dui較jiao少shao,更geng多duo的de是shi因yin為wei業ye務wu邏luo輯ji不bu合he理li帶dai來lai的de內nei存cun使shi用yong問wen題ti,需xu要yao工gong具ju滲shen透tou到dao App 運行的過程中進行監控,無形中提高了對工具性能和穩定性的要求。
線上 native 內存問題基本都是以虛擬內存觸頂的形式暴露出來的。在西瓜視頻 App 裏,虛擬內存的消耗除了上述幾大模塊外,還有其他幾個消耗大戶,如線程、webview、Flutter、硬件加速、顯存等。事實上,malloc/calloc/realloc/memalign 等相對於 mmap/mmap64 直zhi接jie分fen配pei出chu的de內nei存cun在zai整zheng個ge虛xu擬ni內nei存cun空kong間jian中zhong通tong常chang占zhan比bi比bi較jiao小xiao。因yin為wei內nei存cun問wen題ti通tong常chang以yi虛xu擬ni內nei存cun耗hao盡jin的de形xing式shi表biao現xian出chu來lai,隻zhi有you盡jin可ke能neng多duo的de收shou集ji各ge種zhong內nei存cun消xiao耗hao來lai無wu限xian逼bi近jin虛xu擬ni內nei存cun上shang限xian,才cai能neng準zhun確que找zhao出chu虛xu擬ni內nei存cun耗hao盡jin的de原yuan因yin。因yin此ci,像xiang malloc debug 這樣隻監控 malloc/calloc/realloc/memalign/free 等根本無法滿足內存治理需要,覆蓋 mmap/mmap64/munmap 等盡可能多的內存分配形式是監控工具必須要做的。
綜合上麵的分析可以得出,西瓜視頻 App 乃至整個字節跳動旗下其他 App, 對於一個通用的 native 內存泄漏監控工具的訴求主要有以下幾個方麵:
接入層麵:不依賴 Android 版本,無需 root,對業務滲透盡可能低穩定性:不存在影響業務的穩定性問題,可以滿足線上使用的訴求性能層麵:沒有明顯的性能問題,達到可線上使用的標準監控範圍:不局限於 malloc/calloc/realloc/memalign/free,至少還能覆蓋 mmap/mmap64/munmapRaphael 核心設計通過前麵的分析可以知道,一個完整的 native 內存泄漏監控工具主要包含三部分:代理實現、棧回溯和緩存管理。代理實現是解決 Android 平ping台tai上shang接jie入ru問wen題ti的de關guan鍵jian,棧zhan回hui溯su是shi性xing能neng和he穩wen定ding性xing的de核he心xin,緩huan存cun邏luo輯ji在zai一yi定ding程cheng度du上shang也ye會hui直zhi接jie影ying響xiang性xing能neng和he穩wen定ding性xing。接jie下xia來lai我wo們men會hui從cong四si個ge方fang麵mian介jie紹shao Raphael 的核心設計。
代理實現鑒於 wrap.sh 和 LD_PRELOAD 在 Android 平台上不具有通用性,首先被排除。又因 malloc hook 隻能代理 malloc/calloc/realloc/free,無法覆蓋 mmap/mmap64/munmap,也被放棄。但受 malloc hook 實現方式的啟發,借助於 inline hook / PLT hook 工具我們可以實現同樣的代理效果,這其中比較有代表性的工具主要有 Android-Inline-Hook[3] 和 xHook[1]。

xHook 是比較優秀的 PLT hook 工具代表,其穩定性可以達到上線標準。因其實現依賴正則,同時 hook 的 so 或函數比較多時,hook 耗時會比較明顯。此外,其原生實現隻能 hook 當前已經加載的 so,對於未加載的沒做特殊處理,如果用來做長時間的進程級監控,需要解決增量 so hook 問題。不過這種 hook 方式非常適合做 so 定向監控。
與 PLT hook 原理不同,inline hook 則是在目標函數的頭部直接插入跳轉指令,其 hook 的是最終的函數實現,不存在增量 so hook 問題,hook 效率高效直接。但 inline hook 在 hook 那些可能正在執行的函數後,需要掛起相關線程進行指令修正,這個是 inline hook 的痛點,現有 hook 實現很多沒有做指令修複,或者在指令修複時或多或少都存在一些問題。
Raphael 在早期的驗證版本裏采用 xHook 來實現代理接入。後續為了實現長時間進程級監控,以覆蓋更多的業務場景,Raphael 又通過 Android-Inline-Hook 解決增量 so hook 問題,通過 xHook 實現定向監控。為了進一步提升工具的性能和穩定性, Raphael 內部最新版本已切換到了 bytehook(字節跳動自研的 PLT hook 工具,可自動處理增量 so hook 問題)。
棧回溯定位一個對象或者一段內存通常可以通過引用/依賴關係,也可以通過創建/分配時的堆棧。Java 堆內存因為有明確的組織形式和清晰的依賴關係,可以通過依賴關係靜態分析內存泄漏問題。但 native 堆內存依賴/引用比較隱晦,也沒有 Java 堆內存那樣明確的組織格式,無法通過依賴/引用關係進行靜態分析,隻能通過分配時的堆棧來輔助定位。棧回溯(unwind)是 native 層獲取調用堆棧的通用方式,是 native 內存泄漏監控工具不可或缺的核心,同時也是工具性能和穩定性的瓶頸所在。接下來本文將從棧回溯工具選取、限製棧回溯頻次、減少無用棧回溯三個方麵介紹 Raphael 在棧回溯上所做的工作。
棧回溯工具選取Android 平台上常用的 32 位棧回溯庫主要有:libunwind_llvm、libunwind (nongnu)、libgcc_s、libudf、libbacktrace、libunwindstack 等,實踐證實這些工具或多或少都存在一些問題,以下是我們基於三個主流的棧回溯庫做的簡單對比分析(平台:Pixel 2 & Android 10,性能:Demo 裏統計 16 層棧幀回溯的總耗時;兼容性:字節跳動旗下多個應用長時間的優化治理實踐)

棧回溯涉及到的東西比較多,想要自己短時間內實現一個在穩定性、回溯性能、回溯成功率等方麵都表現優異的 32 位棧回溯工具難度非常大。為了快速驗證並解決實際機問題,Raphael 在早期版本裏采用的是 libunwind_llvm,隨後切換到 libunwind_llvm & libunwind (nongnu),通過 libunwind_llvm 保證回溯性能,在回溯深度低於 2 層時切換到 libunwind (nongnu),以保證回溯成功率。最新版本裏則采用的是 libudf,兼具了性能和回溯成功率。相對而言,64 位下基於 FP 的棧回溯實現性能和穩定性基本都能滿足需求,這裏不做過多介紹。Rapahel 同時也在設計時做了充分的擴展考慮,可以輕鬆切換到其他更優秀的棧回溯實現。
限製棧回溯頻次即便是 libudf 實現,其在 demo 裏回溯 16 層棧幀的平均耗時也需要 0.6ms,監控工具實際運行時對 App 性能的影響是很明顯的。提升監控性能的途徑除了直接優化棧回溯性能外,減少回溯頻次也是十分有效的手段。我們在西瓜視頻 App 的優化治理實踐中發現,多數場景小於 1024 byte 的內存分配其頻率約占 70% 以上,但線上遇到的 native 內存觸頂問題,卻很少是由小內存泄漏引發的,監控小內存泄漏對於解決線上 native 內存觸頂問題沒有實質效果。即便真的是由小內存引發的,這個需要高頻和必現的場景才能達到,這類問題通常在線下單測(定向監控)場景是完全可以覆蓋到的。基於此,Raphael 通過設定內存閾值來控製棧回溯頻次,可以大幅降低棧回溯的性能損耗。
減少無用棧回溯shouxianyudaililiuchenghezhanhuisushixianjizhi,congdailihanshurukoudaohuisukaishidelujingshanghuicunzaijicenggenfenpeiduizhanwuguandehanshutiaoyong,zhejicengtiaoyongzuizhonghuitixianzaizuihouhuisuchenggongdeduizhanshang(下圖的紅色部分),每(mei)次(ci)內(nei)存(cun)分(fen)配(pei)都(dou)回(hui)溯(su)這(zhe)幾(ji)層(ceng)無(wu)用(yong)的(de)調(tiao)用(yong)鏈(lian)是(shi)十(shi)分(fen)損(sun)耗(hao)性(xing)能(neng)的(de)。解(jie)決(jue)這(zhe)種(zhong)問(wen)題(ti)的(de)直(zhi)觀(guan)方(fang)法(fa)就(jiu)是(shi)減(jian)少(shao)甚(shen)至(zhi)完(wan)全(quan)規(gui)避(bi)這(zhe)種(zhong)無(wu)關(guan)的(de)棧(zhan)回(hui)溯(su),體(ti)現(xian)在(zai)代(dai)碼(ma)層(ceng)麵(mian)就(jiu)是(shi)減(jian)少(shao)代(dai)理(li)入(ru)口(kou)到(dao)回(hui)溯(su)開(kai)啟(qi)函(han)數(shu)之(zhi)間(jian)的(de)調(tiao)用(yong)層(ceng)級(ji)。inline 是一種簡單直接的實現方式,也可以直接在代理入口處提前構建回溯的 context 數據。
緩存管理緩存管理作為 native 內存監控的重要一環,對整個監控工具性能的影響至關重要。以 malloc debug 和LeakTracer 為例,它們都是通過分配後的內存地址作為 key 來計算 hash 後散列存儲的,並通過一個全局鎖來同步緩存更新的時序。兩者不同的是,malloc debug 會通過堆棧聚合調用鏈完全相同的內存分配記錄,其緩存的存儲單元通過 malloc 動態分配;而 LeakTracer 則不會根據堆棧聚合,其存儲單元會預先分配一部分,緩存不足時也會動態申請。通過以上分析和實測可以發現,malloc debug 的實際性能比LeakTracer 低很多,原因主要體現在堆棧聚合和緩存動態分配上。

對比 malloc debug 和 LeakTracer 的源碼也可以發現:運行時的堆棧聚合是完全沒有必要的;如果限製內存監控的閾值,緩存空間和緩存單元的上限都可以控製在一定範圍內的,不需要動態申請,可以減少動態分配的性能損耗;此外,由於 native 內存分配和釋放頻率比較高,全局鎖一定程序上會影響整體性能,通過 key 計算 hash 後再散列存儲時不需要全局鎖。
Raphael 是預先分配固定大小的緩存空間,除了發生內存觸頂導致的 crash 外,緩存單元提前耗完也認為存在內存泄漏問題。這主要是因為:對於 32 位進程,其虛擬內存的上限通常是 4G,正常運行時相對比較容易觸達上限,而 64 位進程的虛擬地址空間非常大,實際很難遇到虛擬內存觸頂的 case,但遇到物理內存不足的概率則要大很多,這與 32 位進程基本相反。通過控製 vmPeak 閾值和緩存單元餘量可以有效捕捉到內存泄漏數據,最終實現穩定可靠的全自動內存泄漏監控及消費流程

監控範圍通過前麵的分析可以知道,隻監控 malloc/calloc/realloc/memalign/free 是無法滿足治理需求的,這主要是因為 malloc/calloc/realloc/memalign/free 等分配出的內存通常在整個虛擬內存空間裏占比較小,常見的內存消耗大戶 Thread、webview、Flutter、硬件加速、顯存等,都不是通過這些函數分配出的。為了能夠對 Android 平台上的 native 內存觸頂問題精準歸因,監控需要無限逼近虛擬內存的上限,這就需要監控盡可能多的內存分配形式。
Android 上的內存操作主要是 malloc/calloc/realloc/memalign/free 和 mmap/mmap64/munmap,同監控 malloc/calloc/realloc/memalign/free 相比,監控 mmap/mmap64/munmap 有兩點不同:一個是線程棧的釋放問題,雖然創建線程時是通過 mmap/mmap64 分配的棧內存,但棧內存的釋放並不一定是通過顯式調用 munmap 實現的;另一個是監控重入問題,當通過 malloc/calloc/realloc/memalign 等分配大內存時,底層通常是通過 mmap/mmap64 實現的,兩類接口同時監控時會存在重入問題。
棧內存釋放線程的棧內存又分為信號棧和執行棧,信號棧在調用void pthread_exit(void *return_value) 接口時會通過 munmap 即刻釋放,而執行棧的釋放則有兩種形式:
void pthread_exit(void return_value) 函數體裏,當線程狀態為 THREAD_DETACHED 時會直接通過 void _exit_with_stack_teardown(voidstack, size_t sz) 釋放
int pthread_join(pthread_t t, void** return_value) 裏通過 pthread_internal_remove_and_free,最終在pthread_internal_free 裏通過 munmap 釋放

綜上,最終通過 munmap 釋放的內存都可以被監控到,而通過_exit_with_stack_teardown 釋放的內存則無法攔截到。我們針對這種情況做了特殊處理:在 Raphael 裏代理攔截了 void pthread_exit(void *) ,並判斷此時線程狀態是否為 THREAD_DETACHED,如果是則在監控裏直接移除相關記錄,否則不移除。
重入問題下圖是一個典型的重入現場,其上層的 malloc 函數最終調用到了 mmap 函(han)數(shu),同(tong)時(shi)監(jian)控(kong)兩(liang)類(lei)內(nei)存(cun)接(jie)口(kou)時(shi)就(jiu)會(hui)遇(yu)到(dao)此(ci)類(lei)問(wen)題(ti)。重(zhong)入(ru)問(wen)題(ti)帶(dai)來(lai)的(de)一(yi)個(ge)挑(tiao)戰(zhan)是(shi)緩(huan)存(cun)如(ru)何(he)管(guan)理(li),同(tong)一(yi)個(ge)緩(huan)存(cun)裏(li)隻(zhi)能(neng)維(wei)護(hu)一(yi)個(ge)記(ji)錄(lu),維(wei)護(hu)兩(liang)個(ge)記(ji)錄(lu)的(de)邏(luo)輯(ji)和(he)性(xing)能(neng)過(guo)於(yu)複(fu)雜(za)。此(ci)外(wai),從(cong) malloc 到 mmap 的堆棧是固定的,這幾層堆棧對分析內存泄漏完全沒用,因為這個時候關注的是 malloc 之上的堆棧。

解決重入問題的方案很直接,在檢測到 mmap/mmap64 之上有 malloc/calloc/realloc 等棧幀時,忽略本次分配。這樣不僅解決了重入問題,也避免了不必要的棧回溯。因為 Android 平台不支持 thread local storage(TLS),隻能通過 pthread_setspecific 和 pthread_getspecific 實現。
綜合評估功能相對於 malloc debug 和 LeakTracer,Raphael 不僅支持 malloc/calloc/realloc/memalign/free,也支持監控 mmap/mmap64/munmap 等,使監控範圍擴展到了線程、webview、Flutter、顯存等,基本完全覆蓋了 Android 平台上的 native 內存使用場景
性能Android 平台上的 native 內存泄漏檢測通常都是在程序運行過程中進行的,棧回溯和緩存管理會消耗部分 CPU 和內存,帶來一定的性能損失。Raphael 可配置的監控能力有很大的伸縮性,性能影響可以限製在可接受範圍內,以下數據基於西瓜視頻 App 32 位模式評測(中高端機型和 64 位下的性能更高):
CPU:32 位模式 & ≥1024 的監控閾值下,在低端機上 CPU 消耗< 3%內存:32 位模式下默認會有約 16M 的虛擬內存消耗幀率:32 位模式 & ≥1024 的監控閾值下,低端機上幀率沒有明顯變化穩定性已開源的版本是基於開源 inline hook 實現的,在部分 Android 6 機型上存在卡死問題,除此之外暫未發現其他穩定性問題。此外,字節跳動這邊早期的治理實踐集中在線下,並基於 Raphael 建設完善了線下的防治體係,更為穩定的版本可以滿足線上的監控需求,我們會在後續迭代開源。
治理實踐Raphael 在字節跳動內部使用非常廣泛,是字節跳動 native 協會指定的 native 內存泄漏檢測工具。在治理實踐中,Raphael 覆蓋了幾乎所有的 native 內存使用場景,輔助解決了大量的 native 內存泄漏和內存使用不合理的問題。接下來通過四個典型的案例簡單介紹下 Raphael 的監控能力和基於 Raphael 的數據分析方法(應用自身的,Java 層的,webview 的,係統層的)
案例 1
下圖是西瓜視頻裏兩個比較典型的 native 內存問題現場,既有嚴格意義上的內存泄漏(用完之後未釋放),也有更為廣泛的內存不合理使用的問題(短暫泄漏、局部場景問題、上層業務邏輯問題等)。針zhen對dui內nei存cun泄xie漏lou問wen題ti,在zai明ming確que了le相xiang關guan內nei存cun的de生sheng命ming周zhou期qi之zhi後hou,可ke以yi相xiang對dui輕qing鬆song地di快kuai速su定ding位wei到dao。對dui於yu內nei存cun使shi用yong不bu合he理li的de問wen題ti,則ze需xu要yao盡jin可ke能neng多duo的de搜sou集ji未wei釋shi放fang的de內nei存cun,來lai綜zong合he評ping估gu影ying響xiang。

早期在分析數據時,我們也會通過 maps 來驗證 Raphael 的數據。通常通過分析 maps 可以大致知道內存觸頂的原因,下圖是一個典型的運行時通過 malloc/calloc/realloc/memalign 和 mmap/mmap64 分配的內存過多導致的 OOM 現場。

案例 2
下圖是字節跳動內部一個業務遇到的 native 內存問題現場,未接入 Raphael 前雖能輕鬆複現 native 內存增長的問題,但無法定位內存增長的原因。在接入 Raphael 後,雖然攔截到的內存並不多,但問題暴露得非常明顯。排名第一個的堆棧是 Java 層創建 bitmap 對象時調用到 native 層堆棧(Android 8 以後 Bitmap 的數據是存儲在 native 層),該問題的調查最終轉移到了 Java 層。

基於以上分析,我們可以斷定 Java 層的堆內存裏一定存在大量的 Bitmap 對象。因為該問題是線下可複現的,我們可以很容易地通過 Java 堆內存快照驗證並定位到問題原因(如下圖所示)。如果是線上,我們需要抓取異常現場的快照才能最終定位,這也正是 西瓜視頻穩定性治理體係建設一:Tailor 原理及實踐 裏所提到的通用異常數據搜集建設。

案例 3
一直以來 Android 設備上 webview 消耗的內存很少被重視,隨著前端業務場景增多,webview 導致的內存問題也越來越明顯、越來越頻繁。下圖是 Raphael 在西瓜視頻 App 裏監控到的一個前端活動頁導致的內存問題現場。由於係統 webview 自(zi)身(shen)的(de)原(yuan)因(yin),工(gong)具(ju)無(wu)法(fa)回(hui)溯(su)出(chu)完(wan)整(zheng)的(de)調(tiao)用(yong)棧(zhan),無(wu)法(fa)直(zhi)觀(guan)定(ding)位(wei)到(dao)問(wen)題(ti)原(yuan)因(yin)。最(zui)終(zhong)我(wo)們(men)通(tong)過(guo)定(ding)向(xiang)分(fen)析(xi)內(nei)存(cun)數(shu)據(ju),定(ding)位(wei)到(dao)這(zhe)些(xie)內(nei)存(cun)基(ji)本(ben)都(dou)是(shi)前(qian)端(duan)頁(ye)麵(mian)裏(li)緩(huan)存(cun)的(de)圖(tu)片(pian)資(zi)源(yuan),在(zai)對(dui)該(gai)頁(ye)麵(mian)的(de)圖(tu)片(pian)緩(huan)存(cun)策(ce)略(lve)進(jin)行(xing)優(you)化(hua)之(zhi)後(hou),相(xiang)關(guan)的(de)內(nei)存(cun)觸(chu)頂(ding)的(de)異(yi)常(chang)大(da)幅(fu)降(jiang)低(di)。

案例 4
下圖是 Android 係統上長期存在的一類 Camera 內存泄漏現場。通過分析源碼可知,Camera 在拍攝過程中會在 native 層持續構造 CameraMetadata 實例,而每個 CameraMetadata 對象都會指向一塊不小的 native 內存,這塊 native 內存的釋放依賴 Java 層的 CameraMetadataNative 對象執行 finalize 函數。這個邏輯最終導致這部分 native 內存的回收間接依賴 Java 層的 GC。如果一段時間內 Java 層沒有 GC ,這部分 native 內存就會因為沒有及時釋放而堆積,進而在觸頂後引發各種因 native 內存不足而導致的異常。《Android Camera 內存問題剖析》裏有詳細的分析過程,《ART 視角 | 如何讓 GC 同步回收 native 內存》針對此類問題也同步給出了方案,通過溝通 Android 團隊表示會在後續版本裏徹底修複此問題。
後續規劃Native 內存泄漏監控的原理相對簡單,但想要做到完美通用卻很困難,最主要的考驗當屬性能和穩定性問題,例如 32 位棧回溯的性能和穩定性、緩存管理的性能等。前期我們在調研和開發 Raphael shi,jiyukuaisuluodihejiejuejinpowentidemude,fuyongledaliangdisanfangdaima,bingjianhualehenduoluoji。jingguochangqidezhilishijian,gongjuzishenyebaoluchuyixiewentihehouxukeyiyouhuadefangxiang。
就代理邏輯而言,Android-Inline-Hook 和 And64InlineHook 雖然都是比較優秀的 inline hook 工具,但實際使用時仍然存在兼容和卡死的問題。雖然 xHook 在兼容性和性能上都可以達到上線標準,但不具有通用性,很難將 native 內存泄漏監控擴展到其他有上限的資源上(如 JNI Reference Table)。我們也在調研優化 inline hook,探索更為穩定高效的 hook 方案。
棧回溯和緩存管理是 native 內存泄漏監控性能和穩定性的瓶頸。相對而言,基於 FP 的 64 位棧回溯方案已經到了極致,但 32 位下目前仍沒有完美理想的方案。在 32 位下,Raphael 通過限製棧回溯深度和控製監控範圍來規避頻繁棧回溯帶來的性能影響,雖然可以大幅提升性能,但也存在漏報問題。因此,32 位棧回溯性能也是我們後續的優化方向。此外,Raphael 已開源的版本其緩存管理仍然是通過全局鎖來實現同步的,會有一定的性能損失,這個我們也會在後續的開源迭代裏同步最新的優化。
眾所周知,物理內存、虛擬內存、Thread、FD、JNI Reference Table 等都是典型的有上限的資源,不合理使用都會造成常規手段難以調查的穩定性問題。顯而易見,內存泄漏的監控邏輯, 同樣適用於其他這些有上限的資源。甚至於那些雖然沒有明確上限的(如 Binder、流量、耗時等),我們也可以構造出相應的上限來實現監控和溯源。基於 Raphael 擴展其他的監控能力是我們後續要高優完善的。
總結Android native 內存泄漏話題由來已久,在此之前業界一直沒有穩定可靠的工具可用,得益於 AOSP 和其他優秀的開源項目(Android-Inline-Hook、And64InlineHook、xHook、xDL),使得我們有機會進行相關的嚐試。Raphael 是西瓜視頻基礎技術團隊的初步探索和嚐試,在字節跳動內部眾多 App (如西瓜、抖音、頭條)長期的治理實踐中,不僅解決了大量疑難問題,也進一步完善了工具和方法論。
雖然基於 Raphael 的 native 內存泄漏監控方案目前已經足夠成熟和穩定,但其監控過程畢竟滲透到了 App deyunxingguocheng,huiyouyidingchengdudexingnengsunshihewendingxingfengxian。womenchangdaodefanganshijiyucilaijianshewanshanxianxiadeneicunxieloufangzhitixi,jinshendaidaoxianshang。youyuneibudiedaide Raphael 版本比較多,且涉及其他未開源的項目,本次開源我們隻能選擇其中一個穩定可用的版本,其他優化會在後續逐步開源。
Raphael 隻是邁開了其中的一小步,方案還有很大的優化空間。開源不是終點,我們希望集思廣益、共同探索完善,在 Android 穩定性治理上走得更快更遠。
相關資料Raphael 開源地址:https://github.com/bytedance/memory-leak-detectorxHook 鏈接:https://github.com/iqiyi/xHookxDL 鏈接:https://github.com/hexhacking/xDLAndroid-Inline-Hook 鏈接:https://github.com/ele7enxxh/Android-Inline-HookAnd64InlineHook 鏈接:https://github.com/Rprop/And64InlineHookmalloc debug 鏈接:https://android.googlesource.com/platform/bionic/+/master/libc/malloc_debug/README.mdLeakTracer 鏈接:http://www.andreasen.org/LeakTracer/ Android Camera 內存問題剖析 libunwind llvm 編年史:https://zhuanlan.zhihu.com/p/33937283ART 視角 | 如何讓 GC 同步回收 native 內存:https://juejin.cn/post/6894153239907237902加入我們
歡迎加入字節跳動西瓜視頻客戶端團隊,我們專注於西瓜視頻 App 的開發和基礎技術建設,在客戶端架構、性能、穩定性、編譯構建、研發工具等方向都有投入。如果你也想一起攻克技術難題,迎接更大的技術挑戰,歡迎加入我們 !
西瓜視頻客戶端團隊正在熱招 Android、iOS 架構師和研發工程師,最 Nice 的工作氛圍和成長機會,各種福利各種機遇,在北京、杭州、上海三地均有職位,歡迎投遞簡曆!聯係郵箱: ;郵件標題:姓名-工作年限-西瓜-Android/iOS/基礎技術。
歡迎關注「字節跳動技術團隊」
網址格式不正確
網址格式不正確
申明:如本站文章或轉稿涉及版權等問題,請您及時聯係本站,我們會盡快處理!


