-
Notifications
You must be signed in to change notification settings - Fork 1.9k
Matrix Android IOCanary
IOCanary 是一个在开发、测试或者灰度阶段辅助发现 I/O 问题的工具,目前主要包括文件 I/O 监控和 Closeable Leak 监控两部分。通过使用 IOCanary ,可以快速发现常见的 I/O 问题,提高开发质量。
IOCanary 将收集应用的文件中所有 I/O 信息并进行相关统计,再依据一定的算法规则进行检测,发现问题,将之上报到 Matrix 后台进行分析展示。流程图如下:
IOCanary 采用 hook(ELF hook) 的方案收集IO信息,代码无侵入,从而使得开发者可以无感知接入。方案主要通过 hook os posix 的四个关键的文件操作接口:
int open(const char *pathname, int flags, mode_t mode);//成功时返回值就是fd
ssize_t read(int fd, void *buf, size_t size);
ssize_t write(int fd, const void *buf, size_t size);
int close(int fd);
以上看到,通过 hook 这几个接口,可以拿到大部分关键操作信息。这里举 open 的例子介绍下原理,简单起见,只结合 Android M 的代码以及大家最常用的 FileInputStream 分析。关键要找到 posix open 是在哪里被调用。由上往下列了大致的调用关系:
java : FileInputStream -> IoBridge.open -> Libcore.os.open
-> BlockGuardOs.open -> Posix.open
↓
jni : libcore_io_Posix.cpp
static jobject Posix_open(...) {
...
int fd = throwIfMinusOne(env, "open", TEMP_FAILURE_RETRY(open(path.c_str(), flags, mode)));
...
}
以上看到, android 框架的 FileInputStream ,最终是在 libcore_io_Posix.cpp 那里调到了posix的open接口。那么再找它被编到哪个 so ,查阅源码对应的 NativeCode.mk ,得到:
LOCAL_MODULE := libjavacore
于是只要 hook libjavacore.so 的 open 符号就 ok 了。找到 hook 目标 so 的目的是把 hook 的影响范围尽可能地降到最小。 同样, write,read,close 也是大同小异。不同的 Android 版本会有些坑需要填,这里不细述, 目前兼容到Android P。
由此便可以收集到应用在文件读写时的相关信息:文件路径、fd、buffer 大小等,并可以统计耗时、操作次数等。基于这些信息,就可以设定一些策略进行检测判断。
接下来结合微信的 case 介绍一下主要检测哪些问题。
耗时的 IO 操作不能占据主线程太久。检测条件:
- 操作线程为主线程
- 连续读写耗时超过一定阈值或单次 write\read 耗时超过一定阈值
这里不强调任何文件 IO 操作都不能在主线程操作,但如果需要执行较长时间,那么建议还是抛到 Worker 线程执行。
我们看下在微信中检测到的例子,如:
虽然这个 case 的耗时偏大不是必然发生的,但在主线程解压缩文件确实也埋下了卡主线程的隐患。
Buffer 过小,会导致 read/write 的次数增多,从而影响了性能。检测条件:
- buffer 小于一定阈值
- read/write 的次数超过一定的阈值
合适大小的 buffer 对 IO 读写效率的提升就不必多说了,一般情况下至少1024 byte 以上。我们来看一个微信 Android 中检测出的典型例子:
ConfigFileStorage 是一个提供 key-val 文件存储的工具类,也是很有历史而基本的一个类了。结合栈信息,找到 writeCfg 的实现:
private Map<Integer, Object> values;
private synchronized void writeCfg() {
...
fileOut = new FileOutputStream(filePath);
objOut = new ObjectOutputStream(fileOut);
objOut.writeObject(values);
fileOut.flush();
...
}
以上看到,主要是使用 ObjectOutputStream 直接把 values(一个map对象)序列化写到文件。但单纯的 ObjectOutputStream ,使用的 buffer 很小,会导致文件操作次数剧烈增加。通常可以通过 BufferedOutputStream 或者 ByteArrayOutputStream 来优化。下面就看下 writeCfg 用 BufferedOutputStream 优化后的数据对比,其中 values 填充了100个随机短字符串:
实现方式 | 耗时 | buffer大小 | 操作次数 |
---|---|---|---|
ObjectOutputStream | 14ms | 57 | 309 |
ObjectOutputStream+BufferedOutputStream | 7ms | 5949 | 1 |
可以看出,用 BufferedOutputStream 优化,只是简单加几句代码,就有接近50%的优化。
如果频繁地读某个文件,证明这个文件的内容很常被用到,可以通过缓存来提高效率。检测条件如下:
- 同一线程读某个文件的次数超过一定阈值
加一层内存 cache 是最直接有效的办法。最典型的比如图片的加载,如果没有内存 cache ,那么性能影响就比较大了。
当然微信 Android 中不会有这种图片加载都没加 cache 的情况。不过还是检测出了一些触发报错的 case ,如重复读取配置:
实际上,重复读的次数不止5次,只是阈值是5,就触发了上报。
Closeable Leak 指的是打开资源包括文件、Cursor 等,没有及時 close,引起泄露。这种问题基本就是因为开发的时候在思考人生了。但惊讶的是在微信 Android 中也检测出一些思考人生的时刻,如:
再看下对应的代码:
一个很基础的方法里,忘记 close 就这么发生了。
而有了 IOCanary ,就不怕偶尔写代码的时候思考人生了。
Android 框架提供的 StrictMode 也支持 Closeable Leak Detect ,框架级的监控自然最合适的,所以决定借 StrictMode 东风。 稍微看下 StrictMode 的源码,发现主要依赖一个工具类 dalvik.system.CloseGuard 来实现。这里依然举 FileInputStream 的例子,看怎么发现没有 close 。
//open
public FileInputStream(File file)...{
...
//CloseGuard
guard.open("close");
...
}
//close
public void close()...{
...
guard.close();
...
}
//finalize
protected void finalize() throws IOException {
...
if (guard != null) {
guard.warnIfOpen();
}
...
}
以上看到, GC 准备回收这个 FileInputStream ,会调用 guard.warnIfOpen 。再看下 guard.warnIfOpen 做了什么, 同时还有 guard.close 和 guard.open 。
public void open(String closer) {
...
allocationSite = new Throwable(message);
...
}
public void close() {
allocationSite = null;
}
public void warnIfOpen() {
if (allocationSite == null || !ENABLED) {
return;
}
...
REPORTER.report(message, allocationSite);
}
看到这里,就清晰了,warnIfOpen 时如果没 close ,就 REPORTER.report 。
到这里大概知道 Closeable Leak 怎么实现了,那怎么利用它呢,再看下 REPORTER :
//静态变量
private static volatile Reporter REPORTER = new DefaultReporter();
//接口
public static interface Reporter {
public void report (String message, Throwable allocationSite);
}
看到这里, hook 点非常清晰,把 REPORTER 换掉就行了。找到了 hook 点,那么就容易了:
- 利用反射,把 warnIfOpen 那个 ENABLED 值设为 true
- 利用动态代理,把 REPORTER 替换成我定义的 proxy
这时,框架层的代码只要发现 closeable leak 问题就会 report 给 IOCanary 了。当然框架层很多代码都用了 CloseGuard ,就可以发现比如文件资源没 close , Cursor 没有 close 等等,一下子满足了好多愿望。
本文主要介绍了 Matrix 系统中的 IO 质量监控部分:IOCanary 。小结其优点为:
- 接入简单,代码无侵入
- 性能、泄漏全面监控,对 I/O 质量心中有数
- 兼容到 Android P