依星源码资源网,依星资源网

 找回密码
 立即注册

QQ登录

只需一步,快速开始

【好消息,好消息,好消息】VIP会员可以发表文章赚积分啦 !
查看: 69|回复: 0

LLVM常用插桩API示例

[复制链接] 主动推送

1万

主题

1万

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
12008
发表于 2024-10-24 09:23:08 | 显示全部楼层 |阅读模式
LLVM常用插桩API示例
1. 编译时程序插桩(Compile-time Instrument)
程序插桩是在保证被测程序原有逻辑完整性的基础上在程序中插入一些探针代码,以在程序动态执行时收集内部运行信息,用于进行程序分析或安全分析。典型地,可以通过插桩获取程序的控制流(例如代码覆盖情况)和数据流(例如运行时变量值)信息。代表性的基于程序插桩的工具/框架有LLVM DataSanitizer、American Fuzzy Lop、SymCC等,对程序分析、软件安全测试具有重要意义。

程序插桩主要有三类方案,适用于不同的目标和场景:
  • 编译时插桩:适用于有源码的白盒情况,通常在中间语言上进行插桩,插桩的代码能够从编译优化中收益,是开销最低的插桩方案。
  • 动态二进制插桩:适用于无源码的黑盒情况。大多数动态二进制插桩框架都有三种执行模式:解释模式( Interpretation mode)、探测模式(probe mode)和JIT模式(just-in-time mode)。JIT模式是最常用的实现方式,例如Intel Pin。但同时,相比编译时插桩,无论解释还是JIT都引入了更多的额外开销。
  • 静态二进制插桩:适用于无源码的黑盒情况。静态二进制插桩主要是通过二进制重写技术来实现的,即在汇编语言的级别上进行插桩,插桩的代码是直接写入目标程序的二进制文件中的。静态二进制插桩的效率通常认为高于动态二进制插桩,但低于编译插桩。目前Linux平台上二进制重写技术比较成熟,但windows平台上的静态二进制插桩框架还比较少(WinAFL就应用了静态二进制插桩技术来提升效率)。
程序插桩技术广泛应用于程序分析/自动化漏洞挖掘研究与实践中,例如:
  • 基于覆盖率反馈的模糊测试(AFL)
  • 污点分析(LLVM Dsan, Angora)
  • 符号执行(SymCC)
  • ...
LLVM框架在编译时允许用户编写自己的LLVM Pass,在中间语言(LLVM IR)级别进行程序插桩,结合LLVM IR提供的丰富程序信息,可以结合静态分析更好地进行插桩。

个人认为学习LLVM编译插桩最好的途径是找到应用该技术的一些开源项目,例如AFL,结合官方文档进行学习。以下,仅分享一些我们之前工作中用到的有意思的API的示例代码
2. 插桩分支代码:BranchInst2.1 splitblockandinsertifthenelse()2.2 SplitBlockAndInsertIfThen()
或者仅仅想插桩if ... then ...的逻辑,就可以用SplitBlockAndInsertIfThen(),其使用相对简单些,一个例子如下:
1
2
3
4
5
6
7
8
9
Value* val_c = NULL;
IRBuilder<> IRB(InsertPoint);
Value* cmp = IRB.CreateICmpEQ(val_a, val_b);
BranchInst *BI = cast<BranchInst>(
      SplitBlockAndInsertIfThen(cmp, InsertPoint, false, CallWeights));
/* Instrument at new basic block */
IRBuilder<> ThenB(BI);
val_c = ThenB.CreateAdd(val_a, val_b);
val_c = IRB.CreateSub(val_a, val_b);

上述插桩将在目标程序中插入如下代码:
1
2
3
4
if (val_a == val_b) {
      val_c = val_a + val_b;
}
val_c = val_a - val_b;

值得注意的是,splitblockandinsertifthenelse()的第三个参数可以由用户可选地提供一个branch weight的参数,指定该分支的通过概率以便于进行优化(类似unlikely?)。
3. getIntNTy()
LLVM IR中惯用的IntegerType主要是:
  • Int8Ty
  • Int16Ty
  • Int32Ty
  • Int64Ty
但是,今天注意到了一个有意思的API:
1
static IntegerType *     getIntNTy (LLVMContext &C, unsigned N)

从而,我们可以定义任意长度的IntegerType,能够更加灵活地使用LLVM玩出花样。以下给出一个例子,在这个例子中,我们希望提取字符串的前N字节(N <= 8)。
3.1 一个小练习
原始程序demo.c:
1
2
3
4
5
6
7
8
9
unsigned long long str2hex(char *buf) {
      return 0;
}
int main() {
      char buf[32];
      scanf("%s", buf);
      printf("Hex: %8llx\n", str2hex(buf));
      return 0;
}

我们的目标是插桩democ.c的str2hex()函数,使该函数返回char *buf的前N = 6个字节的Hex形式。

为了实现该目标,我们需要编写一个LLVM Pass,其中主要逻辑如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
for (llvm::Function &F : M) {
      if (F.getName() != "str2hex") continue;
      IntegerType *IntNTy = IntegerType::getIntNTy(C, 48); // 6 * 8 = 48 bits
      IntegerType *Int64Ty = IntegerType::getInt64Ty(C);
      BasicBlock::iterator IP = F.getEntryBlock().getFirstInsertionPt();
      Value* arg = &(*F.arg_begin());
      IRBuilder<> IRB(&(*IP));
      Value *ptr = IRB.CreateBitCast(IRB.CreateGEP(arg, ConstantInt::get(Int64Ty, 0)), IntNTy->getPointerTo());
      Value *hex = IRB.CreateLoad(ptr);
      hex = IRB.CreateZExt(hex, Int64Ty);
      for (auto &I : *IP->getParent()) {
            if (dyn_cast<llvm::ReturnInst>(&I)) {
                  llvm::ReturnInst *new_inst = llvm::ReturnInst::Create(m->getContext(), hex);
                  ReplaceInstWithInst(&I, new_inst);
                  break;
            }
      }
}

插桩后的demo.ll如下:
1
2
3
4
5
6
7
8
9
define i64 @str2hex(i8*) #3 {
  %2 = getelementptr i8, i8* %0, i64 0
  %3 = bitcast i8* %2 to i48*
  %4 = load i48, i48* %3
  %5 = zext i48 %4 to i64
  %6 = alloca i8*, align 8
  store i8* %0, i8** %6, align 8
  ret i64 %5
}

3.2 IntNTy在x86上的实现方式
之所以LLVM IR中的Int8Ty、Int16Ty、Int32Ty更常用,是因为它们对应了Byte、Word、Dword等类型,可以直接通过汇编指令表示。为了探究IntNTy,即任意长度的整型在x86汇编中的实现,我们将上一小节中的demo.c编译成可执行文件,并通过gdb反汇编来查看插桩代码的实现:
1
2
3
4
5
6
7
8
9
10
11
12
push   rbp
mov    rbp,rsp
mov    eax,DWORD PTR [rdi]
mov    ecx,eax
movzx  eax,WORD PTR [rdi+0x4]
mov    edx,eax
shl    rdx,0x20
or     rcx,rdx
mov    QWORD PTR [rbp-0x8],rdi
mov    rax,rcx
pop    rbp
ret

可以看到,对于6字节的IntNTy,汇编中首先读取一个4字节的Dword,接着读取一个2字节的Word,然后通过“移位”与“或”操作组合成一个6字节的值。

显然,IntNty提供了更方便的方式,让我们可以在插桩时使用一个任意长度的整型值。但是,从汇编角度,当LLVM IR最终编译成汇编代码时,IntNTy仍然是基于Byte、Dword等类型实现,并且仍然需要引入额外的开销来进行组合。LLVM IR只不过是将基础类型“组合”的部分进行了封装,提供了便捷但并不会提升效率。
4. Predecessors与Successors
类似IDAPython,在基本块的级别获取其前继/后继。例如:
1
2
3
for (llvm::BasicBlock* pred_bb : predecessors(cur_bb)) {
   printf("prev_bb=%p\n", pred_bb); /* for debug */
}

4.1 问题:predecessors()可能返回重复的前驱基本块
这里需要注意,我们遇到过一个奇怪的情况(通常发生在switch结构中),即predecessors()返回多个相同的基本块指针:
1
2
3
4
5
prev_bb=0x56407eaee190
prev_bb=0x56407eaee190
prev_bb=0x56407eaee190
prev_bb=0x56407eaee190
prev_bb=0x56407eaee190

Github Issue中有人遇到了相同的情况:#76. 目前,我们只能在调用predecessors()后手动进行检查和去重。
4.2 unique predecessor/successors
查看LLVM BasicBlock类的文档时,发现了一些有意思的成员函数
1
2
3
4
5
BasicBlock *getSingleSuccessor () const
     Return the successor of this block if it has a single successor. More...

BasicBlock *getUniqueSuccessor () const
     Return the successor of this block if it has a unique successor. More...

我们主要疑惑于其中"Unique"的含义。在查阅源码注释后,基本得到了解答:
1
2
3
/// Note that unique predecessor doesn't mean single edge, there can be
/// multiple edges from the unique predecessor to this block (for example a
/// switch statement with multiple cases having the same destination).



最后,本篇只是做一个简单的分享,欢迎批评与指正。

相关帖子

扫码关注微信公众号,及时获取最新资源信息!下载附件优惠VIP会员5折;永久VIP免费
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

免责声明:
1、本站提供的所有资源仅供参考学习使用,版权归原著所有,禁止下载本站资源参与商业和非法行为,请在24小时之内自行删除!
2、本站所有内容均由互联网收集整理、网友上传,并且以计算机技术研究交流为目的,仅供大家参考、学习,请勿任何商业目的与商业用途。
3、若您需要商业运营或用于其他商业活动,请您购买正版授权并合法使用。
4、论坛的所有内容都不保证其准确性,完整性,有效性,由于源码具有复制性,一经售出,概不退换。阅读本站内容因误导等因素而造成的损失本站不承担连带责任。
5、用户使用本网站必须遵守适用的法律法规,对于用户违法使用本站非法运营而引起的一切责任,由用户自行承担
6、本站所有资源来自互联网转载,版权归原著所有,用户访问和使用本站的条件是必须接受本站“免责声明”,如果不遵守,请勿访问或使用本网站
7、本站使用者因为违反本声明的规定而触犯中华人民共和国法律的,一切后果自己负责,本站不承担任何责任。
8、凡以任何方式登陆本网站或直接、间接使用本网站资料者,视为自愿接受本网站声明的约束。
9、本站以《2013 中华人民共和国计算机软件保护条例》第二章 “软件著作权” 第十七条为原则:为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。若有学员需要商用本站资源,请务必联系版权方购买正版授权!
10、本网站如无意中侵犯了某个企业或个人的知识产权,请来信【站长信箱312337667@qq.com】告之,本站将立即删除。
郑重声明:
本站所有资源仅供用户本地电脑学习源代码的内含设计思想和原理,禁止任何其他用途!
本站所有资源、教程来自互联网转载,仅供学习交流,不得商业运营资源,不确保资源完整性,图片和资源仅供参考,不提供任何技术服务。
本站资源仅供本地编辑研究学习参考,禁止未经资源商正版授权参与任何商业行为,违法行为!如需商业请购买各资源商正版授权
本站仅收集资源,提供用户自学研究使用,本站不存在私自接受协助用户架设游戏或资源,非法运营资源行为。
 
在线客服
点击这里给我发消息 点击这里给我发消息 点击这里给我发消息
售前咨询热线
312337667

微信扫一扫,私享最新原创实用干货

QQ|免责声明|小黑屋|依星资源网 ( 鲁ICP备2021043233号-3 )|网站地图

GMT+8, 2024-11-23 22:49

Powered by Net188.com X3.4

邮箱:312337667@qq.com 客服QQ:312337667(工作时间:9:00~21:00)

快速回复 返回顶部 返回列表