NVBit 插桩:从 0 到可用
想在不改用户代码的前提下“看见”每条 GPU 指令如何执行?NVBit 是 NVIDIA 开源的“轻量级 CUDA 指令级动态插桩框架”。本文以“能上手能采样”为目标,从 GPU 并行模型 → CUDA 基础 → PTX/SASS → Linux 注入机制 → NVBit API,总结一份可直接套用的插桩笔记。
想在不改用户代码的前提下“看见”每条 GPU 指令如何执行?NVBit 是 NVIDIA 开源的“轻量级 CUDA 指令级动态插桩框架”。本文以“能上手能采样”为目标,从 GPU 并行模型 → CUDA 基础 → PTX/SASS → Linux 注入机制 → NVBit API,总结一份可直接套用的插桩笔记。
想把 CUDA 程序里的“越界读写、未初始化、数据竞争、Barrier 不匹配”这类顽固 Bug 一网打尽?Compute Sanitizer(前身 cuda-memcheck
)就是你的第一生产力工具。本文以“能上手能排错”为目标,按难度循序渐进,从最小示例、常见报错,到命令参数与协同工具给出一份“即插即用”的参考。
想看懂卷积、池化公式却老被 NCHW
、stride
搞糊涂?本文聚焦 张量布局 → 常见算子 → 形状计算公式,用一篇梳理基础概念。
想在大型项目里写出“既优雅又不掉坑”的 Python?本文用 抽象基类 → 生成器 → 类型提示 → 模块组织 四步,给你一套可复用的工程骨架。
想在一张图看懂 GPU 的线程组织与内存层次?本文用表格 + Mermaid 图 + 代码示例,3 分钟带你摸清 Kernel、Warp、合并访存与 bank 冲突的底层逻辑。
想在全新的 Ubuntu-24.04 + H100 机器上“第一天就跑通 GPU 代码”?
如果把 CPU 比作“多才多艺的总管”,GPU 更像“高效的流水线工厂”:CPU 擅长复杂分支与少量任务的低延迟处理,GPU 擅长大量相同/相似任务的高吞吐处理。本文先给出关键概念,再用 CPU 对比串起 GPU 的架构、执行模型、内存层次与性能要点。
如果把发行版比作操作系统的“应用商店”,包管理器就是开发与运维最常用的“装、删、查、管”工具。本文从概念到实操、从单机到团队,给出一份可以落地的学习大纲与命令速查,帮助你跨发行版高效工作。
面对五花八门的开源许可证,最常被问到的无非三件事:能不能商用?能不能改了闭源?要不要写专利和修改声明?这篇文章用一张速查表和几条决策准则,帮你在 1 分钟内选对证。
在数字世界中,我们渴望两全其美:既想要信息传输绝对安全,又追求其过程畅快高效。若把数据加密比作锁门,我们面临一个两难选择:
有没有一种方法,能让我们同时拥有对称加密的“快”和非对称加密的“稳”呢?答案是肯定的,这就是我们今天要探讨的主角——混合加密 (Hybrid Encryption)。