吃糠咽菜

好记性不如烂笔头

不论你是写 C/C++、CUDA,还是要同时照顾 Linux/Windows/macOS,当项目走出“玩具”阶段,构建就会成为最大的摩擦源:不同编译器、不同 IDE、不同参数、不同依赖的发现与链接。如果还靠手写 Makefile 或分别维护 VS/Xcode 工程,成本会直线上升。

这正是 CMake 出现的原因:用一份跨平台的构建脚本,生成各平台各 IDE 需要的工程与命令。

Read more »

想在不改用户代码的前提下“看见”每条 GPU 指令如何执行?NVBit 是 NVIDIA 开源的“轻量级 CUDA 指令级动态插桩框架”。本文以“能上手能采样”为目标,从 GPU 并行模型 → CUDA 基础 → PTX/SASS → Linux 注入机制 → NVBit API,总结一份可直接套用的插桩笔记。

Read more »

想把 CUDA 程序里的“越界读写、未初始化、数据竞争、Barrier 不匹配”这类顽固 Bug 一网打尽?Compute Sanitizer(前身 cuda-memcheck)就是你的第一生产力工具。本文以“能上手能排错”为目标,按难度循序渐进,从最小示例、常见报错,到命令参数与协同工具给出一份“即插即用”的参考。

Read more »

想在大型项目里写出“既优雅又不掉坑”的 Python?本文用 抽象基类 → 生成器 → 类型提示 → 模块组织 四步,给你一套可复用的工程骨架。

Read more »

想在一张图看懂 GPU 的线程组织与内存层次?本文用表格 + Mermaid 图 + 代码示例,3 分钟带你摸清 Kernel、Warp、合并访存与 bank 冲突的底层逻辑。

Read more »

如果把 CPU 比作“多才多艺的总管”,GPU 更像“高效的流水线工厂”:CPU 擅长复杂分支与少量任务的低延迟处理,GPU 擅长大量相同/相似任务的高吞吐处理。本文先给出关键概念,再用 CPU 对比串起 GPU 的架构、执行模型、内存层次与性能要点。

Read more »
0%