大模型百词

当下,大模型(Large Model)无疑是科技领域最炙手可热的话题。从 ChatGPT 的惊艳亮相到各类 AIGC 应用的层出不穷,我们每天都会接触到海量的新名词和新概念。为了帮助大家更好地理解这个日新月异的领域,本文梳理了一系列核心术语,希望能为你构建一个清晰的知识地图。

基本概念

  1. 函数 (Function):通过一个或多个输入得到对应输出的关系,万物皆函数
  2. 符号主义 (Symbolism):找出精确函数以试图解释一切原理,但存在瓶颈
  3. 联结主义 (Connectionism):不进行预设,通过复杂函数计算出的预测值与真实值的误差,对函数中的未知参数进行不断调整
  4. 模型 (Model):联结主义思想所使用的复杂函数
  5. 权重 (Weights):模型中需要调整的参数
  6. 大模型 (Large Model):需要调整参数较多的模型
  7. 大语言模型 (Large Language Model, LLM):用于自然语言处理的模型
  8. 生成式AI (Generative AI):根据输入内容持续计算并自动生成新内容的人工智能系统
  9. 通用人工智能 (Artificial General Intelligence, AGI):是指能够在各种领域执行复杂认知任务的人工智能系统
  10. Token:将文字、图像、声音、视频分割成的最小粒度
  11. 上下文 (Context):对话时给到大模型的所有信息
  12. 提示词 (Prompt):用于指导模型的回答流程与风格,与上下文含义类似
  13. 提示词工程师 (Prompt Engineer):研究如何与大模型对话以达到更优反馈的职位

训练与推理

  1. 训练 (Training):对模型中的参数进行调整
  2. 预训练 (Pre-training):在大量数据上训练基础模型以学习通用特征
  3. 微调 (Fine-tuning):在预训练模型基础上对特定方向任务进行训练
  4. 推理 (Inference):参数调整完成后,根据函数的输入计算输出结果的过程
  5. 涌现 (Emergence):模型参数量显著增长后,推理能力得到大幅提升的现象
  6. 随机性 (Randomness):对大模型固定输出的内容进行调整,使其并不是总取概率最高
  7. 温度 (Temperature):控制随机性的参数
  8. Top-K:控制输出中选择出前K个最大或最小的元素的操作
  9. 幻觉 (Hallucination):随机性过高或过低导致输出结果存在事实性错误或虚假信息的情况
  10. 联网 (Web Browsing):通过互联网获取相关信息,结合相关信息进行输出,以减少幻觉的方法

模型与产品

  1. ChatGPT:2023年爆火的用于聊天的产品
  2. GPT (Generative Pre-trained Transformer, 生成式预训练变换器):为大语言模型的一种系列
  3. OpenAI:开发ChatGPT的公司,产品为闭源
  4. Claude:Anthropic发布的大语言模型
  5. Gemini:Google DeepMind发布的AI
  6. DeepSeek:深度求索公司发布的AI
  7. 豆包 (Doubao):字节跳动公司基于云雀模型开发的AI
  8. 通义千问 (Qwen):阿里云发布的AI
  9. 腾讯元宝 (Tencent Yuanbao):腾讯发布的基于自研混元大模型开发的C端AI
  10. Midjourney:闭源的AI图像生成器(中国实验室版名为悠船)
  11. Stable Diffusion:Stability AI推出的开源AI图像生成器
  12. Sora:OpenAI发布的人工智能文生视频大模型
  13. 可灵 (Kling):快手AI团队发布的视频生成大模型
  14. 即梦 (Jmeng):字节跳动旗下剪映团队研发的AI创作平台

模型分类与部署

  1. 闭源模型 (Closed-source Model):不开放源代码与权重,只提供最终服务的模型(如ChatGPT、Claude、Gemini)
  2. 开放权重模型 (Open-weight Model):可本地部署的,开放权重以供调整的模型(不开放训练代码与数据,如DeepSeek、LLaMA)
  3. 完全开源模型 (Fully Open-source Model):开放训练代码、数据、权重的模型(如‌Mistral)
  4. 私有化部署 (Private Deployment):不依托其他服务,将模型下载到本地进行使用的过程
  5. 云桌面 (Cloud Desktop):搭载好了所需环境的,高性能的,可远程网络控制的一种服务
  6. 镜像 (Image):用于特定开发所需的打包好的环境和软件

技术与应用

  1. 多模态 (Multimodality):能处理图像、声音、视频多种内容的能力
  2. 检索增强生成 (Retrieval-Augmented Generation, RAG):在私有数据库中进行搜索以获取信息的方法
  3. 知识库 (Knowledge Base):用于大模型查询所用的私有数据库
  4. 向量数据库 (Vector Database):特化模型与知识库语义匹配,以向量形式存储的数据库
  5. 词嵌入 (Word Embedding):把文字转换为词向量的方式,用于捕捉词间语义关系
  6. 向量检索 (Vector Retrieval):对比词向量相似度,以在知识库中找到相关问题答案的方式
  7. 数字人 (Digital Human):运用数字技术创造出来的、与人类形象接近的数字化人物形象
  8. 工作流 (Workflow):多次使用大模型能力,将工作内容分为多个步骤分别处理并整合为一个流程的能力
  9. 智能体 (Agent):按工作流封装大模型与工具集以实现自动完成复杂任务的程序
  10. 多智能体 (Multi-Agent):多个智能体协作完成更复杂任务的程序
  11. 插件 (Plugins):ChatGPT 的附加组件系统(智能体)
  12. AutoGPT:GPT模型驱动的智能体系统
  13. Manus:具备从规划到执行全流程自主完成任务能力的智能体
  14. MCP (Model-graded Controllable Preference):Anthropic提出的,用于AI操作外部世界的协议
  15. A2A (Agent-to-Agent):Google提出的用于智能体与智能体间通信的协议

优化与进阶

  1. 模型压缩 (Model Compression):由于模型大小与能力出现边际收益递减,以减少成本与方便个人的减小模型大小的方法
  2. 量化 (Quantization):把模型中的浮点数用更低精度表示以减少显存与计算的方法
  3. 蒸馏 (Distillation):用参数量较大的大模型指导参数量较小的小模型的方法
  4. 剪枝 (Pruning):删除模型中不重要神经元,让模型更稀疏以提升速度的方法
  5. 低秩适应 (Low-Rank Adaptation, LoRA):用更低成本改善微调方式的方法
  6. 思维链 (Chain-of-Thought, CoT):从推理能力方向增强模型能力的方法
  7. 人类反馈强化学习 (Reinforcement Learning from Human Feedback, RLHF):让模型输出更符合人类心意的方法

生态与行业

  1. 专业生产内容 (Professional Generated Content, PGC)
  2. 用户生产内容 (User Generated Content, UGC)
  3. 人工智能生成内容 (AI Generated Content, AIGC)
  4. 炸裂体 ("Explosive" Style):媒体与互联网对AI类产品进行描述与介绍时使用的一种强调或夸大性语气
  5. 套壳 (Wrapping):封装大模型对应接口提供服务
  6. 卖铲子 (Selling Shovels):提供工具或服务、教程等帮助他人在AI中淘金的赚钱方式
  7. Hugging Face:AI开源平台及社区

硬件与框架

  1. GPU (Graphics Processing Unit, 图形处理单元):NVIDIA公司的产品
  2. CUDA (Compute Unified Device Architecture):NVIDIA推出的AI开发框架
  3. TPU (Tensor Processing Unit, 张量处理单元):专用与大规模神经网络训练与推理的处理器
  4. NPU (Neural Processing Unit, 神经网络处理单元):专用于终端设备加速推理的处理器
  5. Python:适合AI开发的编程语言
  6. PyTorch:Python提供的针对AI编程的库
  7. TensorFlow:由 Google Brain 团队开发的深度学习框架
  8. Ollama:大模型本地运行工具
  9. vLLM:提升大语言模型推理速度的推理引擎
  10. ComfyUI:构建在 Stable Diffusion 之上的基于节点的绘画工作流软件(B站:秋葉aaaki 大佬制作了很多相关整合包)
  11. 扣子 (Coze):在网页端编排工作流的一款工具
  12. LangChain:以代码方式编排工具流的方式
  13. Cursor:Anysphere开发的人工智能编程助手
  14. GitHub Copilot:微软与OpenAI共同推出的AI编程工具

神经网络基础

  1. 数学 (Mathematics):AI基石,包括线性代数、微积分、概率论等
  2. 自然语言处理 (Natural Language Processing, NLP):人工智能的一大分支领域,其主要目的是让机器理解人类的语言文字,从而执行一系列任务
  3. 计算机视觉 (Computer Vision, CV):与图片高度相关
  4. 神经网络 (Neural Network):模仿生物神经系统结构和功能的计算模型
  5. 损失函数 (Loss Function):估量模型的预测值f(x)与真实值Y的不一致程度的函数
  6. 反向传播 (Backpropagation):计算损失函数关于网络参数的梯度来更新参数
  7. 多层感知机 (Multilayer Perceptron, MLP):将输入的多个数据集映射到单一的输出的数据集,是一种人工神经网络模型
  8. 卷积神经网络 (Convolutional Neural Network, CNN):包含卷积计算且具有深度结构的神经网络
  9. 循环神经网络 (Recurrent Neural Network, RNN):适合于处理序列数据的神经网络
  10. 注意力机制 (Attention Mechanism):模拟人类选择性注意机制,提升信息处理效率
  11. Transformer:一种基于注意力机制的神经网络结构
  12. 文本转语音 (Text To Speech, TTS)
  13. 语音转文字 (Automatic Speech Recognition, ASR)