📖 AI百科
收录AI领域专业术语解释和学习资料
目录
大语言模型 (LLM)
提示词工程 (Prompt Engineering)
RAG 检索增强生成
Fine-tuning 微调
AI Agent 智能体
Embedding 向量嵌入
多模态 AI
AI 幻觉
大语言模型 (Large Language Model, LLM)
大语言模型是使用大规模文本数据训练的自然语言处理模型,能够理解、生成和操作文本。代表模型包括GPT-4、Claude 3、Gemini、文心一言、通义千问等。LLM的核心能力包括:语言理解、文本生成、代码编写、数学解题、逻辑推理等。
提示词工程 (Prompt Engineering)
提示词工程是设计与优化AI模型输入的技术,通过精心构建提示词来获得更准确、更有用的输出。核心技巧包括:Few-shot Learning(少样本学习)、Chain of Thought(思维链)、Role Playing(角色扮演)、Output Formatting(输出格式化)等。
RAG 检索增强生成
Retrieval-Augmented Generation,检索增强生成。RAG将大型语言模型与外部知识库结合,通过检索相关文档来增强生成内容的准确性和时效性。RAG架构包括:文档分块、向量化存储、相似度检索、上下文注入等环节。
Fine-tuning 微调
微调是在预训练模型的基础上,使用特定领域或任务的数据进行额外训练,使模型适应特定场景。常用方法包括:LoRA(低秩适配)、QLoRA(量化LoRA)、Full Fine-tuning(全参数微调)等。微调可以让模型更好地理解特定领域的术语和风格。
AI Agent 智能体
AI Agent是能够自主感知环境、制定计划并执行动作的人工智能系统。与普通LLM不同,Agent具备:工具调用能力(Function Calling)、长期记忆、任务规划、多步骤推理等。代表应用包括Claude Code、AutoGPT、AgentGPT等。
Embedding 向量嵌入
Embedding是将文本、图像等数据转换为稠密向量的技术,使语义相似的内容在向量空间中距离相近。常用模型包括:OpenAI text-embedding-ada-002、Text2Vec、sentence-transformers等。向量数据库(如Pinecone、Milvus、Qdrant)用于存储和检索这些向量。
多模态 AI (Multimodal AI)
多模态AI能够同时理解和处理多种类型的数据(文本、图像、音频、视频)。代表模型包括GPT-4V(视觉)、Gemini(多模态)、Sora(文生视频)、GPT-4o(音频交互)等。多模态是AI发展的重要方向,让人机交互更自然。
AI 幻觉 (Hallucination)
AI幻觉是指大语言模型生成看似合理但实际错误或不存在的内容。这是LLM的固有缺陷,来源包括:训练数据偏差、知识截断、概率生成机制等。缓解方法包括:RAG检索增强、思维链推理、人工审核、事实核查等。
Token 令牌
Token是LLM处理文本的基本单位,通常1个中文词约等于1-2个Token,1个英文单词约等于1.3个Token。API按Token计费,了解Token概念有助于优化使用成本和理解模型上下文窗口限制。
上下文窗口 (Context Window)
上下文窗口指模型一次能处理的最大Token数量,决定了单次对话中可以输入多少内容。GPT-4 Turbo支持128K tokens,Claude 3支持200K tokens。更大的上下文窗口可以处理更长文档、更多代码文件。
