烧结工艺问答诊断智能体的构建、评估与应用

王耀祖刘栩瑞董磊

2026-06-22

智能体

导语：本研究面向烧结工艺智能化转型旨在构建一个能够深度融合领域知识与数据模型的智能问答系统以实现对专业问题的准�可靠与可解释的自动解答为工艺优化与人员培训提供支持

烧结工艺是通过高温热化学反应将铁矿粉､熔剂､燃料等混合原料固结成具有特定冶金性能的多孔块状烧结矿的物理化学过程｡该过程涉及燃烧､传热传质､液相形成等多重复杂机制，呈现出强非线性､大滞后及动态时变等特征，其优化与控制长期面临严峻挑战｡这些挑战的本质，可归结为工艺 “知识” 的极端复杂性与传统智能化方法 “知识” 处理能力之间的根本矛盾｡首先，烧结工艺的知识维度多元且耦合紧密｡它既包含配碳比､碱度 (R)､FeO 含量等参数间尚不完全清晰的机理性关联，也蕴含于操作手册､技术文献中的大量文本化规则，更深度镶嵌于工程师根据火焰形态､断面情况等进行判断的隐性经验中｡然而，原料波动大､工序环节多､变量强耦合等特点，使得这些多源异构知识难以被形式化表征和系统化集成，导致当前数据驱动模型泛化能力不足，而基于精确物理数学模型的构建也异常困难｡近年来，智能配料､烧结终点预测等基于传统机器学习的方法虽取得进展, 但主要聚焦于数据层面的局部关联挖掘，在融合文本规则､专家经验等语义知识，以及进行跨工序､多目标的综合推理与决策解释方面，仍存在显著局限｡换言之，现有方法难以构建一个能够像领域专家一样 “阅读文献､理解规程､借鉴案例､推理决策” 的智能体｡这已成为制约烧结过程实现全域智能化升级的核心瓶颈｡

大语言模型 (Large Language Models,LLMs) 的兴起，为破解上述知识瓶颈提供了变革性思路｡LLMs 凭借在千亿级文本上预训练获得的强大语义理解､知识泛化与逻辑推理能力，有望将分散的工艺文献､案例报告､操作规程等非结构化文本知识转化为可计算､可查询的数字化资产｡其核心价值在于能够理解和生成自然语言，从而直接处理烧结领域最核心的知识载体，为构建具备 “知识阅读” 与 “决策解释” 能力的智能系统奠定了基础｡当前，大语言模型在钢铁冶金领域的发展正迅速从概念验证走向规模化应用，成为行业数字化转型和培育新生产力的关键驱动力｡陆赟韬等探索了3 种构建钢铁领域大模型的主流方法，为钢铁行业及其他垂直领域构建专用大模型提供了实践指导与方法论参考｡

然而，现有工业大模型的应用多聚焦于生产调度､设备故障诊断等相对结构化､规则化的场景｡针对如烧结这般包含复杂物理化学反应､多变量强耦合且严重依赖隐性与文本知识的工艺过程，如何构建专用大模型，仍是一个亟待深入探索的研究空白｡将 LLMs 引入烧结工艺智能化, 其核心价值在于其强大的语义理解与知识融合能力，有望打通文本规则､专家经验与过程数据之间的壁垒，构建一个能够 “理解” 工艺､“借鉴” 知识并进行 “推理” 辅助决策的智能系统｡

基于此，本研究旨在直面烧结工艺的 “知识瓶颈”, 围绕 LLMs 的领域化应用，构建高质量的烧结专业数据集，并采用融合 LoRA 参数高效微调与检索增强生成 (RAG) 的技术路线，构建一个兼具领域知识深度与生成内容事实性的烧结工艺智能问答与诊断模型｡本研究不仅致力于填补该领域应用研究的空白，更期望为解决流程工业中普遍存在的知识集成与利用难题，提供一条可验证､可落地的技术新路径｡

1 技术架构

本研究旨在构建面向烧结工艺的智能问答与诊断大语言模型，其技术核心涵盖领域数据构建､模型高效适配､知识增强生成以及系统化评估与部署｡整体架构遵循 “数据 - 模型 - 知识 - 应用” 的协同设计思路，如图1所示｡首先，针对烧结领域高质量数据稀缺的现状，系统化地构建了专业问答数据集；在此基础上，选取适宜的基座模型，并采用参数高效微调技术 (LoRA) 进行领域知识注入；同时，引入检索增强生成 (RAG) 机制，动态融合外部知识库以确保生成内容的准确性与合规性；最后，构建了贴合烧结工艺特点的评估体系并开发了交互式应用平台｡该架构为烧结工艺知识的数字化管理与智能化应用提供了完整的技术解决方案｡

图 1 烧结智慧问答技术架构

1.1 数据提取与处理

高质量领域数据集的构建是烧结工艺大模型研究的基石｡针对烧结领域公开数据集稀缺､知识多存储于非结构化文本中的现状，本研究设计了一套从多源原始资料到标准化问答对的数据处理流程 (图 2)｡数据主要来源于两类：1) 扫描版专业书籍与技术报告；2) 学术数据库 (如知网､万方) 中的期刊论文､学位论文及专利。

图 2 烧结领域数据集构建流程

对于扫描文档，首先统一转换为 PDF 格式，随后采用 PaddleOCR 与 LayoutLMv3 等模型进行版面分析与文本提取，将内容还原为结构化的 Markdown 格式｡对于学术文献，则通过接口批量获取元数据 (标题､摘要等) 及全文信息｡关键步骤在于利用外部大语言模型，基于提取的 Markdown 文本或文献内容，通过精心设计的提示词工程自动化生成与烧结工艺相关的问答对｡为确保数据质量，后续开发了辅助工具并辅以人工校对，重点修正格式错误､公式渲染异常及内容不一致等问题｡最终，构建了一个包含 35019 条高质量问答对的烧结工艺专用数据集，为后续模型训练与知识检索提供了可靠的知识来源｡

1.2 基座模型选择

基座模型的选择需在模型能力､数据规模与计算资源间取得平衡｡Transformer 架构奠定了大语言模型的基础，其演进呈现出向垂直领域深化应用的趋势｡大模型的参数量通常与其能力边界正相关，但在有限的领域数据下，过大的参数规模易导致过拟合｡基于本研究所构建的 35019 条烧结专业数据及可用硬件资源 (两张 NVIDIA RTX 4090), 我们选择了 DeepSeek-R1-Distill-Qwen-7B作为基座模型｡该模型为经过蒸馏的 7B 参数模型，在保持较强推理能力的同时，对计算资源的要求相对适中，非常适合在有限规模但高价值的烧结领域数据上进行高效的微调与适配，为后续融合领域知识奠定了良好基础｡

1.3 LoRA 微调

为使通用大模型精准掌握烧结工艺的专业术语､参数间复杂关联及领域特有表达，对其进行微调至关重要｡考虑到领域数据规模有限及计算效率，本研究采用低秩自适应 (LoRA) 这一参数高效微调方法｡如图 3 所示，LoRA 的核心思想是不对预训练模型的全量参数 W 进行更新，而是通过引入两个低秩矩阵 A 和 B 的乘积 (BA) 来间接学习参数增量ΔW≈BA, 微调之后的权重矩阵更新为W’=W+ΔW=W+BA｡这种方式仅需训练极少量的参数，却能有效将烧结工艺知识注入模型，在显著降低计算开销和存储需求的同时，较好地控制了在有限数据上可能出现的过拟合风险，使模型在保留通用语言理解能力的基础上，深度融合烧结工艺的专业特性｡

图 3 LoRA 原理图

1.4 检索增强生成 (RAG)

为遏制大模型在专业场景下的 “幻觉” 问题，并确保生成的建议符合烧结工艺规程与物理约束，本研究集成了检索增强生成 (RAG) 机制｡RAG 的实施分为离线知识库构建与在线检索生成两阶段｡

离线阶段，将 2.1 节构建的烧结领域数据集作为知识源，对其进行文本分块､向量化嵌入 (采用如 BGE､ M3E 等嵌入模型) 并存入向量数据库 (如 FAISS)｡

在线阶段，当用户提问时，系统首先从向量数据库中检索出与问题语义最相关的若干知识片段｡随后，将这些片段作为上下文信息与用户问题一同构造成增强提示 (Prompt), 输入至已微调的大模型中生成最终答案｡此机制确保了模型的回答始终锚定在权威的领域知识库内，极大提升了输出内容的准确性与可靠性｡

1.5 评估方式构建

为科学评估所构建模型的性能，本研究设计了一套针对烧结工艺特点的自动化评估方案｡我们构建了一个包含 2000 道试题的评测集，题型涵盖选择题､判断题与问答题，内容全面涉及烧结原理､工艺参数､质量控制等核心知识，试题样例见表 1｡评估时，将模型对试题的生成答案与标准答案一同提交给一个高性能评审大模型 (如 DeepSeek-R1), 依据表 2 所定义的评分规则进行打分｡该规则从 “逻辑性､可读性､连贯性”(0~3 分) 和 “内容正确性及其与标准答案的近似程度”(0~7 分) 两个维度进行综合评价，总分10 分｡此方法能高效､相对客观地衡量模型在专业问答上的逻辑流畅度与事实准确性｡

表 1 测评试题样例

表 2 测评评分规则

2 试验结果

2.1 试验参数设置

为确定在特定硬件 (2 张 NVIDIA RTX 4090) 与数据规模 (35019 条问答对) 下的最优微调策略，本研究设计了两组对照试验，旨在系统性地探究模型参数量与关键训练参数对性能的影响｡第 1 组试验聚焦于基座模型参数规模的选择｡烧结领域数据规模有限的前提下，模型容量与过拟合风险需谨慎权衡｡试验选用同一系列 (基于 DeepSeek 蒸馏的 Qwen) 但参数量分别为 1.5B 和 7B 的模型，在保持其他超参数一致的条件下进行 LoRA 微调｡7B 模型在逻辑性 (2.6 vs. 2.2) 与正确性 (4.9 vs. 3.8) 上均显著优于 1.5B 模型 (表 3)｡这表明，对于本研究所构建的万条级高质量烧结数据集，7B 参数模型具备更强的知识容纳与复杂关系建模能力，而未表现出明显的过拟合迹象，因此其容量与本任务的复杂性更为匹配｡

表 3 模型参数规模微调评分汇总

第 2 组试验针对关键训练超参数进行优化｡批量大小 (Batch Size) 直接影响梯度估计的稳定性与训练效率｡试验对比了 Batch Size 为 8 和 16 的设置｡表 4 结果显示，时模型取得了最佳的综合评分 (总分 7.5)｡较大的 Batch Size 可能在本试验条件下提供了更稳定､噪声更低的梯度方向，从而使模型在有限的数据上学习到更泛化的领域表征，而非记忆训练样本的细节｡基于以上两组试验，本研究最终选定 DeepSeek-R1-Distill-Qwen-7B 作为基座模型，并采用 Batch 等参数进行后续微调｡训练过程共 20 轮，并定期保存检查点以供分析｡

表 4 模型微调参数试验评分汇总

2.2 微调过程分析

将前期提取并处理得到的 35019 条数据集按照训练集与测试集 9:1 的比例随机划分，作为训练数据开始模型的微调工作｡模型的训练动态是评估其学习状态的重要依据｡图 4 所示为 LoRA 微调过程中的训练损失与评估损失曲线｡可以观察到，训练损失持续平稳下降，表明模型在有效地学习任务｡然而，评估损失在约 200 步后开始呈现上升趋势｡这是一个经典的过拟合信号，意味着模型开始过度适应训练集的特有噪声或特定模式，从而导致其在未见过数据上的泛化能力下降｡为深入探究此现象并确定最优模型快照，本研究选取了 3 个典型阶段的检查点进行分析：训练初期 (step=100，, 损失下降期)､评估损失最低点（step=360）以及训练末期 (step=700, 损失上升期)｡为了节省算力资源，在监测到 eval_loss 有上升趋势之后可以进行早停处理，节约算力的同时还能节约一定的时间成本｡

图 4 LoRA 微调损失曲线

2.3 测评结果分析

首先使用基座模型即未经过微调训练的预训练模型与经过微调的模型进行推理效果的对比，结果见表 5｡选取两者中某相同输入查看输出结果可以发现，预训练模型的输出仅是在问题后依旧进行文字接龙的内容，输出长度甚至能达到限制的最大 token 值，其中虽然能看到一定的语言逻辑性，但是对于该问题抑或是烧结领域来说均无正确性可言｡经过微调后的预训练模型则是针对问题做出了推理以及回答，不仅学习到了语言的逻辑性，还根据提供的烧结训练数据反馈了输入问题相关的内容，正确性也有显著的提升，这强有力地证明了针对垂直领域进行参数高效适配是激活大语言模型专业知识的必要途径｡

表 5 模型是否微调评分汇总

在训练检查点与泛化能力的关系方面，对 3 个检查点的测评结果 (表 6) 与损失曲线揭示的趋势完全吻合：评估损失最低点 (step=360) 的模型取得了最佳性能 (总分 7.5)｡训练初期模型 (step=100) 尚未充分学习，而训练末期的模型 (step=700) 虽训练损失更低，但因过拟合导致其正确性显著下降 (3.9 vs. 4.9 此结果证实了采用 “早停” 策略､选择评估损失最低点模型的有效性，它是平衡模型学习充分性与泛化能力的关键｡

表 6 模型检查点评分汇总

在检索增强生成 (RAG) 的增益效果方面，将烧结领域相关的书籍､学术文献等经过嵌入､切片后作为可供模型参考的知识库｡最优微调模型基础上引入 RAG 机制后，模型性能得到进一步提升 (表 7)｡逻辑性评分从 2.6 小幅提高至 2.8, 而正确性评分实现了从 4.9 到 6.5 的显著跃升，总分达到 9.2｡这一现象具有深刻含义：LoRA 微调使模型掌握了烧结领域的 “语言” 和基础 “知识框架”, 而 RAG 机制则为模型在回答具体问题时动态提供了精准的 “事实依据” 和 “工艺约束”｡两者的结合，本质上是将大模型的强大生成推理能力，与外部知识库的精确性､权威性进行了深度融合，从而在根本上缓解了模型的 “幻觉” 问题，使系统输出不仅流畅合理，而且高度可靠､符合领域规范｡与现阶段的通用大模型 (Chat GPT) 相比，本研究缺少了模型的深度思考与联网思考能力，但是完全在垂直领域进行训练与知识库搭建使得本模型在事实准确性和领域合规性上都优于 Chat GPT｡这为构建可用于严肃工业辅助决策的 AI 系统提供了可靠的技术路径｡

表 7 模型 RAG 评分汇总

3 智能问答系统

3.1 系统设计

为实现烧结工艺智能问答与诊断模型的落地应用，本研究设计并开发了一套完整的交互式系统｡该系统采用前后端分离架构，旨在为用户提供直观､稳定且专业的领域智能问答服务｡系统整体架构由 3 个核心模块构成，前端交互界面基于 Vue.js 框架开发，利用 HTML､CSS 与 JavaScript 构建了简洁明了的 Web 界面｡该界面提供模型对话､多轮会话历史管理､答案格式化渲染 (支持关键词加粗､化学式与公式规范显示) 及会话记录导出等功能，致力于提升用户体验｡后端 API 服务采用轻量级 Flask 框架构建 RESTful API, 作为连接前端与核心模型引擎的桥梁｡后端负责接收用户查询，协调调度大语言模型推理与 RAG 检索流程，并将结构化结果返回前端｡核心模型引擎作为系统的 “智能中枢”, 集成了经过 LoRA 微调的烧结领域大语言模型与 RAG 检索模块｡该引擎接收后端调度，完成对用户问题的深度语义理解､知识检索与答案生成｡该设计确保了系统的模块化､可维护性与可扩展性，便于未来功能的迭代与模型升级｡

3.2 系统运行

系统运行前，需依次启动核心模型服务､加载 RAG 向量知识库并部署前后端应用｡用户通过浏览器访问统一入口即可使用｡系统运行流程包括启动大语言模型服务､接入 RAG 检索模块与部署前端应用｡用户通过 Web 浏览器访问系统后，可与模型进行多轮对话｡系统能够有效处理各类烧结工艺问题｡如图5示例所示，针对 “烧结过程中燃料的燃烧对烧结矿质量有哪些影响？” 这一专业问题，系统生成的答案条理清晰｡这验证了系统在专业知识呈现上的可靠性与实用性，使其能够真正服务于烧结工艺的辅助分析､员工培训与决策支持｡

图 5 烧结工艺智慧问答示例

4 总结与展望

4.1 总结

本文面向烧结工艺智能化转型中知识利用不足与决策依赖经验的挑战，构建了一套基于大语言模型 (LLM) 的烧结工艺智能问答与诊断系统｡核心工作与结论如下:

1) 构建了高质量的烧结工艺垂直领域数据集｡设计了一套从多源非结构化文本到问答对的自动化构建流程，经人工审核形成包含 35 019 条的高质量数据，为模型微调与检索增强生成 (RAG) 奠定了知识基础｡

2) 探索并验证了适用于烧结领域的 LLM 高效适配与增强方法｡通过系统性的参数试验，确定了在现有数据与算力条件下，采用 7B 参数模型并结合 LoRA 微调可获得最佳性能｡试验进一步表明，引入 RAG 机制能有效利用外部知识库，显著提升模型生成答案的事实准确性与领域合规性，整体模型评分从基座模型的 1.9 提升至 9.2 (满分 10.0), 为解决复杂工艺问题提供了 “知识增强” 的可靠路径｡

3) 开发了可交互的系统原型｡集成微调模型､RAG 模块与前后端界面，实现了灵活调用与多轮对话，验证了技术路线的可行性｡

综上所述，本研究通过 “领域数据构建 - 模型高效微调 - 知识动态增强” 的技术路径，将通用大模型转化为具备烧结专业知识的智能体，为流程工业的隐性知识数字化与智能化应用提供了实践范例。

4.2 局限性

本研究仍存在一定的局限性｡首先，所构建数据集的规模与知识覆盖范围仍有提升空间，这在一定程度上限制了模型对更复杂､罕见工况的泛化与推理能力｡其次，受限于算力资源，本研究未能探索参数量更大的基座模型，其潜在的更强推理能力有待在未来工作中验证｡此外，当前系统主要处理文本信息，尚未集成生产现场的实时传感器数据与图像信息，在实现与物理过程的深度闭环交互方面存在不足｡

4.3 未来展望

未来工作可以从以下 3 个方面深入开展：第一，持续扩充与优化领域数据集，纳入更多元的案例､更翔实的工艺手册及高质量的专家经验记录，夯实模型的知识基础｡第二，探索更先进的模型优化技术，例如引入基于人类反馈的强化学习 (RLHF) 来微调模型输出，使其更符合工程师的决策偏好与安全规范｡第三，推动系统向多模态智能方向发展，融合实时传感器数据流､设备运行图像与视频信息，构建能够 “感知 - 理解 - 决策” 的下一代烧结工艺智能体，最终实现从辅助问答到闭环优化控制的跨越，切实推动烧结工艺的智能化进程｡

作者：王耀祖刘栩瑞董磊郭贤张建良刘征建

暂无评论,等你抢沙发

特别推荐

对话侯康选：从“抢修”到“预防”，智能IT运维的正确打开方式

中小企业数字化转型框架与总路线图

一周热榜