Job Shop Scheduling with deep RL
Overview 控制流和数据流与调度的联系? MT-FJSP DG-FJSP是一个有向无环图$ G=(O,C,D)$,图的不同路径可能代表调度解的各种可能性。 $O$是子任务节点, $C$是有向边,表示同一任务下不同子任务操作顺序 $D$是无向边,表示同一机器上不同子任务进行顺序 MDP 调度决策建模为MDP \(<S_t,A_t,R_t>\) $...
Overview 控制流和数据流与调度的联系? MT-FJSP DG-FJSP是一个有向无环图$ G=(O,C,D)$,图的不同路径可能代表调度解的各种可能性。 $O$是子任务节点, $C$是有向边,表示同一任务下不同子任务操作顺序 $D$是无向边,表示同一机器上不同子任务进行顺序 MDP 调度决策建模为MDP \(<S_t,A_t,R_t>\) $...
Control Flow Graph (CFG) Overview A Control Flow Graph (CFG) 是程序计算和控制流的图表示。用于建模程序的执行路径,是静态分析的核心。 Structure of a CFG The structure of a Control Flow Graph consists of two main components: Nodes...
REPOAUDIT: An Autonomous LLM-Agent for Repository-Level Code Auditing 动机 代码审计的迫切需求与挑战 代码库规模爆炸:现代软件系统代码量指数级增长,人工审计难以应对(如大型开源项目或企业级代码库)。 漏洞的复杂性:许多关键漏洞(如空指针解引用、内存泄漏)需要全局路径敏感分析,而传统...
代码生成框架A3-CodGen的深度解析与思考 一、研究背景与动机 核心痛点分析 当前主流LLM(如ChatGPT、GitHub Copilot)在代码生成中存在三大关键缺陷: 本地信息盲区: 无法感知当前模块的变量定义、类成员、函数签名等结构信息 导致生成代码时出现变量未声明、函数重名等基础错误(如”忘记提取标签文本再判断是否为列表项”的案例) ...
重点关注 5.3 主流模型架构 Mixture-of-Experts (MoE) 一种通过多个专家模型(Experts)协作提升性能的架构,常用于大规模模型中。 Depth-Up-Scaling (DUS) 一种通过扩展模型深度提升性能的技术,旨在突破传统模型的深度限制。 Causal Language Modeling (CLM) CLM 是自回归模型的一种特定形式,用于语言建模任...
Xnorm 规范化(Normalization)的核心是为了让不同层的输入取值范围或者分布能够比较一致。 在堆叠式的神经网络中,高层的网络会受到之前所有底层网络参数变化的影响,导致该高层网络的输入的分布产生较大的改变,这种现象被称为内部协变量偏移(Internal Covariate Shift)。随着网络深度的增大,这种差异会变得更加显著,从而影响模型的训练速度和最终性能。 输入分布变...
Transformer+In-Hand 参考资料 Attention Mechaism Encoder-Decoder Embedding Position Encoding Full Model
TRL LLAMA-FACTORY UNSLOTH RAG Transformer Reinforcement Learning TRL Github参考 强化学习TRL包源码解读 目前(2024.10.11)llamafactory 0.9.1与trl 0.11.2冲突 LLaMA-Factory LLaMA-Factory Github LLaMA Factory创始人讲述:从预训...
SFT RLHF DPO 大模型训练三步走,pre-training、SFT、RLHF。 1 LLM的SFT 参考资料 微调是一种有监督的技术手段,是在已具备广泛知识基础的大型预训练语言模型上(基座LLM),利用针对性的数据集实施额外的训练过程,旨在使模型更精准地契合特定任务需求或深入某一专业领域。微调的核心目标在于实现知识的精细化灌输与指令系统的精确匹配,所以SFT的重点是学习样式和指...
1.SCALING–ROTATION MANIFOLD FOR THE GEOMETRY OF COMPLEX NUMBERS Scenes and Background 如何处理流形数据,并将非欧几里德几何融入深度学习? 例如,在MR和合成孔径雷达图像中,一张图片的像素强度值可以通过复数 $s=me^{j\theta}$ 进行任意缩放,其中所有像素值同时按m进行幅度缩放并通过 $\th...