<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>模型评估 on 棱镜空间</title>
    <link>https://pengjiyuan.github.io/tags/%E6%A8%A1%E5%9E%8B%E8%AF%84%E4%BC%B0/</link>
    <description>Recent content in 模型评估 on 棱镜空间</description>
    <generator>Hugo -- 0.146.0</generator>
    <language>zh-CN</language>
    <lastBuildDate>Thu, 09 Apr 2026 00:00:00 +0000</lastBuildDate>
    <atom:link href="https://pengjiyuan.github.io/tags/%E6%A8%A1%E5%9E%8B%E8%AF%84%E4%BC%B0/index.xml" rel="self" type="application/rss+xml" />
    <item>
      <title>GLM-5.1 深度解析：开源模型首次突破 1700 步自主执行，8 小时独立完成复杂任务</title>
      <link>https://pengjiyuan.github.io/articles/glm-5-1-long-horizon-agent-2026/</link>
      <pubDate>Thu, 09 Apr 2026 00:00:00 +0000</pubDate>
      <guid>https://pengjiyuan.github.io/articles/glm-5-1-long-horizon-agent-2026/</guid>
      <description>Z.ai 发布的 GLM-5.1 以 7540 亿参数的 MoE 架构，首次在开源模型中实现了 1700 步连续工具调用、8 小时自主工作能力。本文深度解析其「楼梯式优化」技术路径、SWE-Bench Pro 超越 Opus 4.6 的关键指标，以及对开源 Agent 生态的深远影响。</description>
    </item>
  </channel>
</rss>
