AI Agent

发表于 2026-06-30 分类于 AI 本文字数： 3.6k 阅读时长 ≈ 13 分钟

当前关于 Agent 工程的两大业内共识：

使用文件系统作为上下文（如使用文件保存 Agent 长期记忆，如 OpenClaw 的 SOUL.md/TOOLS.md/MEMORY.md 等）
编程是解决通用问题的一种普适方法（AI 更擅长使用代码解决问题：问题->生成代码->执行代码->Again->直到问题解决）

常用设计模式

ReAct 模式

ReAct 智能体的运作基于一个循环过程（不断迭代更新），包括以下三个步骤：

推理（Reasoning）：依赖 LLM，分析当前任务状态，生产内部推理，决定下一步行动，核心思想是 CoT（Chain of Thought）
执行（Acting）：根据上一步的推理结果，执行具体的操作，例如查询信息或调用外部工具（Function Tool，MCP， Shell 命令，代码执行等），具体依赖宿主机的执行环境与应用场景
观察（Observation）：观察行动的结果，将反馈用于下一轮的思考；或者观察到已经判断是最终的答案，则整理输出结果

核心思想是交替进行“推理 → 行动 → 观察”。
典型流程：

Thought（思考）
Action（调用工具）
Observation（获取结果）

适用于：

需要外部工具（搜索、数据库、API）
非一次性可解问题

特点：强化可解释性，但推理链较长、成本高。

**实现原理： **

思考和 Action 是通过 prompt 实现的，以下为 ReAct 的一个 prompt

Answer the following questions as best you can. You have access to the following tools:

{tools}

Use the following format:

Question: the input question you must answer
Thought: you should always think about what to do
Action: the action to take, should be one of [{tool_names}]
Action Input: the input to the action
Observation: the result of the action
... (this Thought/Action/Action Input/Observation can repeat N times)
Thought: I now know the final answer
Final Answer: the final answer to the original input question

Begin!

Question: {input}
Thought:{agent_scratchpad}

案例：特斯拉股票多少钱？

Thought: 需要获取特斯拉股价
Action: get_stock_price
Action Input: Tesla

Observation: 180 USD

Thought: 需要汇率
Action: usd_to_cny

Observation: 7.2

Thought: 需要计算
Action: calculate
Action Input: 180*7.2

Observation: 1296

Final Answer: 约1296人民币

阅读全文 »

RAG学习笔记

发表于 2026-06-10 更新于 2026-06-30 分类于 AI 本文字数： 2.7k 阅读时长 ≈ 10 分钟

RAG，全称 Retrieval Augmented Generation（检索增强生成）

大致分为两个阶段：

离线阶段：数据入库
在线阶段：检索生成

离线阶段主要做：

1	文档解析 → 数据清洗 → 文档分块 → 向量化 → 建索引

在线阶段主要做：

1	用户提问 → 查询改写 / 知识库选择 → 召回 → 重排 → Top K 过滤 → 拼接上下文 → 大模型生成回答

文档解析与数据清洗

文档解析

多格式适配：兼容各种文件格式，如 PDF、Word、Markdown、HTML、JSON、TXT 甚至 Excel
内容提取：从原始文件中剥离出“净文本”。
- 如果是 PDF，需要解析文字层；如果是扫描件，则需要 OCR。
- 如果是 HTML，需要剔除脚本、样式表，只保留正文。
元数据（Metadata）提取：在提取文本的同时，记录文档的属性，如：文件名、页码、标题、作者、创建时间、章节层级等。
数据清洗：去除文档中的冗余信息，如乱码、过多的空格、特殊的非打印字符、邮箱、版权声明、水印文案等。

阅读全文 »

杜架的记录与分享(020期)

发表于 2025-12-29 更新于 2026-06-30 分类于杜架的记录与分享本文字数： 3.2k 阅读时长 ≈ 11 分钟

杜架的记录与分享，记录与思考有价值的信息，主要包含：碎片化思考，阅读笔记分享，软件分享，内容记录等。内容主题有极大的个人喜好偏向，爱我所爱，想我所想，写我所写。

黑娃演义

笔记

在京东或者在电商平台，大模型主要应用于什么方向？可否举几个例子？

InfoQ：在京东或者在电商平台，大模型主要应用于什么方向？可否举几个例子？
翟周伟：在电商领域主要在用户交互，意图理解和商品理解，商品召回和相关性，以及文案创意生成等方向。在用户交互上重点利用大模型的对话能力进行对话式交互导购，例如我们的京言 AI 助手，意图理解和商品理解上核心是利用大模型的超强理解能力进一步提升用户需求识别的准确性以及商品信息的精准建模，商品召回和相关性上的一个典型例子就是用大模型做商品的增强召回，用大模型对用户需求和商品 SKU 做相关性，文案生成应用上利用大模型来生成图文并茂的营销文案，大模型评论总结等。

来源：https://developer.jdcloud.com/article/3983

谷歌 AI 怎么就突然逆袭了？搜索负责人把背后的逻辑讲透了

组织变革
花了很多时间去“减负”。精简流程、缩短决策链、打破壁垒。
流程优化
快速试错、快速验证，谷歌正在从“做对的事”转向“先把事做出来”，这种节奏特别像创业公司。
文化
关键是文化。如果公司允许你尝试、允许你失败，那团队就敢冒险。当人们感受到“只要在创造，就不会被惩罚”，他们就会主动去推动创新。

来源：https://www.toutiao.com/article/7561353257898066468/?wid=1760584043900

AI 代理的上下文工程：构建 Manus 的经验教训

https://manus.im/zh-cn/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus

Manus上下文工程
Manus 分享了构建 AI 代理的上下文工程经验教训。基于上下文工程而非端到端模型训练，项目强调 KV 缓存命中率对于降低成本与延迟至关重要，建议保持提示前缀稳定、使上下文只追加操作并使用文件系统作为无限制的外部记忆。此外，避免动态变更工具，改用遮蔽技术管理动作空间；通过重述任务（如维护 todo.md）操控模型注意力；保留错误上下文以促进自我适应；谨慎使用少样本示例，增加多样性打破僵化模式。这些实践帮助实现了代理的稳定性和高效性，特别适用于大规模生产环境。

阅读全文 »

AI 大模型工作流开发

发表于 2025-12-29 更新于 2026-06-30 分类于 AI 本文字数： 27 阅读时长 ≈ 1 分钟

深入理解 MCP

发表于 2025-12-29 更新于 2026-06-30 分类于 AI 本文字数： 23 阅读时长 ≈ 1 分钟

大模型微调

发表于 2025-12-29 更新于 2026-06-30 分类于 AI 本文字数： 23 阅读时长 ≈ 1 分钟

MyBoot - 类似 Spring Boot 的 Python 快速开发框架

发表于 2025-11-10 更新于 2026-06-30 分类于开发框架本文字数： 844 阅读时长 ≈ 3 分钟

MyBoot - 类似 Spring Boot 的 Python 快速开发框架

MyBoot 是一个功能丰富的 Python Web 框架，提供类似 Spring Boot 的自动配置和快速开发功能。它集成了 Web API、定时任务、日志管理、配置管理等核心功能，让您能够快速构建现代化的 Python 应用程序。

✨ 主要特性

🚀 快速启动: 类似 Spring Boot 的自动配置和快速启动
🎯 约定优于配置: 遵循约定，减少配置工作，自动发现和注册组件
🌐 Web API: 基于 FastAPI 的高性能 Web API 开发
🌐 REST API 统一响应格式
⚡ 高性能服务器: 默认使用 Hypercorn 服务器，支持 HTTP/2 和多进程
⏰ 定时任务: 强大的任务调度系统，支持 Cron 表达式和间隔任务
📝 日志管理: 基于 loguru 的强大日志系统，支持结构化日志和第三方库日志控制
⚙️ 配置管理: 基于 Dynaconf 的强大配置系统，支持 YAML 配置、环境变量覆盖和远程配置
🔧 中间件支持: 丰富的中间件生态，包括 CORS、限流、安全等
📊 健康检查: 内置健康检查、就绪检查和存活检查
🎯 依赖注入: 简单的依赖注入和组件管理
🔄 优雅关闭: 支持优雅关闭和资源清理
📚 自动文档: 自动生成 API 文档和交互式界面

阅读全文 »

摄影学习笔记

发表于 2025-09-30 更新于 2026-06-30 分类于笔记本文字数： 415 阅读时长 ≈ 2 分钟

曝光三要素

曝光三要素：光圈，快门速度，ISO

光圈影响景深
快门影响动态模糊
感光度影响画质和快门速度

光圈

关于光圈，可以选择相机最大光圈小一档(小于 F2.8 不需要)，
例如：最大光圈 f2.0,选择 f2.2 可以避免跑焦问题

最佳光圈一般为最小光圈向上 2-3 档，在我的相机为 F11

场景推荐：

一般拍人/静物,需要突出主题，背景模糊：F2.2
人文拍摄，需要交代环境，带点背景：F5.6
商业/风光，需要细节清晰：F11

光圈优先，选择 A 模式就，意味着快门+ISO 由相机自动调节，满足日常人像/静物摄影

快门速度

快门优先，选择 S 模式，意味着光圈+ISO 由相机自动调节，满足

快门速度越快，画面越暗

人文题材/新闻报道：1/125
行人/跑动的小孩：1/500
高速快门：1/2000
拍摄雨丝：1/15 - 1/60 （要用三脚架）
瀑布流水：5-10 秒要用三脚架）

快门速度

安全快门：1/50 其中分母为焦段

感光度

感光度越高画质越差

建议不要随意调整

80% 参考以下参数

环境亮度足够，太阳天，室内光线充裕 ISO: 100
环境亮度一般，阴天，树荫，室内光线一般 ISO: 200-320
环境亮度较弱，清晨，傍晚，夜景，ISO: 800

白平衡

白平衡可以调节色温，暖色，冷色系

白平衡偏移

白平衡偏移使用经验：

多用大光圈，色彩统一

修图大师 - 限制 AI 修图能力的不是修图大师，而是你的想象力

发表于 2025-08-21 更新于 2026-06-30 分类于 SideProject 本文字数： 814 阅读时长 ≈ 3 分钟

媳妇考试报名老是需要处理照片，不是大小限制，就是尺寸限制。最近闲来无事，看着 AI 技术大爆发，手痒难耐，遂写一个修图大师。古有为媳妇开发菜谱的 elasticsearch,今有为媳妇修图的修图大师。

https://xiutu.trumandu.top/

修图大师

🎯 核心功能概览

修图大师是一款专业的在线图片处理工具，无需下载软件，除了 AI 修图以外都免费。在线即可完成各种图片编辑需求。目前支持以下五大核心功能：

1. 🤖 AI 智能修图 ⭐ （免费试用）

智能美化：使用先进的人工智能技术，一键美化照片，提升图片质量
自然语言编辑：通过文字描述即可完成复杂的图片修改，如”去除背景”、”添加阳光效果”、”变成油画风格”、”一键去除行人”、”修改海报，添加与修改文字“
批量处理：支持多种修改指令组合，一次描述所有改动点

AI 修图特色功能：

✨ 风格转换：油画、复古、现代等多种艺术风格
✨ 智能美化：自动美颜、背景虚化、瑕疵修复
✨ 场景重构：添加蓝天白云、修改背景色、更换服装
✨ 专业调节：文本权重控制、种子数设置、水印选项

AI 智能修图

阅读全文 »

杜架的记录与分享(019期)

发表于 2025-08-06 更新于 2026-06-30 分类于杜架的记录与分享本文字数： 5.1k 阅读时长 ≈ 19 分钟

杜架的记录与分享，记录与思考有价值的信息，主要包含：碎片化思考，阅读笔记分享，软件分享，内容记录等。内容主题有极大的个人喜好偏向，爱我所爱，想我所想，写我所写。

最后生还者 1

最近在 PS5 上通关了《最后生还者 1》，这部号称美末，挺值得玩的游戏，总体来说还不错，让人在游戏中融入一场冒险之旅，一个人玩游戏其实挺考验耐心的，我最缺乏的品质耐心算一个。小时候在地里干活，总是望着田间地头，挨个数，还有几棵树才能干完农活，种地也确实是一个磨耐性的劳作，小时候觉的时间太长，长大了觉的时间又很短。

思考

在 V 站看到一个帖子，主要讲开发面向程序员产品很难盈利，很赞同他说的一些话，记录一下，下一次开发产品拿来警示自己。

程序员的思维链是：

这个需求值得去花钱吗？不值得——“手动弄下算了，还是省点钱吧”。

有没有开源免费版或者绿色版？如果有——“咱有技术就是牛，又省钱了”。

就这点东西还想套我的钱？我自己做一个撒——“咱都是同行，想忽悠我？没门”

99% 的小众产品经不起以上灵魂三问。

阅读全文 »