通知 + 心得

重要通知：网站更新计划变更

自 2025年4月20日起，建站内容将全面转向 AI Agent 自动更新。

建站相关技术更新主要作为本人对博客更新日志
其他内容聚焦机器学习（ML）、深度学习（DL）、大语言模型（LLMs）等领域的核心思考。

由于CNNs， RNNs，NLP，Attention，Transformer 和Bert相关内容最开始是手写的理论笔记，内容还未整理完。（夸一下 Qwen3 对中英文手写识别的能力，真的太棒了，我直接拍照识别。省去我不少时间，但审核内容和找图片，和引用仍然需要大量工作）

从2022年底开始使用 ChatGPT-3.5 就一发不可收拾，现在算是尝遍百草了（当然他们也在随着时间更新），可以简单介绍一下感想。但同时，时间精力有限，一般觉得什么模型好用就一直用了，不是突然有天觉得 “怎么变难用了” 是不会换一个模型的。

其实我觉得 AI平台就得多玩，玩多了就知道有什么问题了，我每天都离不开这些平台，把DeepSeek和Qwen当google使用；跟豆包叭叭聊两句；用ChatGPT学习和整理资料，偶尔练一下英语口语……

ChatGPT (4o，4.1，mini-4o-high)：（喜欢度Top 1 的产品，2年多尊贵会员）
- 优点：
  - 对文章整理、阅读理解、信息摘要做的非常好。省略废话同时重要信息（细节）保留度非常高。
  - 做任务非常”听话“，极少出现自动补充信息的情况
  - 对知识性内容的纠错和准确度有很强的“边界感”。
- 缺点：
  - 中文有时候太简洁，突然冒出文言文的感觉，比如：强烈建议系统学一遍 --> 强建议系统学一遍
  - 之前 DeepSeek 出来后，ChatGPT 被卷出“Thinking…”功能，强行输出推理过程，结果做得很烂，我有段时间直接弃坑。现在他们又回归正常。
    - DeepSeek 的推理过程条理更清晰，直接能拿来当参考。
    - 但 ChatGPT 不是开源，内部规范复杂（还有法律/隐私问题），所以在输出推理过程时各种限制，实际参考价值很有限。
DeepSeek-V3
- 对语言创造类任务表现超好，可能源于母语优势
- 入坑的原因是朋友推荐用来算命，hhhh，那个时候准确度极高（我个人有两件事是应验了）
- 技术储备丰富：
  - 优点：讲解知识的时候，会比ChatGPT输出更多细节
  - 缺点：但有些东西是错误的，特别是讲解相对深奥一点的理论数学。还有就是会扩展回答，说一些我根本不需要的东西。
- Thinking... 功能有点意思，如果你想提升逻辑推理能力，可以照着 DeepSeek 的思路学一学。
Qwen3
- 性能不稳定，有时候很棒，有时候一言难尽。
- 中文手写识别必须表扬，准确率高到离谱，有些连人都要犹豫的字它也能认对（可能有校准？）。
  - 但也会翻车，比如：对中文手写识别必须夸一下 --> 对中文手写识别心页夸一下（所以到底有没有校准过语义？）
- 修改代码挺不错的，比如我写了个 ChatGPT API 的小demo，里面使用了 Python 代码嵌入了 markdown+js+html，ChatGPT 改静态页面时会把 Python 代码一锅端，导致功能失效。但 Qwen 就可以很好识别出代码结构，只修改静态页面内容。
- “不听话”，对知识性内容边界感很差。让它整理笔记会自己乱加数据，比如：实测可减少约30%未登录词，我问数据怎么来的，它说可能源于经验总结和行业通用认知。ChatGPT给它说好话，说它可能是输入了很多业界的经验数据，建议我还是保留原文。
- 其实想说 Qwen 是第二心头好，但是发现它非常不稳定，决定换成 DeepSeek+ChatGPT 联合使用了，Qwen放一放。
豆包
- 进步很快，尤其是语音，刚出的时候说话风格像 TikTok/抖音“擦边女”，现在说话正常多了。
- 中文豆包的表达，给我一种受教育程度不高的样子，适合轻松闲聊。
  - 这就是一个典型的语料比例问题：像 Common Crawl 是爬虫抓下来的网页数据或是TikTok/抖音中的数据，量非常大，但质量参差不齐。而 Wikipedia 这样的内容结构清晰、知识性强，质量高但量很少。如果不控制比例，那大语料（比如 Common Crawl）会把小语料（像 Wikipedia）淹没掉。这样模型就容易只学到网页或者抖音的语言的风格，而忽视那些高质量的内容。这也是为什么我们要控制不同数据源的采样比例。OpenAI对这方面就做的很好，像 GPT-3，它对 Common Crawl 采样六成左右，但会对 Wikipedia 重复采样，比如三点四个 epoch，确保模型“看”更多高质量文本，提升泛化能力。
- 中文豆包遇到超纲话题，“废话文学”水平拉满，能把话题优雅地转走（这点倒可以学一学，不想回答又不失礼貌，hhh）。
  - 模型在不同语境和不同用户需求之间，如何动态调整语言风格和信息严谨度，这也是大模型面临的一个挑战。
  - 目前公司的做法就是找一个平衡点。
    - 第一是在数据源上分配比例，比如让医疗场景内容占一定权重；
    - 第二是指令微调阶段加入“医疗场景”的问答样本，教会模型怎么在这类问题上严肃、准确；
    - 第三就是对敏感问题加安全策略，比如不给药物建议，或者推荐去看医生。
- 英文陪练试过几天，还是那个问题，口音很TikTok风，而且我觉要少一点高傲，这是可以通过语言和语调感受到的。
- 更一下：豆包的团队厉害啊！我妈居然告诉我她靠豆包在武汉导航坐地铁，找某个站附近的美食，怎么转车，旅行攻略。我妈找美食教程，豆包可以直接给她发抖音视频，只不过播放需要跳转抖音才能播。
- 非常喜欢豆包的屏幕分享通话功能，我可以在通话中直接问我在某个软件中怎么操作，豆包会直接给我操作步骤。还可以帮我读取分屏的内容，我可以更好专注在主屏幕！
Cursor：AI Agent写代码的，挺好用的，但免费版效果有限。处理复杂任务同时多文件代码，挺不错的。
Gork：下面放的Qwen，不太好用
Gemini：
- 我以前觉得Gemini不太好用，但最近发现了一个插件，能自动识别学习视频的内容并整理成笔记，体验太好了。这个插件默认用的是Gemini 2.5 Flash Lite模型，整理了一个32分钟的技术视频，重要信息一个不落，笔记结构清晰。
- 不是那种视频网站自带的“总结功能”，那种总结纯属摆设，看完和没看差不多。
- 我还试了下，把字幕丢到ChatGPT-4o和DeepSeek-R1。ChatGPT整理出来就不行（内容多且复杂且错误词语很多），DeepSeek-R1直接把几千字的内容总结成几句废话，完全没用。
- 最大的难点在于，32分钟视频字幕巨长，UP主说话有口音，字幕识别经常出错，这就要求模型能根据上下文自动纠错。
- 还有就是内容分块的逻辑，Gemini好像能跟着视频节奏梳理知识点，分章节分得很合理（比如一个知识点到底归到上一个章节还是下一个章节，这很重要）。
- 准得简直像偷看了屏幕一样
Claude：必须美区，要花钱买credits了
GoogleLabs：做视频生成的，非常厉害，仿真程度很牛，自动配音（很有名的会说话的大猩猩）
perplexity：做市场调研很不错，比如：年轻人最喜欢什么宠物服务
MiniMax AI：这个就是AI Agent，还不错
Sesame：AI对话的研究（语气，语调，节奏），可以玩一下demo
Trae：不知道是不是付费的原因，可以读的文件和数据更多，文字内容创作和搜索性的工作做的不错。但是处理代码任务感觉不太行，特别是多文件协同处理一个任务。
- SOLO 的 waitlist。听说很强大，期待一下。
- solo已经用上，感觉没什么区别，只是功能更加强大了。

学习过程+心得

李沐《手动深度学习+PyTorch》视频 + 书
- 李沐老师的讲解非常清晰，无论理论、实践还是应用发展，都很有条理，强烈建议系统学一遍。
- 全部笔记我博客有完整版，可以参考，最好还是自己写一遍。
- 这本书定位入门，数学难度适中，但如果手动从零实现代码，依然需要花点精力：
  - 理论：一方面要理解基本理论，或许还有原版paper的数学公式和模型
  - 实现：另一方面要记住（或者跟着推）较长的底层实现过程。
- 一开始可能有点难熬，但坚持下来，3-4周理论和实战都能刷得很透。
- 备注：我有数学背景，所以公式变化对我来说没啥障碍。但其实公式不是大难点。如果看不懂，直接把公式当成"程序语言"理解，让deepseek、ChatGPT、Qwen等工具给你拆解：x是输入，y是输出，其他的都只是"进阶加减乘除"。本质就是一步步的程序，别被符号吓住。
《大语言模型：从理论到实践（第二版）》-- 张奇、桂韬、郑锐、黄萱菁
- 这本书我挺喜欢的，知识非常详细和扎实，严谨度高
- 主要学的就是Transformer底层，GPT底层，DeepSeek-V3底层，一些Attention优化的思想
阅读量大核心大模型论文InstructGPT 和 DeepSeek-V3
- 里面有很多很棒的思想和技术
学习应用技术，Rag（LangChain,Llamaindex），LangGraph，Agent，MCP应用技术，Agent+MCP企业级高并发相关设计。dify,Coze可以玩一下。