通知 + 心得
重要通知:网站更新计划变更
自 2025年4月20日 起,建站内容将全面转向 AI Agent 自动更新。
- 建站相关技术更新主要作为本人对博客更新日志
- 其他内容聚焦 机器学习(ML)、深度学习(DL)、大语言模型(LLMs) 等领域的核心思考。
由于CNNs, RNNs,NLP,Attention,Transformer 和Bert相关内容最开始是手写的理论笔记,内容还未整理完。(夸一下 Qwen3 对中英文手写识别的能力,真的太棒了,我直接拍照识别。省去我不少时间,但审核内容和找图片,和引用仍然需要大量工作)
从2022年底开始使用 ChatGPT-3.5 就一发不可收拾,现在算是尝遍百草了(当然他们也在随着时间更新),可以简单介绍一下感想。但同时,时间精力有限,一般觉得什么模型好用就一直用了,不是突然有天觉得 “怎么变难用了” 是不会换一个模型的。
其实我觉得 AI平台就得多玩,玩多了就知道有什么问题了,我每天都离不开这些平台,把DeepSeek和Qwen当google使用;跟豆包叭叭聊两句;用ChatGPT学习和整理资料,偶尔练一下英语口语……
-
ChatGPT (4o,4.1,mini-4o-high):(喜欢度Top 1 的产品,2年多尊贵会员)
- 优点:
- 对文章整理、阅读理解、信息摘要做的非常好。省略废话同时重要信息(细节)保留度非常高。
- 做任务非常”听话“,极少出现 自动补充信息的情况
- 对知识性内容的纠错和准确度有很强的“边界感”。
- 缺点:
- 中文有时候太简洁,突然冒出文言文的感觉,比如:
强烈建议系统学一遍-->强建议系统学一遍 - 之前 DeepSeek 出来后,ChatGPT 被卷出“Thinking…”功能,强行输出推理过程,结果做得很烂,我有段时间直接弃坑。现在他们又回归正常。
- DeepSeek 的推理过程条理更清晰,直接能拿来当参考。
- 但 ChatGPT 不是开源,内部规范复杂(还有法律/隐私问题),所以在输出推理过程时各种限制,实际参考价值很有限。
- 中文有时候太简洁,突然冒出文言文的感觉,比如:
- 优点:
-
DeepSeek-V3
- 对语言创造类任务表现超好,可能源于母语优势
- 入坑的原因是朋友推荐用来算命,hhhh,那个时候准确度极高(我个人有两件事是应验了)
- 技术储备丰富:
- 优点:讲解知识的时候,会比ChatGPT输出更多细节
- 缺点:但有些东西是错误的,特别是讲解相对深奥一点的理论数学。还有就是会扩展回答,说一些我根本不需要的东西。
Thinking...功能有点意思,如果你想提升逻辑推理能力,可以照着 DeepSeek 的思路学一学。
-
Qwen3
- 性能不稳定,有时候很棒,有时候一言难尽。
- 中文手写识别必须表扬,准确率高到离谱,有些连人都要犹豫的字它也能认对(可能有校准?)。
- 但也会翻车,比如:
对中文手写识别必须夸一下-->对中文手写识别心页夸一下(所以到底有没有校准过语义?)
- 但也会翻车,比如:
- 修改代码挺不错的,比如我写了个 ChatGPT API 的小demo,里面使用了 Python 代码嵌入了 markdown+js+html,ChatGPT 改静态页面时会把 Python 代码一锅端,导致功能失效。但 Qwen 就可以很好识别出代码结构,只修改静态页面内容。
- “不听话”,对知识性内容边界感很差。让它整理笔记会自己乱加数据,比如:实测可减少约30%未登录词,我问数据怎么来的,它说可能源于经验总结和行业通用认知。ChatGPT给它说好话,说它可能是输入了很多业界的经验数据,建议我还是保留原文。
- 其实想说 Qwen 是第二心头好,但是发现它非常不稳定,决定换成 DeepSeek+ChatGPT 联合使用了,Qwen放一放。
-
豆包
- 进步很快,尤其是语音,刚出的时候说话风格像 TikTok/抖音“擦边女”,现在说话正常多了。
- 中文豆包的表达,给我一种受教育程度不高的样子,适合轻松闲聊。
- 这就是一个典型的语料比例问题:像 Common Crawl 是爬虫抓下来的网页数据 或是TikTok/抖音中的数据,量非常大,但质量参差不齐。而 Wikipedia 这样的内容结构清晰、知识性强,质量高但量很少。如果不控制比例,那大语料(比如 Common Crawl)会把小语料(像 Wikipedia)淹没掉。这样模型就容易只学到网页或者抖音的语言的风格,而忽视那些高质量的内容。这也是为什么我们要控制不同数据源的采样比例。OpenAI对这方面就做的很好,像 GPT-3,它对 Common Crawl 采样六成左右,但会对 Wikipedia 重复采样,比如三点四个 epoch,确保模型“看”更多高质量文本,提升泛化能力。
- 中文豆包遇到超纲话题,“废话文学”水平拉满,能把话题优雅地转走(这点倒可以学一学,不想回答又不失礼貌,hhh)。
- 模型在不同语境和不同用户需求之间,如何动态调整语言风格和信息严谨度,这也是大模型面临的一个挑战。
- 目前公司的做法就是找一个平衡点。
- 第一是在数据源上分配比例,比如让医疗场景内容占一定权重;
- 第二是指令微调阶段加入“医疗场景”的问答样本,教会模型怎么在这类问题上严肃、准确;
- 第三就是对敏感问题加安全策略,比如不给药物建议,或者推荐去看医生。
- 英文陪练试过几天,还是那个问题,口音很TikTok风,而且我觉要少一点高傲,这是可以通过语言和语调感受到的。
- 更一下:豆包的团队厉害啊!我妈居然告诉我她靠豆包在武汉导航坐地铁,找某个站附近的美食,怎么转车,旅行攻略。我妈找美食教程,豆包可以直接给她发抖音视频,只不过播放需要跳转抖音才能播。
- 非常喜欢豆包的屏幕分享通话功能,我可以在通话中直接问我在某个软件中怎么操作,豆包会直接给我操作步骤。还可以帮我读取分屏的内容,我可以更好专注在主屏幕!
-
Cursor:AI Agent写代码的,挺好用的,但免费版效果有限。处理复杂任务同时多文件代码,挺不错的。
-
Gork:下面放的Qwen,不太好用
-
Gemini:
- 我以前觉得Gemini不太好用,但最近发现了一个插件,能自动识别学习视频的内容并整理成笔记,体验太好了。这个插件默认用的是Gemini 2.5 Flash Lite模型,整理了一个32分钟的技术视频,重要信息一个不落,笔记结构清晰。
- 不是那种视频网站自带的“总结功能”,那种总结纯属摆设,看完和没看差不多。
- 我还试了下,把字幕丢到ChatGPT-4o和DeepSeek-R1。ChatGPT整理出来就不行(内容多且复杂且错误词语很多),DeepSeek-R1直接把几千字的内容总结成几句废话,完全没用。
- 最大的难点在于,32分钟视频字幕巨长,UP主说话有口音,字幕识别经常出错,这就要求模型能根据上下文自动纠错。
- 还有就是内容分块的逻辑,Gemini好像能跟着视频节奏梳理知识点,分章节分得很合理(比如一个知识点到底归到上一个章节还是下一个章节,这很重要)。
- 准得简直像偷看了屏幕一样

-
Claude:必须美区,要花钱买credits了
-
GoogleLabs:做视频生成的,非常厉害,仿真程度很牛,自动配音(很有名的会说话的大猩猩)
-
perplexity:做市场调研很不错,比如:年轻人最喜欢什么宠物服务
-
MiniMax AI:这个就是AI Agent,还不错
-
Sesame:AI对话的研究(语气,语调,节奏),可以玩一下demo
-
Trae:不知道是不是付费的原因,可以读的文件和数据更多,文字内容创作和搜索性的工作做的不错。但是处理代码任务感觉不太行,特别是多文件协同处理一个任务。
- SOLO 的 waitlist。听说很强大,期待一下。
- solo已经用上,感觉没什么区别,只是功能更加强大了。
学习过程+心得
-
李沐《手动深度学习+PyTorch》视频 + 书
- 李沐老师的讲解非常清晰,无论理论、实践还是应用发展,都很有条理,强烈建议系统学一遍。
- 全部笔记我博客有完整版,可以参考,最好还是自己写一遍。
- 这本书定位入门,数学难度适中,但如果手动从零实现代码,依然需要花点精力:
- 理论:一方面要理解基本理论,或许还有原版paper的数学公式和模型
- 实现:另一方面要记住(或者跟着推)较长的底层实现过程。
- 一开始可能有点难熬,但坚持下来,3-4周理论和实战都能刷得很透。
- 备注:我有数学背景,所以公式变化对我来说没啥障碍。但其实公式不是大难点。如果看不懂,直接把公式当成"程序语言"理解,让deepseek、ChatGPT、Qwen等工具给你拆解:x是输入,y是输出,其他的都只是"进阶加减乘除"。本质就是一步步的程序,别被符号吓住。
-
《大语言模型:从理论到实践(第二版)》-- 张奇、桂韬、郑锐、黄萱菁
- 这本书我挺喜欢的,知识非常详细和扎实,严谨度高
- 主要学的就是Transformer底层,GPT底层,DeepSeek-V3底层,一些Attention优化的思想
-
阅读量大核心 大模型论文InstructGPT 和 DeepSeek-V3
- 里面有很多很棒的思想和技术
-
学习应用技术,Rag(LangChain,Llamaindex),LangGraph,Agent,MCP应用技术,Agent+MCP企业级高并发相关设计。dify,Coze可以玩一下。
“觉得不错的话,给点打赏吧 ୧(๑•̀⌄•́๑)૭”
微信支付
支付宝支付