通知 + 心得

重要通知:网站更新计划变更

自 2025年4月20日 起,建站内容将全面转向 AI Agent 自动更新。

  • 建站相关技术更新主要作为本人对博客更新日志
  • 其他内容聚焦 机器学习(ML)、深度学习(DL)、大语言模型(LLMs) 等领域的核心思考。

由于CNNs, RNNs,NLP,Attention,Transformer 和Bert相关内容最开始是手写的理论笔记,内容还未整理完。(夸一下 Qwen3 对中英文手写识别的能力,真的太棒了,我直接拍照识别。省去我不少时间,但审核内容和找图片,和引用仍然需要大量工作)


从2022年底开始使用 ChatGPT-3.5 就一发不可收拾,现在算是尝遍百草了(当然他们也在随着时间更新),可以简单介绍一下感想。但同时,时间精力有限,一般觉得什么模型好用就一直用了,不是突然有天觉得 “怎么变难用了” 是不会换一个模型的。

其实我觉得 AI平台就得多玩,玩多了就知道有什么问题了,我每天都离不开这些平台,把DeepSeek和Qwen当google使用;跟豆包叭叭聊两句;用ChatGPT学习和整理资料,偶尔练一下英语口语……

  1. ChatGPT (4o,4.1,mini-4o-high):(喜欢度Top 1 的产品,2年多尊贵会员)

    • 优点:
      • 对文章整理、阅读理解、信息摘要做的非常好。省略废话同时重要信息(细节)保留度非常高。
      • 做任务非常”听话“,极少出现 自动补充信息的情况
      • 对知识性内容的纠错和准确度有很强的“边界感”。
    • 缺点:
      • 中文有时候太简洁,突然冒出文言文的感觉,比如:强烈建议系统学一遍 --> 强建议系统学一遍
      • 之前 DeepSeek 出来后,ChatGPT 被卷出“Thinking…”功能,强行输出推理过程,结果做得很烂,我有段时间直接弃坑。现在他们又回归正常。
        • DeepSeek 的推理过程条理更清晰,直接能拿来当参考。
        • 但 ChatGPT 不是开源,内部规范复杂(还有法律/隐私问题),所以在输出推理过程时各种限制,实际参考价值很有限。
  2. DeepSeek-V3

    • 对语言创造类任务表现超好,可能源于母语优势
    • 入坑的原因是朋友推荐用来算命,hhhh,那个时候准确度极高(我个人有两件事是应验了)
    • 技术储备丰富:
      • 优点:讲解知识的时候,会比ChatGPT输出更多细节
      • 缺点:但有些东西是错误的,特别是讲解相对深奥一点的理论数学。还有就是会扩展回答,说一些我根本不需要的东西。
    • Thinking... 功能有点意思,如果你想提升逻辑推理能力,可以照着 DeepSeek 的思路学一学。
  3. Qwen3

    • 性能不稳定,有时候很棒,有时候一言难尽。
    • 中文手写识别必须表扬,准确率高到离谱,有些连人都要犹豫的字它也能认对(可能有校准?)。
      • 但也会翻车,比如:对中文手写识别必须夸一下 --> 对中文手写识别心页夸一下(所以到底有没有校准过语义?)
    • 修改代码挺不错的,比如我写了个 ChatGPT API 的小demo,里面使用了 Python 代码嵌入了 markdown+js+html,ChatGPT 改静态页面时会把 Python 代码一锅端,导致功能失效。但 Qwen 就可以很好识别出代码结构,只修改静态页面内容。
    • “不听话”,对知识性内容边界感很差。让它整理笔记会自己乱加数据,比如:实测可减少约30%未登录词,我问数据怎么来的,它说可能源于经验总结和行业通用认知。ChatGPT给它说好话,说它可能是输入了很多业界的经验数据,建议我还是保留原文。
    • 其实想说 Qwen 是第二心头好,但是发现它非常不稳定,决定换成 DeepSeek+ChatGPT 联合使用了,Qwen放一放。
  4. 豆包

    • 进步很快,尤其是语音,刚出的时候说话风格像 TikTok/抖音“擦边女”,现在说话正常多了。
    • 中文豆包的表达,给我一种受教育程度不高的样子,适合轻松闲聊。
      • 这就是一个典型的语料比例问题:像 Common Crawl 是爬虫抓下来的网页数据 或是TikTok/抖音中的数据,量非常大,但质量参差不齐。而 Wikipedia 这样的内容结构清晰、知识性强,质量高但量很少。如果不控制比例,那大语料(比如 Common Crawl)会把小语料(像 Wikipedia)淹没掉。这样模型就容易只学到网页或者抖音的语言的风格,而忽视那些高质量的内容。这也是为什么我们要控制不同数据源的采样比例。OpenAI对这方面就做的很好,像 GPT-3,它对 Common Crawl 采样六成左右,但会对 Wikipedia 重复采样,比如三点四个 epoch,确保模型“看”更多高质量文本,提升泛化能力。
    • 中文豆包遇到超纲话题,“废话文学”水平拉满,能把话题优雅地转走(这点倒可以学一学,不想回答又不失礼貌,hhh)。
      • 模型在不同语境和不同用户需求之间,如何动态调整语言风格和信息严谨度,这也是大模型面临的一个挑战。
      • 目前公司的做法就是找一个平衡点。
        • 第一是在数据源上分配比例,比如让医疗场景内容占一定权重;
        • 第二是指令微调阶段加入“医疗场景”的问答样本,教会模型怎么在这类问题上严肃、准确;
        • 第三就是对敏感问题加安全策略,比如不给药物建议,或者推荐去看医生。
    • 英文陪练试过几天,还是那个问题,口音很TikTok风,而且我觉要少一点高傲,这是可以通过语言和语调感受到的。
    • 更一下:豆包的团队厉害啊!我妈居然告诉我她靠豆包在武汉导航坐地铁,找某个站附近的美食,怎么转车,旅行攻略。我妈找美食教程,豆包可以直接给她发抖音视频,只不过播放需要跳转抖音才能播。
    • 非常喜欢豆包的屏幕分享通话功能,我可以在通话中直接问我在某个软件中怎么操作,豆包会直接给我操作步骤。还可以帮我读取分屏的内容,我可以更好专注在主屏幕!
  5. Cursor:AI Agent写代码的,挺好用的,但免费版效果有限。处理复杂任务同时多文件代码,挺不错的。

  6. Gork:下面放的Qwen,不太好用

  7. Gemini

    • 我以前觉得Gemini不太好用,但最近发现了一个插件,能自动识别学习视频的内容并整理成笔记,体验太好了。这个插件默认用的是Gemini 2.5 Flash Lite模型,整理了一个32分钟的技术视频,重要信息一个不落,笔记结构清晰。
    • 不是那种视频网站自带的“总结功能”,那种总结纯属摆设,看完和没看差不多。
    • 我还试了下,把字幕丢到ChatGPT-4o和DeepSeek-R1。ChatGPT整理出来就不行(内容多且复杂且错误词语很多),DeepSeek-R1直接把几千字的内容总结成几句废话,完全没用。
    • 最大的难点在于,32分钟视频字幕巨长,UP主说话有口音,字幕识别经常出错,这就要求模型能根据上下文自动纠错。
    • 还有就是内容分块的逻辑,Gemini好像能跟着视频节奏梳理知识点,分章节分得很合理(比如一个知识点到底归到上一个章节还是下一个章节,这很重要)。
    • 准得简直像偷看了屏幕一样
  8. Claude:必须美区,要花钱买credits了

  9. GoogleLabs:做视频生成的,非常厉害,仿真程度很牛,自动配音(很有名的会说话的大猩猩)

  10. perplexity:做市场调研很不错,比如:年轻人最喜欢什么宠物服务

  11. MiniMax AI:这个就是AI Agent,还不错

  12. Sesame:AI对话的研究(语气,语调,节奏),可以玩一下demo

  13. Trae:不知道是不是付费的原因,可以读的文件和数据更多,文字内容创作和搜索性的工作做的不错。但是处理代码任务感觉不太行,特别是多文件协同处理一个任务。

    • SOLO 的 waitlist。听说很强大,期待一下。
    • solo已经用上,感觉没什么区别,只是功能更加强大了。

学习过程+心得

  1. 李沐《手动深度学习+PyTorch》视频 + 书

    • 李沐老师的讲解非常清晰,无论理论、实践还是应用发展,都很有条理,强烈建议系统学一遍。
    • 全部笔记我博客有完整版,可以参考,最好还是自己写一遍。
    • 这本书定位入门,数学难度适中,但如果手动从零实现代码,依然需要花点精力:
      • 理论:一方面要理解基本理论,或许还有原版paper的数学公式和模型
      • 实现:另一方面要记住(或者跟着推)较长的底层实现过程。
    • 一开始可能有点难熬,但坚持下来,3-4周理论和实战都能刷得很透。
    • 备注:我有数学背景,所以公式变化对我来说没啥障碍。但其实公式不是大难点。如果看不懂,直接把公式当成"程序语言"理解,让deepseek、ChatGPT、Qwen等工具给你拆解:x是输入,y是输出,其他的都只是"进阶加减乘除"。本质就是一步步的程序,别被符号吓住。
  2. 《大语言模型:从理论到实践(第二版)》-- 张奇、桂韬、郑锐、黄萱菁

    • 这本书我挺喜欢的,知识非常详细和扎实,严谨度高
    • 主要学的就是Transformer底层,GPT底层,DeepSeek-V3底层,一些Attention优化的思想
  3. 阅读量大核心 大模型论文InstructGPT 和 DeepSeek-V3

    • 里面有很多很棒的思想和技术
  4. 学习应用技术,Rag(LangChain,Llamaindex),LangGraph,Agent,MCP应用技术,Agent+MCP企业级高并发相关设计。dify,Coze可以玩一下。


“觉得不错的话,给点打赏吧 ୧(๑•̀⌄•́๑)૭”

微信二维码

微信支付

支付宝二维码

支付宝支付

通知 + 心得
http://neurowave.tech/2025/04/20/1-0-通知/
作者
Artin Tan
发布于
2025年4月20日
更新于
2025年8月17日