2025年末对AI的一些想法
前言
2025年即将结束,这一年各大厂家除了继续卷大语言模型外,还在不断探索AI在各个领域的应用。作为一名AI爱好者,我想分享一下我对AI未来发展的几点看法。
2025年也被一些AI爱好者称为agent元年,各种agent层出不穷,从简单的任务自动化到复杂的决策支持,agent技术正在逐步改变我们的工作和生活方式。在agent的基础上又诞生了skill等概念,进一步丰富了AI的功能和应用场景。
关于Agent
一句话总结,我觉得未来的agent应该是这样的,用户面对的只是一个对话输入框,类似于raycast或者google搜索的界面,用户输入需求,比如帮我把今天的会议记录整理成ppt,并通过微信发给老板。然后我们就可以去泡一杯咖啡,打开switch,开心的玩塞尔达了。
当然,这个想象是过于美好的,我也不确定未来是不是真的会这样,但是现在可以预见的是,agent会越来越智能,能够理解用户的复杂需求,并且能够整合多种技能来完成任务。未来的agent一定是可以帮我们完成各种单调乏味的工作,让我们有更多的时间去做创造性的事情。现在各种可以生成图片、视频的模型在未来应该是可以更好的帮助人们进行创作,而不是取代人类。
关于agent的种种能力
现在agent的形式有很多,属于百花齐放的时代,比如程序员所熟悉的cursor、claude、codex;一些可以完成某些自动化工作的浏览器、使用n8n等工具来搭建智能工作流,上述这些在我的理解中都可以被称作是agent。很多工具也都在内置自己的agent,比如notion、wps等都在内置自己的ai助手。
我设想的agent
我设想的agent只有一个入口(和用户对话的窗口),宏观上是一个大模型,微观上是各种skill的集合体(现阶段叫skill,不确定未来叫什么)。用户只需要和这个大模型进行交互,大模型会根据用户的需求调用不同的skill来完成任务。这里有一个问题是,为了方便大一统的agent调用,理论上各个软件都应该提供相关的接口,方便agent的调用,这可能也是mcp的价值所在,为各个软件和agent提供了一个统一的协议。
现阶段agent遇到的问题
现阶段要写一个简单的agent并不难,但是要写一个强大且复杂的agent并不容易,怎么让agent可以理解用户复杂的需求,怎么协同多个skill来完成任务,都是需要解决的问题。 另外,agent的安全性也是一个重要的问题,如何防止agent被恶意利用,如何保护用户的隐私,都是需要考虑的问题。
做agent要具备的能力
随着ChatGPT的横空出世,我觉得再去卷某一门编程语言会变得越来越没有意义,现在只需要一段高水平的prompt大语言模型提供的代码片段可能比一个资深程序员写的还要好。我们更应该从下面几点方向来提升自己:
- 创造性:这个能力应该是永不过时的能力,无论AI多么强大,创造性始终是人类的优势。我们应该不断提升自己的创造力,去做一些AI无法完成的事情。
- 工程化项目:虽然现在很多代码都已经让ai生成,但是你应该对整个项目“心中有数“,怎么样的架构设计是合理的,怎么去组织代码是高效的,怎么去测试和部署是可靠的,这些都是需要我们去掌握的能力。
- 语言能力:现阶段可能英文的prompt比其他语言效果会更好一些,但是在未来强大的llm一定是可以不限语言的,所以如何提升自己的语言组织能力,写出强大的prompt也是不可或缺的。
结语
在未来可能程序员这个职业会消失,取代它的是真正的“工程师“。
首先最高端工程师可以借助大语言模型+prompt去创建更优秀的agent。普通的工程师去创建一些可以用于专门工作的agent。
随着agent越来越复杂,能做的事情越来越多,普通的工程师可以逐渐被淘汰,只留下最优秀的工程师。
当有一个大一统的agent出现的时候,人们就可以不用辛苦的工作,慢慢享受生活。
再往后,对不起,我也不敢想了。