2024年,人工智能(AI)以其迅猛的发展势头,书写了科技史上浓墨重彩的一笔。如果用一个词来形容这一年,那一定是“无处不在”。AI不再仅仅是实验室里的概念,而是深入到我们生活的每一个角落。从诺贝尔奖物理学奖和化学奖的双重肯定,到千家万户的智能应用,AI正在以前所未有的速度重塑着我们的世界。让我们一起回顾这一年AI领域的重大进展,并展望未来AI将如何继续改变我们的生活
2024年,生成式AI无疑是最耀眼的明星。它不仅能生成文本、图像、视频还能代码生成、创作音乐制作MV、甚至设计芯片。
AI已经可以生成逼真的人物图像和风景。国内字节的Dreamina比midjourney图像质感更优些。
3)视频生成:OpenAI推出的Sora模型,能够根据文本指令生成长达20秒的高质量视频,并支持多种编辑功能。谷歌也推出了对标Sora的Veo模型,可以生成1080p分辨率的视频。国内快手可灵可生成5秒视频。
。谷歌的Gemini 2.0 flash也具备强大的多模态理解能力,可以根据用户的语言指令在图像中进行搜索,或者识别图像中的物体
5)3D世界生成:通过二维图像直接生成3D世界,可以使用鼠标和键盘在场景中自由移动,并控制视角、调整焦距、移动变焦、更改各种特效等。如AI教母李飞飞创办的World labs新开发的空间智能大世界模型可以快速将二维图像转换为可交互的3D世界,可以应用各种特效和动画,能够生成物理上一致且稳定的场景,甚至可以用梵高等画家的名画创作3D世界,为内容创作和体验开辟了全新的可能性。
谷歌发布的 185 个生成式 AI 应用案例,案例涵盖六大类 :客户代理、员工代理、代码代理、数据代理、安全代理和创意代理,展现生成式 AI 如何改变我们生活、工作和互动的方式。如:
●视频编辑:Runway公司提供AI创意工具,支持图像、视频和音频的生成和编辑,广泛应用于创意产业。
阿拉斯加航空公司正在开发自然语言搜索,为旅客提供类似与知识渊博的旅行社互动的对话式体验。
Mercado Libre 已将语义搜索纳入其数字购物平台,使用来自 Vertex AI Agent Builder 的 AI 嵌入,极大地改善了拉丁美洲超过 2 亿消费者的产品推荐和可发现性。
2024年,大语言模型(LLM)持续进化,不仅变得更加强大,也更加注重实际应九游娱乐 九游娱乐官方用。
OpenAI在9月份推出了o1系列模型,通过引入“思维链”(Chain of Thought)推理方法,使AI能够像人类一样逐步思考问题,大幅提升了复杂问题解决能力。o1 系列尤其擅长处理复杂的多步骤任务,特别是在编程、数学推理和文档分析等高难度任务中表现出色。以编程为例,o1-preview 能够理解代码逻辑,优化算法,甚至应对高级代码调试问题;在数学领域,它可以处理复杂计算并做出抽象推理。在2024 年 12 月 ”OpenAI 12天“最后一天,OpenAI宣布了其最新的 AI“推理”模型 o3 和 o3-mini,这些模型使用 OpenAI 所谓的“私有思维链”,其中模型会暂停以检查其内部对话并在响应之前提前计划,您可以将其称为“模拟推理”(SR),这些模型建立在今年早些时候推出的 o1 模型 之上,提供这些模型以供公共安全测试和研究访问。与 o1 相比,o3 在复杂任务(包括编码、数学和科学)中表现出更高的性能。OpenAI 报告称,o3 在 GPQA Diamond 基准测试中获得了 87.7% 的分数,该基准测试包含未在线公开的专家级科学问题,在评估 AI 处理新的、具有挑战性的数学和逻辑问题的能力的 ARC-AGI 基准测试中,o3 的准确率是 o1 的三倍。
OpenAI 宣布这一消息之际,其他公司也在开发自己的模拟推理(SR) 模,谷歌宣布推出 Gemini 2.0 Flash Thinking Experimental,DeepSeek 推出了 DeepSeek-R1,而阿里巴巴的 Qwen 团队发布了 QwQ,他们称之为 o1 的第一个“开放”替代方案。
月之暗面的Kimi智能助手配备了高达 200万上下文窗口,可以处理更长的文本信息,适用于长篇文档分析,并生成具有深度理解的总结等任务
种语言的100万token长上下文使用,Gemini 1.5 pro继续推进支持200万token长上下文。
华为发布了盘古大模型5.0,包含不同参数规格的模型,以适配不同的业务场景。十亿级参数“盘古E系列”嵌入各种终端的小模型,可支撑手机、PC等端侧的智能应用;万亿级参数的“盘古S系列”超级大模型可处理跨领域复杂任务
大模型开始深入各个行业,解决实际问题。例如,盘古大模型在工业设计、建筑设计、具身智能等领域都有应用。谷歌基于LearnLM学习模型开发NotebookLM和LearnAbout等。顶级创投Y Combinator投资的100家AI初创公司大都覆盖了B2B 软件与服务、金融科技、医疗保健、开发者工具、教育等多个领域AI应用(详细参看AI应用未来趋势解析:顶级创投Y Combinator投资的100家AI初创公司)。
盘古大模型可以让汽车的造型设计时间大幅缩短,设计师可以通过对话、画图与大模型交互,生成3D汽车数字模型。
盘古模型可以辅助设计师把草图生成高线D环绕实景视频,直观验证自己的想法23。
●B2B 软件与服务:企业资源规划(ERP),许多公司正在开发 AI 驱动的工具,以改进采购、会计和合规流程。 例如,askLio 构建了 AI 助手来帮助企业采购团队,而 Klarity 则自动化会计和合规流程。
●医疗保健:Bunkerhill Health 利用 AI 帮助医生更早地发现致命疾病,而 BrainKey 则专注于使用 AI 检测和预防认知衰退。
●金融科技:Diligent 利用 LLM 来自动化风险和反洗钱合规流程。
●AI学习伴侣:谷歌新推出的实验性教育AI工具“Learn About”,以对话式学习为核心,为用户提供个性化、互动式的学习体验,通过对话式学习体验,帮助用户掌握知识并深入理解复杂主题。详细参看谷歌AI学习伴侣Learn About:重新定义学习的未来
●个性化AI研究助理:谷歌的NotebookLM作为一款AI驱动的笔记工具,为用户提供了自动总结、提取要点、交互式问答、辅助创意、生成播客等功能,使得笔记不再只是简单的记录,而是一个活跃的知识中心。详细参看谷歌AI笔记NotebookLM:快速构建个人知识库的利器
智能体概念:AI Agent(智能体)可以感知和理解用户的周围世界(如视觉刺激、语言输入和其他以环境为基础的数据),使用复杂推理和迭代规划并在用户的监督下代表用户做出自主决策并采取行动,以实现预定目标。
2024年,AI不再只是被动地执行指令,而是开始展现出自主性和智能性,成为我们工作和生活中的得力助手。AI科技大厂都在该方向发力。
Copilot Agents,这是一种人工智能助手,用于执行后台工作,以帮助您更有效地完成工作。使用Copilot Agents,您可以提示 AI 承担根据业务需求自定义的角色。例如,Copilot Agents可以处理订单、自动化流程、为流程和会议添加上下文或根据用户反馈进行学习。详细参看微软Build 2024大会总结-AI驱动的未来蓝图
Microsoft 推出了 10 个集成到 Dynamics 365 中的自主 AI 代理,以简化工作流程并提高销售、客户服务、财务和供应链管理的效率:
●销售自主 AI 代理2个:Sales Qualification Agent:评估客户数据以限定潜在客户并启动外展,使销售团队能够专注于高价值机会;Sales Order Agent自动执行订单处理,包括确认、交货偏好和跟进,确保更顺畅的销售周期。
●顾客服务自主 AI 代理3个:Customer Intent Agent将查询路由到适当的团队,从而缩短响应时间并提高客户满意度;Customer Knowledge Management Agent实时更新 CRM 知识库,确保面向客户的团队能够访问准确和最新的信息;案例管理代理负责监督客户服务案例从启动到解决的整个过程,简化工作流程并提高效率。
●供应链自主 AI 代理2个:供应商通信代理协助供应商互动、减少延误并监控交付计划以确保顺利运营;Scheduling Operations Agent通过根据人员可用性和技能集分配任务来优化现场操作,从而改善资源分配。
2)Google基于专为“智能体时代”设计的 AI 模型Gemini2.0,构建系列智能体应用研究原型来探索这个新领域。详细参看【原创】面向智能体时代谷歌AI模型Gemini2.0能力解读
谷歌的Project Astra 探索通用AI助手的未来功能,可以理解用户语音指令、调用手机摄像头和传感器信息来完成各种任务,如导航、物体识别、多语言实时翻译等。
浏览器AI助手:谷歌的Project Mariner从浏览器探索人机交互,支持通过代理完成多个步骤的任务执行,能够理解和推理浏览器屏幕中的信息,例如文本、代码、图像和表单等,并通过 Chrome 扩展程序帮助用户完成任务,例如查找信息、填写表单、购物等。它通过一个实验性的Chrome扩展程序在浏览器中运行。
机器人代理:谷歌Gemini2.0可以理解物理世界,理解3D空间环境和物体,这些功能可以用于带有代理的机器人,在日常物理环境中为你提供帮助。利用空间推理能力,帮助用户完成物理世界的任务。
Jules代码代理:这是一个 AI 驱动的实验性代码代理,可直接集成到 GitHub 工作流程中。可以帮助开发人员修复错误、编辑和验证代码,并在开发人员的监督下管理任务。可自动执行Python和javascript编码任务。微软去年为GitHubCopilot引入了类似的体验,它可以识别和解释代码,同时还能推荐修改和修复错误。Jules将与微软的产品竞争,也将与Cursor等工具竞争,甚至与Claude和ChatGPT的编程能力竞争。
●数据科学代理:谷歌的Colab允许任何人上传数据集并在几分钟内获得见解,Colab极大地简化数据分析的流程和处理效率。
使 AI 能够像人类一样直接与计算机软件交互,将解锁当前一代 AI 助手根本无法实现的大量应用程序。
为了重新定义人工智能领域,OpenAI 正准备在 2025 年推出其新的 AI 代理“Operator”。这个创新的代理旨在自主管理各种任务,从复杂的编码项目到全面的旅行计划。初始版本定于 1 月发布,将采用研究预览的形式,为开发人员提供 API 访问权限。这种战略方法旨在收集关键的反馈和测试数据,为更精致、更强大的产品奠定基础。
Coze是字节一站式AI应用开发平台,允许用户自定义AI智能体,并自定义智能体的角色、功能和回复限制。 它提供了一个平台,让用户可以快速构建各种问答Bot,从简单的问答解决方案到复杂的对话处理。
6) 百度千帆AgentBuilder智能体开发工具百度推出的一个面向开发者和企业的智能代理(Agent)构建平台,旨在帮助用户快速构建和部署智能化的AI代理(Agentic AI)系统。它利用百度在人工智能、自然语言处理(NLP)、自动化决策和机器学习等领域的技术积累,提供了一个简化开发流程的工具,适用于多种场景下的自动化任务执行、智能客服、决策支持等应用。
这种更为复杂和自适应的系统,超越了传统AI Agent的局限,具有更高的灵活性、智能化程度和决策自主性方向迈进。
2024年,AI硬件的发展也取得了显著进展,AI计算能力不再局限于云端,而是开始走向本地设备。
微软推出了Copilot+ PC,配置了高性能神经处理单元 (NPU)和本地小语言模型(SLM),可以在本地运行生成式AI流程,而不是通过云端运行,Copilot+ PC 比搭载 M3 的 MacBook Air 快 58%。详细参看微软Build 2024大会总结-AI驱动的未来蓝图
*特斯拉Optimus机器人:与人类能够流畅交流,具备了融入日常生活的潜力,能够协助处理家务、随着音乐起舞、提供饮料和小零食,玩石头剪刀布(详细参看特斯拉We, Robot发布会综述:未来交通和生活方式的大胆预想)。
*1X Technologies推出的NEO人形机器人:旨在为家庭用户提供智能、安全且可靠的机器人伙伴,NEO体型轻盈且柔软,配备软垫套装一样的柔软外壳,能够在家居环境中与人类无缝共存。不同于传统的刚性液压系统,NEO采用了仿肌肉解剖结构,使其能够以极高的精度完成各种复杂任务,甚至能够以恰到好处的力度处理易碎物品,如鸡蛋或玻璃杯。NEO的另一个显著特点是其非语言交流能力。它能够通过手势、肢体语言和语音指令与人类互动,几乎无需使用文字或复杂的编程指令。想象一下,当你走进房间时,NEO能够通过一个简单的点头指示便理解你的需求,主动为你递来物品或执行其他日常任务。这种直观且自然的互动方式,使NEO不仅仅是一个冷冰冰的机械设备,而是一个懂得你需求的智能助手(详细参看机器人革命的前沿:NEO人形机器人颠覆人类未来生活方式)。
*国内众多人形机器人公司也大放异彩,如宇树科技机器人超强运动能力、银河通用商超场景应用、星尘智能多才多艺等。
自动驾驶出租车Cybercab:Cybercab外观小巧灵活,取消了方向盘、踏板和后视镜,完全由特斯拉的无监管自动驾驶技术控制。车内设计极简,只有少数控制按钮,乘客可以通过触摸屏选择目的地。这款车的蝴蝶门设计不仅外观时尚,还在狭窄空间内方便乘客进出。车内双座布局为乘客提供了更多的腿部空间。Cybercab采用独特的感应充电能力,无需传统的插拔充电枪,大大简化了充电流程。
其自动驾驶出租车服务Waymo One正在逐步扩大运营范围,目标是实现完全自动驾驶(Level 5)。然而,技术挑战、法律法规以及公众接受度等方面仍然是Waymo面临的主要障碍。随着技术不断演进,Waymo的自动驾驶系统有望在未来几年内得到更加广泛的应用。
百度的萝卜快跑在武汉的试点引起轰动。“萝卜快跑”作为百度在自动驾驶领域的重要布局之一,通过Apollo平台的技术优势,已经在中国的多个城市开展了自动驾驶出租车服务。随着技术的不断进步和商业化应用的扩展,萝卜快跑有望在未来成为中国乃至全球领先的自动驾驶出行平台之一。
Meta发布了全息AR眼镜Orion,将虚拟与现实世界相结合,让佩戴者可以身临其境地感受数字世界,Orion眼镜可以让佩戴者体验全息乒乓球游戏(详细参看开启虚实融合的未来世界-Meta全息AR眼镜Orion)。
2024年,AI在科学研究领域的作用日益凸显,不再只是辅助工具,而是成为科学家们的合作伙伴。
大卫·贝克(David Baker)、戴米斯·哈萨比斯(Demis Hassabis)和约翰·江珀(John M.Jumper)因在蛋白质设计和蛋白质结构预测领域作出的贡献荣获诺贝尔化学奖。他们开发的AlphaFold AI模型解决了蛋白质结构预测难题,为药物研发等领域带来了巨大突破。AlphaFold的核心是一种名为“距离预测”的深度学习模型。它通过预测蛋白质序列中氨基酸残基之间的空间距离关系,并根据这些距离信息重建蛋白质结构。详细参看AlphaFold:生物学领域的AI革命
谷歌DeepMind开发了AlphaProof数学推理模型和AlphaGeometry几何求解模型,在数学奥赛中达到银牌水平,展现了AI在数学领域的强大潜力。详细参看数学AI的黎明:AI在数学奥赛中的突破
Google DeepMind推出了AlphaChip,利用AI加速芯片设计,显著提升了芯片布局的效率和性能。AlphaChip利用深度强化学习技术从空白网格开始,AlphaChip 一次放置一个电路元件,直到完成所有元件的放置。然后根据最终布局的质量进行奖励。采用新颖的“基于边缘”的图形神经网络使 AlphaChip 能够理解芯片组件之间的复杂关系并学习互连芯片组件之间的连接关系,AlphaChip 能够更好地预测不同布局方案对整体性能的影响,从而做出更明智的决策。详细参看深度解读AlphaChip:AI如何革新芯片设计
谷歌推出了Willow量子芯片,在随机电路采样 (RCS)基准测试中,Willow芯片在五分钟内完成了一项计算任务,而完成同样的任务,即使是当今最强大的超级计算机也需要10的25次方年(10 septillion years)。10的25次方年,这个数字比已知的宇宙年龄还要长。这一惊人的对比充分显示了量子计算的巨大潜力,以及Willow芯片的卓越性能。它证明了量子计算机在特定计算任务中,已经远远超越了经典计算机的能力。详细参看谷歌Willow量子芯片:天文级算力跃升(5分钟搞定超级计算机亿万年计算任务)
Insitro利用机器学习和大数据技术加速新药发现和开发过程。Cradle利用生成式人工智能帮助科学家设计和制造蛋白质。
欧盟通过了《人工智能法案》,旨在成为全球首部全面规范AI技术的法律框架,对AI系统进行风险分类监管。详细参看《欧盟AI法案》即将生效:重塑AI全球格局
EU AI Act强调AI系统的透明度,要求用户有权知晓AI系统的决策逻辑,并明确AI系统的责任归属.
EU AI Act要求AI系统必须遵循《通用数据保护条例》(GDPR),确保用户的数据在被收集、存储和处理时得到充分保护。
AI开发者需要在设计和部署AI系统时,考虑伦理和安全问题,确保系统的公平性和透明度。
2024年是AI技术飞速发展的一年,但同时也面临着许多挑战。未来,AI将继续深入渗透到各个领域,成为我们生活和工作中不可或缺的一部分。
未来的AI产品和服务将更加注重个性化,能够根据用户的具体需求提供定制化的解决方案。
随着AI技术的不断成熟,AI将逐渐融入我们的日常生活,成为我们不可或缺的一部分。
随着AI的广泛应用,关于数据隐私、算法偏见和AI的社会影响等问题将变得越来越重要。
AI将成为人类的合作伙伴,而不是替代品,通过人机协作共同解决问题,创造更美好的未来。
2024年,AI的发展速度之快,应用范围之广,都超乎我们的想象。从生成式AI的“多才多艺”,到大模型的“深入行业”,再到AI Agent的“智能助手”,AI正在深刻改变着我们的生活。与此同时,AI伦理与监管也日益受到重视,为AI的健康发展提供了保障。未来,AI的潜力无限,挑战与机遇并存。休闲一刻: