AI创投周报｜强化学习之父获2024年图灵奖ReflectionAI获13亿美元融资

日期：2025-03-08 浏览：　

　　AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社发现和投资非凡创业者（Alpha Founders），相信非凡创业者们在技术、商业和社会方面的巨大推动力，他们指引着创投生态的风向。

　　1.图灵奖颁给了强化学习之父Richard Sutton与导师Andrew Barto

　　2024年图灵奖授予了强化学习领域的两位奠基者——Andrew Barto和Richard Sutton。Andrew Barto是马萨诸塞大学阿默斯特分校信息与计算机科学荣休教授，而Richard Sutton则是阿尔伯塔大学计算机科学教授，被誉为“强化学习之父”。

　　两人自1980年代起合作，共同构建了强化学习的数学基础，并开发了多个重要算法。他们的合著《Reinforcement Learning: An Introduction》至今仍是该领域的经典教材。

　　强化学习是一种通过奖励信号学习最优行为的机器学习方法，其核心思想源于心理学和神经科学。Barto和Sutton在1980年代初将强化学习构建为一个通用问题框架，并借鉴马尔可夫决策过程（MDP）的数学基础，提出了强化学习中的关键算法。他们的工作为深度强化学习的发展奠定了基础，推动了AlphaGo、ChatGPT等重大AI突破。

　　强化学习不仅在围棋、聊天机器人等领域取得显著成果，还广泛应用于机器人运动技能学习、网络拥堵控制、芯片设计等多个领域。此外，强化学习的研究还反过来助力了神经科学的发展，为理解人类大脑中的多巴胺系统提供了新视角。

　　2.阿里开源全新推理模型QwQ-32B，部分性能比肩DeepSeek-R1满血版

　　阿里云发布并开源了全新推理模型QwQ-32B，该模型由阿里巴巴通义实验室开发，参数量为320亿，在数学和编程任务上足以比肩6710亿参数的DeepSeek-R1满血版。QwQ-32B采用了强化学习技术，基于Qwen2.5-32B模型进行优化，该模型已在Hugging Face和ModelScope平台开源，并支持通过Qwen Chat进行体验。

　　QwQ-32B的亮点在于其通过大规模强化学习显著提升了推理能力，尤其是在数学和编程任务上。在一系列基准测试中，QwQ-32B在LiveBench、IFEval和BFCL等任务上甚至略微超过了DeepSeek-R1-671B。

　　QwQ-32B还集成了与智能体相关的能力，使其能够在使用工具的同时进行批判性思考，并根据环境反馈调整推理过程未来，阿里计划进一步探索将智能体与RL集成，以实现长时推理，目标是通过推理时间扩展来释放更高的智能。

　　由monica.im研发的AI代理产品“Manus”正式推出，Manus的独特之处在于它不仅是一个AI助手，更是一个能够自主执行复杂任务的AI代理，直接交付完整成果，而非仅仅提供建议或答案。

　　Manus的核心亮点在于其强大的任务执行能力和多代理架构。它能够处理诸如旅行规划、股票分析、教育内容创建、保险政策比较等复杂任务，并通过调用工具、编写代码、浏览网页等方式直接交付结果。

　　例如，Manus可以自动解压缩简历文件，筛选并排名候选人，甚至根据用户偏好九游娱乐生成Excel表格。在房产遴选案例中，它能够分解任务、搜索信息、计算预算，并生成详细报告，宛如专业房地产经纪人。此外，Manus还展示了其在股票分析、供应商匹配等领域的强大能力，通过多代理协作和自主学习，模拟人类工作方式，提升任务处理效率。

　　地瓜机器人团队与中科院自动化所等单位合作，提出了一项名为MODEST的新研究，成功解决了机器人抓取透明物体的难题。该研究入选了全球机器人领域顶会ICRA 2025，展示了其在机器人感知和操作领域的突破性进展。

　　MODEST是一个针对透明物体的单目深度估计和语义分割的多任务框架，仅需单张RGB图像即可实现透明物体的精准抓取。传统方法依赖特殊传感器或多视角图像，增加了成本和应用限制，而MODEST通过语义和几何结合的多任务框架，突破了这些限制。

　　该框架由编码、重组、语义几何融合和迭代解码四个模块组成，通过注意力机制和由粗到细的特征更新策略，显著提升了深度估计和语义分割的精度。实验表明，MODEST在仿真数据集Syn-TODD和真实数据集ClearPose上的表现优于其他双目和多视图方法，深度估计和语义分割的精度均大幅提升。此外，团队还将算法应用于真实机器人平台，验证了其在透明物体抓取中的鲁棒性和泛化性。MODEST的成功不仅降低了设备成本，还为智能工厂、实验室自动化和智慧家居等场景提供了高效、经济的透明物体感知方案。

　　5.上科大等机构推出空间具身通用操作模型，百万真实数据训练，预训练代码全开源

　　上海AI Lab、TeleAI、上科大等机构的研究团队近日发布名为SpatialVLA的创新研究成果，旨在解决机器人领域长期存在的通用操作策略难题。

　　该研究通过探索空间表征在视觉-语言-动作（VLA）模型中的应用，提出了一个能够适应不同机器人形态并执行复杂任务的通用操作模型。这一成果基于百万真实数据进行训练，为机器人3D物理环境交互提供了新的解决方案，而且预训练代码全开源。

　　SpatialVLA模型的核心在于其强大的3D空间感知能力。通过引入ego3d位置编码和自适应动作网格，模型能够有效处理单视角视差、光照变化和环境不一致等视觉外观变化，从而在现实世界中展现出更高的鲁棒性和通用性。具体而言，模型首先利用ego3d位置编码将3D空间上下文与语义特征融合，消除了对特定机器人相机校准的需求；随后，通过自适应动作网格将连续动作离散化，使得不同机器人之间的动作与物理世界的3D结构对齐。此外，模型在后训练中通过自适应网格重新离散化，展现了在新机器人环境中适应的卓越能力。

　　实验表明，SpatialVLA在zero-shot泛化控制、场景高效微调和空间理解等多项评估中均取得了最先进的性能，尤其在具有外观多样的机器人操作任务和环境条件下表现尤为突出。

　　6.LeCun世界模型再近一步，Meta研究证明：AI可无先验理解直觉物理

　　Meta的研究团队在Yann LeCun的指导下，取得了AI理解直观物理的重要突破。他们开发的自监督视频模型V-JEPA，无需任何先验知识，仅通过观察视频就能理解直观物理。研究团队通过自监督学习，使AI模型在抽象表示空间中进行预测，而不是生成像素级的精准预测，这种方式更接近人类大脑处理信息的模式。

　　V-JEPA模型能够准确分辨符合物理定律和违反物理定律的视频，其表现远超多模态LLM和基于像素的预测模型。研究团队通过预期违背理论，直接探测模型对直观物理的理解，而无需特定任务的训练或调整。他们通过促使模型想象未来的视频表示，并将其预测与实际观察到的未来视频进行比较，获得了定量的惊讶度，用来检测违背的直观物理概念。

　　在三个数据集上的评估结果显示，V-JEPA在所有数据集上均表现出显著优于未训练网络的性能，平均准确率分别达到了98%、66%和62%。这一研究不仅展示了AI在理解直观物理方面的潜力，也为未来AI在更复杂任务中的应用奠定了基础。

　　7.OpenAI联手15家机构成立NextGenAI联盟，获得5000万美元资金

　　OpenAI今天宣布成立NextGenAI，这是一个由15家领先研究机构（包括加州理工学院、哈佛大学、麻省理工学院、牛津大学等知名学府）组成的联盟，致力于利用人工智能加速研究突破并改变教育。

　　OpenAI承诺提供5000万美元的研究补助金、计算资金和API访问权限，以支持学生、教育工作者和研究人员在AI领域的前沿探索。

　　例如，俄亥俄州立大学正在利用AI加速数字健康、先进治疗、制造业等领域的发展；哈佛大学和波士顿儿童医院的研究人员则致力于缩短罕见病诊断时间，并提高AI在医疗决策中的一致性。杜克大学正在开展元科学研究，探索AI在科学领域的最大潜力。

　　1.由AlphaGo和Gemini项目的主要负责人创立，Reflection AI获Sequoia Capital等投资的1.3亿美元融资

　　由DeepMind资深研究员Ioannis Antonoglou和Gemini强化学习核心负责人Misha Laskin联合创立的Reflection AI，近日获得1.3亿美元融资，估值达5.55亿美元。此次融资由Sequoia Capital、Lightspeed和CRV等知名投资机构领投，其他投资者包括LinkedIn联合创始人Reid Hoffman和英伟达风投部门。

　　Reflection AI的创始团队在人工智能领域拥有丰富经验，Ioannis曾是DeepMind的创始工程师，主导了AlphaGo、AlphaZero等项目的开发，而Misha则负责了谷歌Gemini项目的强化学习部分。

　　Reflection AI的核心目标是通过强化学习提升大语言模型的自主能力，构建超级智能自主系统。团队认为，解决自主编码问题是实现超级智能的关键，一旦成功，这一技术将广泛应用于其他计算机驱动的任务中，加速通用人工智能的发展。

　　2.谷歌联合创始人Larry Page正创建将人工智能应用于产品制造的新公司

　　据The Information报道，谷歌联合创始人Larry Page正在创建一家名为Dynatomics的新公司，专注于将人工智能应用于产品制造。

　　正在与一小群工程师合作开发人工智能，该技术能够为物体创建“高度优化”的设计，然后由工厂进行制造；Chris Anderson，此前是

　　支持的电动飞机初创公司 Kittyhawk 的首席技术官，正在领导这一秘密项目。

　　Auxia在A轮融资和种子资金中获得2350万美元，此轮融资由VMG Partners 领投，超过50位行业领袖参与，包括谷歌首席营销官Lorraine Twohill、Booking首席营销官Arjan Dijk以及前Facebook首席商务官David Fischer。

　　用于个性化客户沟通的代理人工智能平台。平台通过三项关键创新，从根本上改变了个性化营销的方式。

　　首先，我们尖端的基础设施能自动提取并处理来自第一方数据的隐藏信号，这些数据通常被大多数公司忽视。其次，我们的模型驱动实验平台使团队能够同时测试多个自优化机器学习模型和数百个并行假设，远超传统 A/B 测试的限制。传统上，这一过程需由数据科学家和工程师团队手动完成，耗时3至6个月才能构建一个支持模型训练、服务和推理的强大机器学习平台及特征库。最后，Auxia 赋予营销和产品团队同步的 AI 代理，这些代理协同工作，跨渠道对每位客户的互动进行超个性化并持续优化。

　　LlamaIndex是一个人工智能代理开发平台，可以自动获取知识并处理企业数据。LlamaIndex获得由Northwest Venture Partners领投，现有投资者Greylock参投的1900万美元A轮融资。

　　LlamaInd 九游娱乐ex还发布了基于云的托管平台LlamaCloud，该平台是一款用于AI知识管理的SaaS产品，由LlamaParse驱动。它用于解析复杂的非结构化文档格式，如PDF、Word文档、PowerPoint以及数百种其他格式。LlamaParse轻松处理表格、图表和图像等复杂元素，并已为数万名用户处理了数亿份文档。

　　5.Regie.ai获3000万美元B轮融资，Scale Venture Partners和Foundation Capital共同领投

　　营销类AI平台Regie.ai获得Scale Venture Partners和Foundation Capital共同领投的3000万美元B轮融资，Khosla Ventures、StepStone Group、TriplePoint Capital以及 South Park Commons参与投资。

　　Regie.ai专注于通过生成式AI技术简化企业的销售和营销内容创建工作流程，帮助企业提高销售效率和客户参与度。Regie.ai的平台能够自动生成个性化的销售邮件、LinkedIn消息和呼叫脚本，显著减少销售团队在内容创作上的时间，使他们能够专注于更高价值的活动。

　　Regie.ai的核心产品包括AI驱动的销售序列构建器、个性化内容管理工具以及AI销售助手等。其平台不仅能够生成高质量的销售内容，还能通过AI洞察力优化销售流程，提高销售团队的工作效率。此外，Regie.ai还提供了一个统一的收入技术堆栈，将销售参与平台、CRM和意图数据整合在一起，帮助企业更好地管理销售流程，增加会议机会和收入。

　　6.Unique完成3000万美元A轮融资，由DN Capital和Commerz Ventures领投

　　Unique完成3000万美元A轮融资，由DN Capital和CommerzVentures领投，其早期种子轮投资者也参与了此次融资。它由Manuel Grenacher和Andreas Hauri联合创立，二人均为SaaS领域拥有深厚技术专长的连续创业者。

　　Unique旨在通过其创新的AI技术提升金融服务的效率和准确性。它的核心产品是FinanceGPT，它提供多种定制化AI代理，覆盖研究、合规和KYC等关键环节。

　　投资研究代理能够整合内部和外部数据，为用户提供精准的自然语言查询答案；尽职调查代理则通过分析会议记录等文件，与历史评估对比，协助银行员工识别潜在问题。这些工具不仅提升了金融服务的效率，还确保了合规性和数据安全。

　　7.专注于生物医药研发安全的Ignota Labs获得690万美元种子轮融资

　　Ignota Labs获得690万美元种子轮融资，本轮融资由Montage Ventures和AIX Ventures共同领投，Modi Ventures、Blue Wire Capital及Gaingels参与投资。

　　Ignota Labs专注于为药物发现科学家提供AI驱动的毒性预测工具，该公司的产品帮助科学家在药物发现过程中识别和理解安全问题。Ignota Labs的平台利用深度学习、化学信息学、生物信息学和多模态数据分析，提供可操作的见解，以改进或重新利用药物候选物。

　　Ignota Labs的团队由多位在人工智能、药物发现和药物开发领域具有丰富经验的专业人士组成。首席执行官Sam Windsor曾是DeepMind的AlphaFold团队成员，首席科学官Dr. Jordan Lane在AI药物发现领域有着深厚的背景，曾参与多个药物资产的临床开发。

　　平台Lemni获350万美元种子轮融资，Sequoia capital

　　AI代理平台Lemni获350万美元前种子轮融资，Sequoia capital领投，多位天使投资人跟投。

　　借助Lemni，企业能够定制 AI 代理，它们基于每位客户的单一真实来源运作，因此每次新的互动都从上次结束的地方开始。Lemni并非旨在取代人类共情，而是为每一次客户互动配备正确的实时知识和行动。这使得企业能够设计每一次客户互动，并使其个性化。

　　Lemni的客户可以在几分钟内启动并运行自己的个性化AI代理，而不是几个月。因此，他们可以专注于最重要的事情——提升客户体验。

　　本文由阿尔法公社综合自多个信息源，并在AI大模型的辅助下写作，封面图片由Hidream.ai的Pixeling（千象）生成。

九游娱乐-九游中国最全游戏官方平台

AI创投周报｜强化学习之父获2024年图灵奖ReflectionAI获13亿美元融资