2024年在人工智能领域出现了不少值得关注的发布和进展,以下是根据时间线索,对一些亮点突破进行了总结:
Google 宣布推出Gemini Pro 1.5多模态语言模型,该模型能够解析多达一百万个词,以及解析视频和图像。该模型正在逐步向等待名单上的开发人员发布。
OpenAI 宣布推出可制作长达一分钟的视频的Sora模型。该模型目前尚未向公众发布。
Anthropic 宣布推出其大型语言模型的新版本Claude 3。该版本部署了 3 种不同大小的模型,其中最大的模型性能优于 GPT-4。
X 公司发布了其语言模型Grok-1.5V的升级版,该模型集成了高级图像识别功能。在该公司展示的测试中,该模型在图像识别和分析方面的表现优于其他模型。
Mistral 公司将其新模型Mixtral 8x22B开源。这是开源模型中最强大的模型,它包含 1410 亿个参数,但采用了一种更经济的方法。
微软开源了Phi-3-mini模型。该模型的参数精简版本为 3.8B,因此也可以在移动设备上运行,并且具有与 GPT-3.5 类似的功能。
初创公司Reka AI推出了一系列 3 种大小的多模态语言模型。这些模型能够处理视频、音频和图像。大型模型具有与 GPT-4 类似的功能。
苹果公司以OpenELM 的名义全面开源了一系列小型语言模型。这些模型有四种权重,参数数量在 2.7 亿到 30 亿之间。
OpenAI 宣布推出GPT-4o 模型,该模型具有完整的多模态功能,包括接收和创建文本、图像和音频。该模型表现出令人印象深刻的以高响应速度和自然语言说话的能力。该模型的效率是 GPT-4 Turbo 模型的 2 倍,并且对英语以外的语言具有更好的能力。
Google 宣布其产品中有大量 AI 功能。主要包括:将 Gemini 1.5 的 token 上限提高到 200 万,以加入等待列表,发布更小更快的Gemini Flash 1.5 模型。发布最新的图像创作模型Imagen 3、音乐创作模型Music AI和视频创作模型Veo。并宣布推出具有多模式功能的Astra 模型,用于实时音频和视频接收。
微软宣布推出用于专用计算机的Copilot+,可通过用户活动的屏幕截图全面搜索用户历史记录。该公司还开源了尺寸最小、功能强大的 SLM:Phi-3 Small、Phi-3 Medium和包含图像识别功能的Phi-3 Vision 。
Meta 推出了Chameleon,一种可以无缝呈现文本和图像的新型多模式模型。
谷歌宣布推出AI Overview,旨在对谷歌搜索中的相关信息进行总结。
苹果宣布推出Apple Intelligence,这是一套将被集成到公司设备中的人工智能系统,它将结合不同规模的人工智能模型来执行不同的任务。
Anthropic 发布了Claude Sonnet 3.5模型,该模型比其他模型具有更出色的能力且资源占用率更低。
Google 宣布推出Gemma 2开源语言模型,参数大小分别为 9B 和 27B。此外,该公司还向开发人员开放了上下文窗口功能,最多支持 200 万个 token。
OpenAI 发布了一款名为GPT-4o mini的微型模型,以低成本提供高性能
Meta 开源了llama 3.1 模型,尺寸为 8B、70B 和 405B。大型模型具有与最佳闭源模型相同的功能
Google 开源Gemma 2 2B模型。该模型展现出比大型模型更出色的能力。
“黑森林实验室”发布了名为Flux的图像生成模型的权重,其性能表现优于同类闭源模型。
微软推出了三个版本的小型语言模型Phi 3.5,每个版本都展现了相对于其尺寸的令人印象深刻的性能。
法国人工智能公司 Mistral 推出了Pixtral12B,这是其首个能够同时处理图像和文本的多模式模型。
OPENAI 向其订阅用户发布了两款下一代 AI 模型:o1 preview和o1 mini。这些模型在性能上表现出显著的提升,特别是在需要推理的任务中,包括编码、数学、GPQA 等。
阿里巴巴发布了Qwen 2.5模型,大小从 0.5B 到 72B 不等。这些模型展现出与更大模型相当的能力。
谷歌发布了其人工智能工具NotebookLM的更新,使用户能够根据自己的内容创建播客。
Meta 推出了Movie Gen,这是一种根据文本输入生成视频、图像和音频的新型 AI 模型。
初创公司 Rhymes AI 发布了Aria,这是一个开源的多模式模型,其功能与同等规模的专有模型相似。
Janus AI是一种能够识别和生成文本和图像的多模态语言模型,由 DeepSeekAI 开源发布。
Google DeepMind 和麻省理工学院推出了Fluid,这是一种文本到图像生成模型,在 105 亿个参数的规模上具有业界领先的性能。
Anthropic 宣布推出一款可通过公开测试版 API 进行计算机使用的实验性功能。
文本转图像模型Recraft v3已正式发布,在同类模型跑分中排名第一。
OpenAI推出了Search GPT,允许用户直接在平台内进行网络搜索。
阿里巴巴发布了新模型QwQ 32B Preview,该模型集成了响应前的推理能力。该模型与 OpenAI 的 o1-preview 模型竞争,有时甚至超越后者。
阿里巴巴开源模型Qwen2.5 Coder 32B,其功能可与编码领域领先的专有语言模型相媲美。
Suno将其 AIpowered 音乐生成器升级到v4,引入了新功能和性能改进。
谷歌推出了两个实验模型,gemini-exp-1114和gemini-exp-1121,目前以增强的性能引领竞技场聊天机器人。
OpenAI 发布了视频生成模型SORA,以及面向高级订阅者的O1和O1 Pro完整版。此外,该公司还推出了GPT4o的直播视频模式。
谷歌发布了实验模型Gemini-Exp-1206,该模型在聊天机器人排行榜上名列第一。
Google 发布了Gemini 2.0 Flash测试版。该模型在基准测试中处于领先地位,性能优于上一版本Gemini Pro 1.5。此外,Google 还推出了实时语音和视频模式,并宣布该模型内置九游娱乐了图像生成功能。
谷歌推出了Veo 2,这是一款测试版视频生成模型,能够生成长达两分钟的 4K 视频。该模型在人工评估中的表现优于SORA 。此外,谷歌还更新了Imagen 3,提高了图像质量和真实感。
微软开源了Phi4模型,其尺寸为 14B,展示了其尺寸如此之小却功能如此强大的特点。
谷歌推出了名为PaliGemma 2的多模式开源模型,与现有的Gemma模型相集成。
阿里巴巴发布了QVQ-72B-Preview,这是一种能够分析图像的前沿思维模型,具有SOTA级别的性能。
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
美国经济凛冬将至?一季度GDP或萎缩2.8% ,今年前两月裁员已超22万人,消费者“末日囤货”,政府面临关门危机
近期,亚特兰大联储GDPNow模型对美国经济的预测出现断崖式下滑,其对美国2025年第一季度实际GDP增长的估计为-2.8%,低于2月28日的-1.5%。
美方称“中国可能正在建造大型核动力航母,与美军航母吨位相当”,国防部回应!(剪辑:鲲鹏)
3月14日,#收到海底捞退款顾客发声 :挺惊讶,发生在自己身上,可吃都吃了,10倍赔款是意料之外, 头一次碰到。#海底捞顾客希望化验男子的尿
当地时间13日,美国航空公司一架波音737-800客机在丹佛国际机场起火。乘客目前已被疏散,暂无人员伤亡报告。
许多人都喜欢吃海鲜。鱼、虾、蟹、贝这些鲜物。口感绝佳,营养丰富。但在自己下厨处理海鲜的时候。最近市民刘先生就遇到了意外。
后续2名医务九游娱乐人员足足数了3个小时,居然有1791颗!同时为了防止术后出血,老黄住院的29天,吃喝拉撒都在床上,一步都不敢下来,出院后由于切口的反复感染,不得不在诊所又挂了一个月的消炎药,漫长的康复过程让老黄对手术充满恐惧。
来源:【河北经济日报】近两年,河北文旅频频出圈,保定、唐山、正定、雄安新区等都成为全国热门旅游城市。在这背后,河北都做了哪些努力?
前不久,卫星图像显示,大连造船厂出现了一个用于大型水面舰艇上的“模块”,美国专家经过反复研究后认为,该模块大概率是航母甲板斜角分段,由此推断,中国可能正在建造一艘大型核动力航母,吨位与美军福特号航母基本一致,并配备有4条电磁弹射器...
一个帅气迷人的AIGC商业博主 AI 前沿资讯ℹ️宝藏库 你需要了解的AI科技前沿资讯在这里阅读