本地创业帮 财税 刚才,Openai Universal Agent Chatgpt代理人正式首次亮相

刚才,Openai Universal Agent Chatgpt代理人正式首次亮相

机器之心报道机器之心编辑部ChatGPT 现在可以思考行动,主动选择工具,用自己的虚拟计算机为你完成任务。Agent AI 时代,比我们想象中来得要早一些。北京

机器心脏社论部

Chatgpt现在可以考虑操作,积极选择工具,并使用自己的虚拟计算机为您完成任务。

代理AI时代比我们想象的要早。

在北京时期的周五清晨,Openai突然开始了新产品的现场直播。

这次,新的ChatGpt代理被发布,该代理将密钥升级到通用代理的功能。

与以前的基本模型升级不同,通用代理可以自动使用各种工具来计划帮助人们完成复杂的任务,包括自动浏览用户日历,生成可编辑的PPT,运行代码等。代理可以连接您的Gmail和GitHub网站以获取信息并解决问题,并使用API访问各种应用程序。代理支持的AI情报得到了极大的改善。 ——基于CHATGPT代理的模型在HLE基准测试中得分41.6,几乎是O3和O4-Mini的两倍。

Chatgpt Agent目前向OpenAI Pro,Plus和Team Plans的订阅用户开放。想要使用的用户只需从chatgpt的工具下拉菜单中选择“代理模式”即可。

Openai表示,企业和教育用户有望在夏季晚些时候获得新功能。在官方发布时,PRO用户通常可以使用代理提示每月最多400次,而其他付费用户最多可以使用40次。目前尚不清楚该功能何时可用于免费用户。

这是Openai迄今为止最大胆的新产品发布,从那以后,Chatgpt已成为可以为人们采取和共享任务的代理产品,而不是回答问题。

看着使用计算机执行复杂任务的ChatGpt代理对我来说是一个真正的“感觉AGI”时刻,看到计算机思维,计划和执行会带来不同的感觉。

视频加载.

Chatgpt现在可以使用自己的虚拟计算机为您完成工作,从头到尾处理复杂的任务。用户不仅可以让chatgpt执行请求,例如“查询年度财务报告”,还可以智能地浏览网站并过滤结果,提示您安全登录,运行代码,进行分析,甚至提供可编辑的幻灯片和电子表格以汇总其研究结果。

例如,让“ Chatgpt Agent搜索和查询旧金山城市年度综合财务报告(2020-2024)”:

例如,输入及时的“我是网球迷,想去棕榈泉看网球,尤其是在半决赛/决赛期间。我住在旧金山,请帮助我制定详细的三天行程,包括飞行安排,包括酒店预订,活动,活动,竞争,徒步旅行,徒步旅行,食品,水疗中心等。需要:确切的时机;然后要求ChatGpt代理帮助您开发详细的行程:

这种新功能的核心是统一的智能代理系统,结合了三个早期突破的优势,包括运营商的网站互动功能,深入研究的信息全面功能以及Chatgpt的智能推理和对话能力。

Chatgpt使用自己的虚拟计算环境在推理和执行之间灵活切换,并根据用户说明从头到尾处理复杂的工作流程。最重要的是,用户始终具有整体控制。 Chatgpt会在执行任何重要操作之前要求您征得您的许可,并且您还可以中断任务,接管浏览器或随时停止运行。

Openai说:“尽管ChatGpt代理已经可以处理复杂的任务,但此版本仅仅是开始。我们将继续迭代并定期启动重大改进,以使其更强大,更实用并为更多的用户服务。”

刚才,Openai Universal Agent Chatgpt代理人正式首次亮相

操作员和深入研究的自然演变

过去,操作员和深入的研究都有独特的优势:操作员能够滚动,单击并在网页上输入,而深入的研究擅长分析和汇总信息。

但是,两个人在不同的情况下只扮演着最大的角色,每个方面都有自己不擅长的领域。操作员无法深入分析或编写详细的报告,并且深入的研究无法与网页相互作用,进一步的过滤结果或访问需要用户登录的内容。

Openai发现,许多用户试图与操作员一起处理任务实际上更适合深入研究,因此他们决定整合两者的优势。

通过将这些互补功能集成到chatgpt并引入更多工具中,OpenAI可以在一种模型中解锁全新的功能。现在,它可以与网站——点击,过滤器进行积极互动,并收集更准确,更有效的结果。 Yonghu还可以从自然沟通中无缝过渡到在同一对话中提出特定的操作请求。

OpenAI已配备了一套完整的工具:包括通过图形用户界面与网页交互的视觉浏览器,用于处理简单推理Web查询的文本浏览器,终端(命令行界面)以及直接调用API的能力。

代理还可以使用ChatGpt连接器连接Gmail和GitHub等应用程序,以便Chatgpt可以找到与您的提示相关的信息并将其用于答案。用户还可以通过接管浏览器来在任何网站上登录其帐户,从而帮助其搜索信息并更加深入地执行任务。

通过多种方式访问和与网页信息进行交互的方式,这意味着ChatGpt代理可以选择最佳路径以最有效地完成任务。例如,它可以通过API获取用户日历信息,使用文本浏览器有效地处理大量文本内容,并且还可以通过视觉接口与为人类设计的网站进行交互。

所有这些操作均在ChatGpt代理自己的虚拟机上完成,该机器可以保留使用多个工具时任务所需的上下文信息。 ChatGpt Agent可以根据需要选择使用文本浏览器或视觉浏览器的网页,从Internet下载文件,在终端中运行命令以处理文件,然后通过Visual浏览器查看输出结果。同时,该策略将根据任务进行调整,以快速,准确,准确地执行。

ChatGpt Agent专为迭代,协作工作流程而设计的互动性和灵活性比以前的模型更为灵活。在ChatGpt执行任务期间,用户可以随时中断它,进一步阐明说明,将其移动到所需的方向或完全替换任务内容。它将继续处理新信息,而不会失去以前的进度。

同样,ChatGpt将在需要时主动向用户索取更多详细信息,以确保任务始终与目标一致。如果任务需要超过预期或下降,则用户可以选择暂停任务,请求进度摘要或直接终止任务并获得当前结果。如果用户在手机上安装了chatgpt应用程序,则该任务完成后也将发送通知。

基准结果:扩大现实世界的实用性

ChatGpt代理及其背后的模型的能力提高反映在多个基准测试中的顶部性能中,评估包括Web浏览和现实世界任务在内的内容。

其中,在人类的最后一次考试评估中,该评估衡量了AI在各个领域的专家问题上的表现,支持ChatGpt代理的模型在本评估中的传球@1分为41.6。

由于代理能够动态计划并独立选择工具,因此它可以以不同的方式处理相同的任务。 ——同时运行多达八次尝试,并在通过简单的并行策略缩放时以最高的自我报告信心选择结果—— ——代理商的HLE得分提高到44.4。

Frontiermath是最难的数学基准,其中包含全新和未发表的问题,通常需要数小时甚至数天才能由数学专家解决。借助使用工具(例如访问终端执行代码)的能力,Chatgpt Agent在此测试中的精度为27.4,远远超过了所有以前的模型。

OpenAI还使用模拟复杂实际任务的基准评估了模型。在评估模型在复杂的,经济上有价值的基于知识的工作任务中的性能的内部基准中,ChatGpt代理的输出与人类在大约一半的情况下相当,甚至比人类的案例更好,而任务完成的时间范围更大,并且比O3和O4-Mini模型更好。

刚才,Openai Universal Agent Chatgpt代理人正式首次亮相

在DSBench基准测试中,它用于评估代理在涵盖数据分析和建模的实际数据科学任务中的性能。 Chatgpt代理人超过了人类的平均表现,并且具有明显的优势。

在电子表格基准测试中,它用于评估模型处理现实生活表编辑任务的能力。 ChatGpt代理的性能远远超出了现有模型。当可以直接编辑电子表格的能力时,它的得分高达45.5,而Excel中的Copilot仅为20.0。

在内部基准中,OpenAI评估了1至3年级投资银行分析师的建模任务的功能,例如:为《财富》 500公司创建具有标准化格式和引用的三种主要财务报表模型。在此评估中,模型ChatGpt代理人依赖于深度研究和O3要好得多。

OpenAI还评估了BrowseComp基准中的ChatGpt代理。 OpenAI于今年早些时候发布的基准测试用于衡量浏览代理在网络上找到困难信息的能力。 Chatgpt代理在此测试中设置了新的SOTA(当前最佳性能),得分为68.9,比深度研究高17.4个百分点。

最后,在Webarena基准中,它用于评估Web浏览代理完成真实Web任务的能力。 ChatGpt代理优于O3驱动的CUA(即驱动运营商的模型)。

有关更多基准详细信息,请参阅Chatgpt代理系统卡:

系统卡地址:https://cdn.openai.com/pdf/839e66fc-602c-48bf-81d3-b21acc3459d/chatgpt_agent_system_card.pdf

最后,Ultraman Sam发表了漫长的推动,以引入ChatGpt代理的安全限制。

代理代表AI系统功能的新高度,它可以使用自己的计算机为您完成一些特殊且复杂的任务。它结合了深入研究和操作员的本质,但其实际功能远远超出了想象力。 ——它可以长时间思考,使用一些工具,更深入地思考,采取一些行动,然后更深入地思考。

例如,我们在发布会上展示了一次演示,以准备一个朋友的婚礼:购买衣服,预订旅行,挑选礼物等等。我们还展示了分析数据和创建工作表现的示例。

尽管它非常有用,但潜在的风险也很大。我们已经在其中建立了许多安全措施和警告,以及比以往任何时候都更广泛的缓解措施,从强大的培训到系统安全措施再到用户控制,但我们无法预见到一切。本着迭代部署的精神,我们将向用户发出许多警告,并赋予他们自由选择是否谨慎行动。

我们建议授予代理人完成任务所需的最低访问权限,以减少隐私和安全风险。例如,我可以授权代理商访问我的日历以安排合适的用餐时间。但是,如果我只是要求它为我买衣服,我就不需要授予任何访问权限。诸如“查看我昨晚收到的电子邮件,并采取所有必要措施处理它们,不要问任何后续问题”等任务更具风险。这可能会导致恶意电子邮件中的不受信任的内容欺骗模型泄漏您的数据。

我们认为,从暴露于现实的情况下学习,并且随着我们更好地量化和降低潜在风险,人们应该仔细,缓慢地采用这些工具。像其他新水平的能力,社会,技术和风险缓解策略一样,需要共同发展。

网民的第一手经验

至于该代理是否易于使用,许多网民已经挺身而出。

X Netizen @Rowancheung提前获得访问权限,让ChatGpt代理在20分钟内为他制定完整的提前退休计划。

完成任务后,ChatGPT代理人开始查找温哥华的当地税法,分析平均每月支出率,计算30岁时退休所需的储蓄,研究最佳投资分配,并发现了Rowan从未听说过的Rowan从未听说过的税收优化策略,并构建了各种独立的早期退休(Fire)的情况,并最终创建了下载的介绍,并最终创建了一个分析的结果,以分析为结果分析,以分析为结果分析。

刚才,Openai Universal Agent Chatgpt代理人正式首次亮相

视频加载.

罗文说,如果由财务顾问完成,这项工作的费用可能超过5,000美元,需要数周的时间。其中,电子表格和幻灯片发电能力确实很好,但类似于Manus或Genspark等工具获得的功能。

因此,Genspark联合创始人兼首席执行官Eric Jing Ocr Rowan Cheung的及时词,并将其输入Genspark。

他说,在同样的提示下,Genspark的质量比Chatgpt代理商高得多,而成本仅为时间和成本。

视频加载.

一些网民还要求Chatgpt代理商在特易购Food Store购物,订购烧烤晚餐和粘稠的焦糖布丁。

他给出的迅速词也很简单:本周帮助我为两个人做烤晚餐。包括沙漠的享受。

视频加载.

“令人难以置信的是,我看着它浏览网站,促使我输入登录信息,将产品添加到购物车中,然后独立完成整个过程。”

但是,网民还承认,ChatGpt代理商的整个过程大约需要20分钟,如果您手动操作它可能会更有效,并且将来仍然有改进的余地。

参考内容:

https://openai.com/index/introducing-chatgpt-agent/

https://x.com/openai/status/1945890050077782149

https://x.com/rowancheung/status/1945896543263080736

用户评论


孤者何惧

感觉未来科技越来越发达了,这种人工智能应用在不同领域都很有帮助。

    有11位网友表示赞同!


我绝版了i

期待ChatGPT Agent能改变我们日常学习和工作的方式!

    有10位网友表示赞同!


孤廖

是不是以后可以用他帮我写论文啊?想想就太棒啦!

    有12位网友表示赞同!


窒息

OpenAI这次的举动是开创性的,对人工智能发展具有重大意义。

    有10位网友表示赞同!


一样剩余

在留学申请环节,ChatGPT Agent会不会能够帮我们更好地准备申请材料呢?

    有6位网友表示赞同!


日久见人心

希望它能兼顾学习和生活各方面的问题,成为真正的学习伙伴!

    有16位网友表示赞同!


冷月花魂

看来未来想学习新的知识或技能可以更轻松了,不用自己费劲琢磨。

    有18位网友表示赞同!


無極卍盜

这个AI助手是不是可以让大家在学习上更有效率呢?

    有11位网友表示赞同!


我怕疼别碰我伤口

Wonder how this will impact education! Imagine having a personalized tutor like ChatGPT.

    有5位网友表示赞同!


月下独酌

It would be cool to have it help with language learning, too.

    有11位网友表示赞同!


何年何念

I wonder if there are any ethical considerations we need to think about with this kind of AI.

    有15位网友表示赞同!


颓废人士

This opens up so many possibilities for how we interact with technology.

    有20位网友表示赞同!


tina

Could this be the future of online education?

    有19位网友表示赞同!


凝残月

This is a pretty big deal in the world of tech.

    有15位网友表示赞同!


裸睡の鱼

I'm excited to see what people do with this technology.

    有20位网友表示赞同!


♂你那刺眼的温柔

ChatGPT Agent could really help students who are struggling in their studies.

    有11位网友表示赞同!


青墨断笺み

Maybe one day ChatGPT can help us write our own personal code!

    有20位网友表示赞同!


从此我爱的人都像你

This technology might change the way we think about work and leisure too.

    有7位网友表示赞同!


我家的爱豆是怪比i

The future is here!

    有12位网友表示赞同!

本文来自网络,不代表本地创业帮立场,转载请注明出处:https://www.bdcyb.com/7777.html

作者: 调调

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注