ChatGPT重大更新：实现双向互动「听、说、看」-灌水聊天-老男人游戏网配套论坛

ChatGPT重大更新：实现双向互动「听、说、看」

miku233 7月前 1347

　　从本质上讲，OpenAI正在为其聊天机器人赋予嘴巴和眼睛。

　　据悉，OpenAI正在更新ChatGPT，以允许人工智能工具在与用户的交互中做到“看到、听到和对话”。本次更新推出后，使ChatGPT能够响应图像，理解口头提示，并使用聊天机器人的新声音与用户进行来回对话。这些变化使ChatGPT功能更加类似于Siri或亚马逊的Alexa，但是与Siri或Alexa不同，ChatGPT不需要唤醒词来进行“召唤”。

ChatGPT重大更新：实现双向互动「听、说、看」

　　总的来说，本次更新使得ChatGPT更具互动性，用户可以拍一张照片并向ChatGPT询问相关问题，不过本次更新并不是全部免费，图像和语音功能将在接下来的几周内，为每月20美元订阅ChatGPT Plus和Enterprise版本用户提供。

　　OpenAI在公告中表示：“语音和图像为您提供了在生活中使用ChatGPT的更多方式。”“在旅行时拍一张地标的照片，并实时讨论它的有趣之处。当你回到家时，拍下你的冰箱和食品储藏室的照片，以弄清楚晚餐吃什么（并询问后续问题，以便按照食谱步骤制作）。晚餐后，至可以通过拍照、圈出问题集让它来帮助您的孩子解决数学问题。”

ChatGPT重大更新：实现双向互动「听、说、看」

　　“这不仅仅是因为打字很乏味，”OpenAI的产品负责人Joanne Jang在接受采访时告诉记者：“你们现在可以进行双向对话。”

　　显然随着不断迭代，ChatGPT的功能在逐渐强大。此前福克斯新闻医疗撰稿人Marc Siegel博士在“The Big Money Show”中讨论了ChatGPT在做出医疗决策方面的准确性，结果显示如果ChatGPT扮演医生，成功率达72%，它在前不久甚至帮助一个苦寻良医许久的男孩找到了真实的病因，在全球引起巨大热议。

ChatGPT重大更新：实现双向互动「听、说、看」

　　针对本次的更新，据专业人士称更新后的ChatGPT新语音功能，将由文本转语音模型提供支持，该模型能够从文本和几秒钟的样本语音中生成类似人类的音频。OpenAI还聘请专业配音演员来创作声音，允许ChatGPT以五种不同的声音说话，并利用OpenAI的开源语音识别系统Whisper将口语转录为文本。

　　不过也有人士指出，新语音技术存在一些风险，例如可能发生欺诈或冒充。OpenAI在声明中表示：“新的语音技术能够从几秒钟的真实语音中生成逼真的合成声音，为许多创造性和可访问性的应用程序打开了大门，然而，这些新功能也带来了新的风险，例如恶意行为者冒充公众人物或实施欺诈的可能性。”针对图像方面，ChatGPT的新的基于视觉的模型能够分析和响应图像，但这种模型也带来了新的挑战，并且该公司“已采取技术措施来显着限制ChatGPT分析和直接能力，因为这些系统应该尊重个人隐私。”

ChatGPT重大更新：实现双向互动「听、说、看」

　　不过针对本次更新，在业内引起讨论的同时，也有不少用户表示“没什么新意和突破”，随着OpenAI开发者大会的日益临近，不知道急于“独立”并在争取创造大额营收的OpenAI又会做出什么样的举措呢。

上一篇：今天还没放假呢
下一篇：两室一厅的游戏房施工现状 10月3日

最新回复 (5)

virtualdub 7月前

0 2楼

9月25号的时候发现上线了，语音部分需要移动端app，beta阶段，功能还需要迭代。
多模态的模型发展是必然的路径，竞争会很激烈，期待华子算力底座提供的第二个选择，GPT无故封号，几次下来已经沉没我一百多美金了，实在是憋屈。

ChatGPT — Release Notes
New voice and image capabilities in ChatGPT (September 25, 2023)
We are beginning to roll out new voice and image capabilities in ChatGPT. They offer a new, more intuitive type of interface by allowing you to have a voice conversation or show ChatGPT what you’re talking about.

Voice (Beta) is now rolling out to Plus users on iOS and Android
You can now use voice to engage in a back-and-forth conversation with your assistant. Speak with it on the go, request a bedtime story, or settle a dinner table debate.

Image input will be generally available to Plus users on all platforms
You can now show ChatGPT one or more images. Troubleshoot why your grill won’t start, explore the contents of your fridge to plan a meal, or analyze a complex graph for work-related data. To focus on a specific part of the image, you can use the drawing tool in our mobile app.
yanyaneboy 7月前

0 3楼

想要搞一个用来学外语，直接外语对话了。
龙神 7月前

0 4楼

yanyaneboy 想要搞一个用来学外语，直接外语对话了。
可以有，我也想学外语。
virtualdub 7月前

0 5楼

yanyaneboy 想要搞一个用来学外语，直接外语对话了。
现在的模型支持创建你的学习计划Learning Plan, 动态实现各种学习深度、风格、语气的预设以及调整，效果确实不错，尤其是启用Code Interpreter（现在叫Advanced Data Analysis）配合python库之后，相当好用的。
可惜目前模型的tokens限制在8K，能做的事情有限，学习过程中比如用户打岔，可能会导致丢失之前的学习进度。这就不得不羡慕官方的Enterprise计划，直接支持32k tokens context，那Code Interpreter能干的事情可就太多了，散户是指望不上了。
pzani1 7月前

0 6楼

多模态加仿真, 未来可以训练机器人了

老男人游戏网配套论坛

7 楼

登陆后可以发表更多精彩回复立即登录丨立即注册

回帖

高级回复

发新帖

miku233

主题数
863

回帖数
5519

精华数
0

注册排名
14079