新发现！人工智能系统可对多场景声音进行识别-慧聪商情网

本篇文章1017字，读完约3分钟

HC安全网络新闻人工智能已经突破了音障。麻省理工学院的研究人员开发了一种人工智能系统，可以“观看”无声视频并产生声音。这种效果如此逼真，以至于大多数观众无法分辨这些声音是否是由电脑产生的。麻省理工学院计算机科学与人工智能实验室称，其“深度学习算法”是第一个通过“声音图灵测试”的，而且生成的声音可以伪造。这个视觉上独立的声音系统(vis)被训练用来分析棍子在击打、刮擦或刺伤一系列物体(从树叶和水到土壤和钢铁)时发出的声音。研究人员说，vis的技能可以扩展到许多其他场景。例如，未来的版本可以为电影和电视产生比传统方法(如在铝箔上撒盐来模拟雨)更逼真的声音效果。项目负责人andrewowens说，更重要的应用可能是帮助机器人理解物体的物理属性，并更好地与环境互动。这个项目将于本月晚些时候在拉斯维加斯的计算机视觉和模式识别会议上展出。他说:“机器人可以看着人行道，本能地知道水泥地面是硬的，草是软的，所以它知道如果它踩在两种地面上会发生什么。”“能够预测声音是预测与世界的物理相互作用的结果的重要的第一步。” 麻省理工学院的团队通过输入1000个包含46000种声音的视频来“训练”vis，这些声音是通过敲击或敲击不同硬度物体上的鼓槌而产生的。之后，帮助计算机在大量数据中找到模式的“深度学习”算法会解构这些声音。为了从无声视频剪辑中预测新的声音，vis将查看最有可能与每个视频图像相关的音频属性，并将这些音频串在一起以编辑连贯的声音。Vis可以模拟快节奏和舒缓的细微声音，无论是间歇拍打岩石的声音还是常春藤发出的细微沙沙声。它不仅可以模拟撞击垫子时发出的低沉的撞击声，还可以模拟撞击栏杆时发出的刺耳声音。为了测试这些声音在人耳中的保真度，研究人员调查了400名观众。他们看了两遍视频，一个听真实的声音，另一个听模拟版的vis。他们想知道哪一个是真正的声音。如果vis产生的声音与真实声音无法区分，则选择vis版本的概率应为50%。结果本次调查的概率为40%，是一个非常好的分数。当声音清晰尖锐时，例如敲击木头或金属的声音，该系统的性能最差，当产生由树叶或土壤产生的更柔和且持续时间更长的声音时，vis的性能最佳。有时，如果棍子刚好停在目标前面，它会“幻想”假敲门的声音。欧文斯的梦想是让vis在没有清晰视觉线索的情况下模拟声音。他说:“从微风到笔记本电脑的嗡嗡声，环境中随时都有许多声音与我们所注视的东西无关。”

标题：新发现！人工智能系统可对多场景声音进行识别

地址：http://www.hcsbodzyz.com/hcxw/1783.html

新发现！人工智能系统可对多场景声音进行识别

慧聪商情网推荐资讯

previous的各种形式_previous的所有形式

聚氨酯生产技术研修班

智能建筑：在技术和环境挑战之间，未来互联建筑的前景如何

priorityqueue默认是大根堆还是小根堆_

二次结构泵-1天浇柱300根

开水器厂家教你如何科学的饮水方法

sro是什么职位_sr是什么工作职位

蕲春县心理健康教师研修班

蒙克顿：加拿大大西洋海岸的隐秘宝藏

阿里云账号24h自助充，阿里云代理商代购

慧聪商情网热文榜

国内首款HMO特医食品问世 ——怡贝深敏&怡贝深度！宜品特医引领婴幼儿

美洽AI客服实现跨境营销自动化的注意事项

探索苏黎世：湖光山色与现代都市的和谐交响

playing basketball是什么意思_playing baseball的意思

与君同行爱系西藏，君乐宝驰援震区捐赠逾40000罐/提乳制品

pm的汉语是什么意思_

马尔代夫旅游注意事项：入境、天气、住宿及费用全攻略

我们产品在网上低价乱价销售如何管控

融智兴科技携全系列RFID标签参展2025中国国际标签展

小红书SEO对于企业营销的重要意义分析

慧聪商情网最新发布

慧聪商情网介绍