神经网络通过观察和聆听来学习像孩子一样的单词

 作者:夹谷排毙     |      日期:2017-09-01 19:27:33
由马特雷诺兹海洋,城堡,火车这不完全是莎士比亚,但它是一个开始通过学习将图像与口头描述相关联,神经网络以类似于孩子学习说话的方式拼凑了一个基本词汇麻省理工学院的David Harwath和Jim Glass想知道一台机器是否可以在没有看到它们的情况下学习单词他们展示了一个包含超过200,000张图像和相应音频字幕的神经网络,然后在一组新的1000张图像上进行了测试它学会了将字幕中的声音与图像中的对象配对例如,它学会了将具有灯塔的图像与“灯塔”一词联系起来荷兰蒂尔堡大学的Grzegorz Chrupala表示,这种方法更接近我们如何获得语音而不是标准学习算法 “[儿童]倾听人们所说的话,同时感知世界和这些参考文献所处的情况,并将这些事物联系在一起,”他说神经网络学会了数百种在图像集中重现的东西,包括天空,卡车和树木它也选择了一些形容词,例如学习“木”这个词可以应用于阁楼椽子和书桌的照片(arxiv.org/abs/1701.07481)该技术可以更容易地为不太常见的语言构建语音识别程序传统的语音识别算法,如Apple的Siri和亚马逊的Alexa个人助理背后的算法,通过比较大量的口语和书面文字数据来教授 “你必须用数千甚至数万小时的人说话训练这些系统,你必须有人手动进入并转录这些数据,”Harwath说 “该系统可以更容易地为不太常见的语言构建语音识别程序”由于创建这些数据集既昂贵又耗时,语音助理通常只能使用有限数量的语言到目前为止,Siri提供了21个,而Alexa只需要掌握英语和德语但Harwath和Glass的神经网络只需要音频字幕和图像,因此它可以帮助开发语音识别语言,这些语言缺少大量的转录语音数据霍瓦斯说,