人工智能是一个广阔的领域,涵盖了图像识别,自然语言处理(NLP)和机器人技术等各个领域。人工智能技术的发展有时似乎是疯狂的,因此很难跟上所有正在发生的事情。
 
毫不奇怪,许多组织寻求其IT供应商合作伙伴来帮助他们开发和部署AI解决方案,以最好地满足他们的需求。David Ellison是联想的高级人工智能数据科学家,他的职责包括使用尖端的AI技术为客户组织提供解决方案,同时内部支持联想全球数据中心集团的总体AI战略。
 
联想已经商业交付的项目包括使用卷积神经网络从图像中提取特征并将其分类为缺陷或非缺陷的工厂中检测制造缺陷的项目。联想还为赛车公司开发了计算机视觉系统,以决定是否应召唤特定的赛车维修保养。
 
根据Ellison的说法,今年和不久的将来,人工智能的主要趋势包括基于计算机视觉的应用程序,用于训练AI模型的数据生成和数据标记算法的开发以及归因于变压器的自然语言处理的快速发展。
 
让我们仔细看看联想对AI的一些主要近期趋势的概述。
 
计算机视觉


在计算机视觉方面,开发人员和研究人员现在开始探索将这种能力与人工智能的其他一些领域相结合的实用方法,比如机器人技术或自动应用图像字幕等应用的自然语言处理。据Ellison说,这部分是因为计算机视觉的一些基本问题已经被证明很难解决,研究人员正在寻找新的方法来解决这些问题,而不是简单地推动研究领域向前发展。
 
“我认为我们在解决一些核心的计算机视觉任务时遇到了问题,比如3D投影,”埃里森告诉Next平台。“例如,当你看到一张图片,一栋建筑的二维图像,人类的大脑可以将其推断成三维的形状,但机器很难做到这一点。”在这方面已经有很多研究,但这是一个尚未解决的核心问题,我认为人们会感到沮丧,会尝试一些新的东西,或者尝试将它与其他领域相结合,找到更好的用途。”
 
Ellison认为,这就是为什么机器人技术是目前最广泛研究的人工智能领域之一,因为它为人们提供了一个明确的目标。他列举的例子包括使人工智能能够使用视觉感应在其周围的空间中安全移动——无论是制造工厂的机械臂,还是使用人工智能导航到目的地的自动车辆。
 
训练数据
 
已经熟悉AI的人们会知道,成功训练模型的关键因素之一就是数据,其中很多都是数据。实际上,对它进行训练的数据越多,传递所需结果的效果就越好。根据埃里森的说法,计算机视觉目前正处于困境中,因为用于训练模型的数据集没有足够多的样本。例如,用于训练模型以导航室内空间的广泛使用的3D空间吉布森数据库(Gibson Database of 3D Spaces)包含572座由1,447层楼组成的完整建筑物。虽然令人印象深刻,但这不太可能是人工智能系统在现实世界中可以满足的全面要求。
 
当对象的方位与训练计算机视觉模型时的方位不同时,会发生类似的问题。在广泛用于AI训练的ImageNet数据集中,“一切都像是一张椅子,只是一张椅子的照片,它位于房间正对着摄像机的中间。如果您将椅子的侧面翻过来,计算机视觉应用程序突然会认不出椅子。”Ellison说。
 
这个缺点是一个名为ObjectNet的新数据集的灵感来源,它以不同的配置显示日常项目,例如椅子翻转或倒置。这个训练集被用来解决计算机视觉的一些缺点,例如不能识别方向不正常或部分模糊的物体。
 
但是获取足够大且多样化的数据集进行AI训练的问题仍然存在,这导致了Ellison识别出的另一个主要趋势,即使用AI首先帮助生成数据集的趋势。
 
自我监督与综合数据
 
建立数据集需要人工操作人员对数据进行大量手动标记,因此,现在越来越多的研究项目集中在自我监督算法上,这些算法可以获取已收集的数据并使计算机自动为数据添加标签。
 
“一个典型的例子是带有计算机视觉应用程序和接近传感器的机器人。计算机视觉比接近传感器能够看得更远。但是随着机器人的前进,计算机视觉中出现的东西最终将作为对象出现在接近传感器中。”埃里森解释说。获取该传感器数据并及时回溯到首次看到该对象的时间,然后可以对其进行标记。
 
开发人员面临的另一个挑战是,一旦部署,AI系统极不可能遇到的数据点,因此可能无法在训练数据集中表示。但是,如果这些边缘情况代表实际情况,则需要考虑这些情况,以确保AI模型正确处理它们。
 
“关键示例是自动驾驶汽车。您的数据集中将有多少次在黄昏的暴风雪中开车上山?您不会在数据集中拥有很多这样的情况,因此它们实际上必须进行模拟数据。” Ellison说。
 
换句话说,通过使用通过多种方法(例如生成模型)创建的综合数据来解决极端情况。但这提出了一个问题,即数据科学家或开发人员如何才能确保此类合成数据能够准确表示AI在现实生活中会遇到的情况。
 
Ellison承认:“这是一个主要问题,”到目前为止,解决方案是仅生成更多数据,并希望这将为那些用例提供足够的综合数据。但是,还使用了诸如神经网络自动编码器或更复杂的生成对抗网络(GAN)之类的方法,其中一个网络创建合成数据,第二个网络用于判断该候选数据的质量。
 
“因此,它认为这种示例足够现实,这是对自身的一种训练。您同时训练两个神经网络,一个生成这些示例,一个判断这些示例,并希望最终得到更现实的东西。” Ellison说。
 
GANs已经被用于生成数据的一个很好的例子是“深度伪造”技术,这种技术已经被用于创建逼真的人脸,或者改变视频,使视频中的人看起来像是在单独的音轨中说话。据埃里森说,这表明了这类模型已经达到的复杂程度。
 
转换自然语言处理
 
与此同时,过去几年自然语言处理领域的成功案例之一是基于转换的深度学习模型,埃里森相信这些模型将继续占据主导地位。这是因为它们已经发展到能够识别句子之间的依赖关系和连接,而早期模型中使用的递归神经网络(RNNs)本质上是顺序的,往往会失去单词的上下文。
 
“如果您看一个变压器,它具有蒙版的多头注意力层,添加和规范层以及前馈层,但是它不具备RNN具有的所有反馈机制,实际上会减慢处理速度,因此它们能够看到更大的区域。”
 
根据Ellison的说法,这会影响模型解释含义的能力,因为RNN在识别多个句子中的同一实体方面存在问题。
 
“ RNN非常擅长用“蒂姆搬椅子”这样的句子来确定主题,但是如果您跟进“他有红头发”,我们知道这里的“他”仍然是指蒂姆,但是一种算法可以很难在这两个句子之间跳跃。递归神经网络在这样做时遇到了问题。”
 

这种架构已导致变压器在许多最近开发的NLP模型中扮演重要角色,例如Google的BERT和OpenAI的GPT-2,以及Facebook的RoBERTa和Microsoft的MT-DNN,它们在诸如此类的NLP任务中显示出巨大的希望例如文档分类,情感分析,问题解答和句子相似度。


郑重声明:本文资源、信息来源于网络,完全免费共享,仅供学习和研究使用,版权和著作权归原作者所有,如有不愿意被转载的情况,请通知我们删除已转载的信息。发布此信息目的在于传播更多信息,与本网站立场无关。不保证该信息(包括但不限于文字、数据及图表)准确性、真实性、完整性等。