本篇文章6031字,读完约15分钟

Imagenet不见了,ai challenger来了。

Imagenet不见了,ai challenger来了。

8月14日,创新工程,搜狗和今天的头条共同宣布,三方已经联合发起了人工智能挑战者全球人工智能挑战,由三个共同设定的目标是建立中国最大的科研数据集和世界一流的人工智能竞赛平台。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

在人工智能领域,数据的质量和数量是研发的核心。高质量的训练数据在机器学习模型的建立和优化中起着关键作用。建立大规模、高层次的标注数据集是推动人工智能科学研究和技术发展的动力。在国际上,之前有imagenet Challenge和kaggle,一个机器学习竞赛平台,吸引了全世界近100万数据科学家和研究人员。但就在上个月,经过八次会议之后,imagenet的创始人之一李菲菲博士正式宣布退出历史舞台。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

现在,创新奏效了,搜狗和今天的头条新闻走到了一起,我们希望更多的中国人才将参与进来,改变世界。创新工场首席执行官李开复博士说。

200万奖金,最大的科研数据集

8月14日,活动发布时,ai challenger Global ai Challenge的注册渠道也宣布了,并邀请了全球ai科研人才参加。

对于各行各业的研究人员来说,这场比赛有很大的吸引力。

首先是数据。从竞赛第一年开始,将发布1000多万个中英文翻译数据、70万个人体运动分析标注数据、30万个图片场景标注和语义描述数据,这是中国迄今为止公布的最大科研数据集。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

据新闻发布会现场介绍,三方联合开放的ai challenger数据集涵盖多个领域,包括最大的人体骨骼关键点数据集(用于无人驾驶、安全、体感游戏等)。),最大的图像中文描述数据集(用于图像和视频内容理解和图像标题自动生成等各种应用),以及口语领域最大的英汉翻译数据集(用于同声传译和自然语言处理等各种应用)。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

在奖金方面,第一届人工智能挑战者全球人工智能挑战赛将于9月4日正式开始,各种大师之间将进行为期三个月的比赛,决赛将于12月中旬举行。本次比赛共设立奖金200万元。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

据悉,2017年大赛将分为五个大赛任务,即:

英汉机器人儿童语音翻译

英汉机器文本翻译

场景分类

人体骨骼关键点的检测

图像中文描述

据活动组织者称,这一挑战有三大特点:

重点放在尖端科学研究上,它将逐渐覆盖核心人工智能领域,如计算机视觉、自然语言处理、自动驾驶、智能医疗和智能金融。

超大规模高质量数据。第一个公共人体?骨架关键点检测、图像描述和口语机器翻译数据集是目前国内最大的。

创建一个开放的世界级平台。

不难看出,这场竞争除了科学研究之外,更关注尖端技术,与未来的商业和生活领域密切相关。要推动三方共同打造这样一个盛会,有两点值得研究,即促进国内科研创新能力和挖掘更多的人工智能人才。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

创新与人才竞争

以前的数据集远远不够。李开复说。

李开复回忆说,他以前去过美国,在与美国许多顶尖教授的交谈中,他们都感叹自己赶不上美国的互联网巨头。尽管这些教授绝对不比谷歌的工程师差,但他们没有数据,也没有强大的计算能力。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

同样,这也是国内人工智能领域面临的一个问题。在科学研究领域,R&D人员缺乏数据,缺乏机器,也缺乏关于尖端人工智能主流的研究课题。对于拥有大量数据的商业公司,他们也期望挖掘更多的应用场景和研究成果。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

在此之前,搜狗与清华大学进行了9年的联合研究。双方不断交换和转移数据、人才和资金。去年,他们共同建立了天宫智能计算研究所。然而,王小川仍在考虑是否有可能向更多国内大学披露这些数据,并共同促进研发。李开复的建议使他觉得在这件事上他实际上可以做得更多。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

我们期望大学和企业取得更好的研究成果。高校科研人员在应用数据时,可以打破企业固有的惯性思维和路径,做得更好、更深。王小川说。

我们是基于对数据的共同理解而走到一起的。张宏强说道。开放可以让更多的人加入进来,并使算法研发进展更快。我们也将从中受益。在我们打开数据后,更多的初创企业可以从中受益。他们可以更快地应用数据来验证和产生新的想法和新的应用场景。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

人才培训中的差距和瓶颈也困扰着人工智能领域的创新创业公司。促进更多的人进入人工智能领域,为人工智能的研发提供动力也是本次竞赛的目标之一。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

基于高校的人才供给仍然存在缺口。有一段时间,我非常担心当我们从互联网时代进入人工智能时代时,我们会落后。王小川说,但是今天,我仍然看到希望。中国企业的运营速度非常快,它们也在回馈大学,促进中小初创企业的发展。今天这样做的意义在于让中国在人工智能领域继续得到提升。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

一个月前,张宏江来到斯坦福大学与伯克利学院交流。最大的感受是中国和美国在人工智能人才方面还有差距。在领导研究和创新方面,以及提出和掌握新问题方面,中国仍有很大改进。这样可以培养更多的人才。我希望我们今天能这样做,以促进中国在这方面的发展。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

人才也是张宏江加入今天的头条后的一个主要工作。据他向黑智透露,今年1月成立的今日头条人工智能实验室规模为50人,到今年年底将达到200人的目标。这场比赛无疑将增强三方在人工智能领域的吸引力和影响力,并吸引更多优秀的人工智能加入。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

据悉,本次大赛的优秀选手还可以在三大主办方得到工作、实习或投资的机会,有机会在顶级国际学术会议上分享获奖经验,并得到十多位人工智能领域顶尖专家评委的指导和评价,如上海科技大学教授马毅、迪法恩科技首席科学家、谷歌研究院前高级管理科学家林。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

以下是李开复、王小川与张宏江的对话记录,由黑植编辑:

江涛:三方有什么机会走到一起?

李开复:我去美国会见了许多美国顶尖教授。他们都哀叹自己赶不上美国的互联网巨头。虽然这些教授绝对不比谷歌工程师差,但他们没有数据,也没有强大的计算能力,所以我想知道中国是否有类似的机遇和挑战。回来后,我和王小川、张宏江、益铭聊了聊。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

王小川:我们与清华大学联合研究了9年,并不断向一个机构发送数据。那时,我们意识到我们可以披露更多的数据,我也想过向中国的大学提供数据。与李开复先生交谈,我们可以做得更多,实现全球开放。我认为李开复先生很有吸引力,可以做得更好。我愿意一起做。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

张洪江:我们三个对数据有一个共同的理解。我们可以打开人工智能进步的核心因素,让更多的人加入进来,让他们在算法研发上取得更快的进步。

李开复:一开始,三方都有想法和贡献。我将代表创新作品来描述它们。我们觉得imagenet每年参与的人越来越少,它的受欢迎程度越来越小,它的数据也不够。一方面,我们非常同意李菲菲教授过去所做的,现在的数据远远不够。因此,从创新工作作为投资者的角度来看,我们认为应该帮助企业家以及如何尽快做一些数据集。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

江涛:你认为我们的数据集有多难?

张宏江:当一个问题被大规模解决时,我们应该意识到我们今年发布的数据中更深、更细分的领域,包括人骨和其他。我们希望这些数据能把我们的人工智能算法研究提高到一个新的水平,并能分成更多的细节。今天的头条与王小川和李开复在一起的原因是我们希望看到更多的学校。通过这些数据集,我们可以提出更好的问题,开发更好的算法。我们也从中间受益,并在学校有新的解决方案。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

王小川:我们有两个期望。我们希望向世界开放,特别是当学院和大学使用它时,它们是否能像企业一样取得好的研究成果。有些企业有自己的思维惯性和路径。学校有可能以不同的方式使用数据,这比企业更好、更深入。这是我的期望。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

第二个期望是在数据中发挥真正的作用。我们的数据来自我们自己的问题,这会给我们一些启发,也许会给我们更多的发挥。我们给他们的是真实的数据,企业在其中所做的工作,一些基准测试,我们如何能做出不同的算法并产生不同的值,这是我认为在竞争中会很困难的。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

江涛:你对参赛者有什么期望?除了数据,他们还能从中学到什么?

王小川:很多学生真的尽力取得学业成绩,但是他们缺乏条件。我真的希望他们能在比赛中取得一些成绩,甚至超过我们的工程师,这反过来会激励我们。如果他们有想法,有动力,能够与众不同或者比别人更好,这是非常有价值的。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

张宏江:我们的企业在做自己的生意时,更关注的是我们目前的业务以及如何为用户服务。当我们打开数据时,我们会把它给更多的人,包括学校和学生。此外,我们希望更多的初创公司,无论是做算法还是应用,在看到数据后会帮助他们,从而为他们提出更新的算法和应用。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

李开复:我希望每一个在中国教人工智能的老师和学生都能参加这次比赛。不久前,我遇到一位老师,她告诉我找到一个话题有多难。我鼓励他们做主流人工智能研究。他们说没有数据,也没有足够的机器。这一次,我们也希望这个问题能在ai challenger中得到彻底和长久的解决。如果我们真的想做主流人工智能研究,我们必须至少知道我们能做多远,我们必须尝试这样的数据集。必须鼓励他们参与。为了提高中国的整体人工智能水平,每个老师和研究小组都必须知道他们现在在哪里,他们在空的空间有多大。如果基础知识不够,如果数据集不够,我们可以提供数据集。我真的希望每一位老师和学生都能考虑参与。有些学生可能会说,“这似乎很难。如果我做不到呢?”?我们将提供每个领域的基本算法。例如,你不需要从头开始构建一个完整的口语翻译引擎,而是在我们的基础上来做。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

江涛:一般来说,公司会有自己的主要研究方向,但仍有许多新的场景需要探索,对吗?

张宏江:是的,尤其是当一个小公司开始考虑某个方向时,它会很快用数据进行验证,或者看到数据会产生新的想法和新的应用场景。

江涛:人工智能研究所创新工作的研究方向可以共享吗?

李开复:我们总体乐观的方向是基于大数据的人工智能。如果不收集更多信息,现有数据可以产生价值。这些领域可以在电子商务、广告、金融、保险、贷款或信用卡、经纪和互联网上的定量交易中尽快看到好处。从长远来看,我们仍然认识到无人驾驶是启动发动机的一个重要行业,然后辐射到机器人领域。我们最近参观了一些美国公司。中国仍然缺乏某些类型的公司。例如,ibm的沃森根据企业的需求开发数据,这将在医疗、零售、教育和其他领域创造价值。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

江涛:标题是人工智能驱动的公司。你怎么看待人工智能人才,包括比赛?

张宏江:刚才我问我们为什么要做大数据和竞争,这对我有什么意义。我认为这是一个上升的趋势。当你有更多的数据供更多的人使用时,你可以提高他们的水平,培养更多的学生。一个月前,我去了斯坦福和伯克利,花了一点时间和那里的学生和老师交谈,就像我20年前是一名博士生一样。总的来说,我感到非常非常受鼓舞。与全国相比,他们的博士学位平均水平、对问题的掌握程度、在研究方面的领先优势或创造力平均水平仍然要高得多。从外面看,整体水平与美国还有差距,人才方面也还有差距。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

我认为我们在把握、提出和解决新问题方面还有很大的改进空间。我记得三月份去以色列听了一个讲座,提到以色列人才最好与中国合作;那么人工智能就像移动互联网一样,需要一个中美双赢的局面。中国有人才,中国有市场,在人才方面还有一些事情要做。我希望我们今天能这样做,以促进中国在这方面的发展。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

江涛:小川奈那,你的人工智能策略是什么?

王小川:两年前,我们讨论了一件事:中国会在人工智能时代落后吗?当时,我有一个顾虑。两年前,在数据交互培训的前10家公司中,中国已经有4家,五年后,其中一半甚至超过5家是中国公司。中国公司是互联网公司,当人工智能退出时,我们处于领先地位。但说到大学,前100所学校中只有两所不在前50名之内,而且大学相对落后。与谷歌不同,它背后的人才储备中充满了人工智能人士。对我们来说,得到一些并从国外引进一些是一件非常愉快的事情。中国大学的基础人才供给存在缺口,总体而言缺口巨大。但是今天,我认为仍然有希望。中国公司确实运转得很快,现在公司正在回馈学院和大学,这样小型初创企业就可以有一个开始。今天做这件事意义重大。中国可能会继续推进人工智能,这将在五年内给美国带来压力。如果做不到,我们最终建立的全球领先领域将会倒退。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

就我们的战略而言,我心中有数。今天,随着深度学习的发展,声音和图像得到了突飞猛进的发展,声音和图像在深度学习中迅速达到了一个新的高度。写作有点难,深度学习在解决写作问题上非常有限。语言背后的抽象事物包括知识和推理,语言的内涵更加丰富。我们已经做了很多语音识别,用户数量最多,但我始终认为我们关注的是语言。我们过去以语言为核心做搜索和输入法。翻译是最简单的语言,其次是对话问题和问答问题。因此,我们说翻译切入。我们在身后做的是对话的机器和问答的机器,这就是我们在人工智能中所做的。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

张宏江:我很同意王小川的说法。当我们今天看人工智能的时候,人脸识别、人类行为识别和图像识别的准确率接近于人类,但远远不是语言。翻译已经让我们头疼了。要真正理解课文和对话,并从几个简单的对话中推断出整个上下文的意思,需要更多的研究和更多的公司去做,这也是今天标题的一个重点。每个人都认为今天的头条是一个内容推荐引擎,但事实上,更重要的是创建一个平台。今天,你写了一篇文章,可以通过今天的头条为你复习。如果没有语法错误或颠倒,如果没有问题,我会建议你哪个主题更合适,并帮助你找到哪个图片和文字更合适。这涉及到深入的语言理解,我们希望与我们的同行合作,不仅要做好产品,还要做人工智能的研究。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

江涛:挑战的全球战略是什么?

李开复:一开始,我们想瞄准整个世界,因为我们想让它快速启动,而且它对整个世界开放。大多数参与者来自中国。我们在美国没有看到类似的活动。如果我们能成为吸引jade的第一个活动,我们希望在第二阶段有更多的公司贡献更多的数据,我们都将付出更多的资源、金钱和标签,使它成为一个真正改变整个世界的数据库。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

在美国的许多领域,因为没有之后,发音和语料库都达到了极限,许多自然语言都讲英语。我认为有一个中国元素让每个人都知道世界上最重要的语言之一是汉语,我们的目标是真正让资源出来,让全世界都参与进来。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

江涛:会有更好的数据集发布,对吗?

李开复:我们已经在收集更多有趣的数据。

王小川:我认为它以前非常落后,在科研精神、论文和数据共享方面远远落后于美国,所以这个问题需要改变。国家主张企业不仅要响应,还要积极做出自己的贡献。只有当数据共享真正领先时,中国的科学研究才能超越。现在,英语被用作学习发音的实验,英语也被用作学习语言的实验。我们在中国写论文并给予优先考虑。现在,我们应该用自己的数据做出贡献,提高我们的研究能力。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

张宏江:开源已经做了很多年了。开源社区、公司、非营利组织、营利组织、大学和个人都做出了贡献,每个人都形成了一套规则。我们希望通过我们的数据共享,我们也能引导更多的中国企业、中国个人和中国学校参与进来,将开源的理念转化为我们的实践,并将其运用到我们的日常工作中。

李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

(参赛者可以登录赛事官方网站challenger.ai了解比赛信息和选拔详情)

标题:李开复王小川张宏江对话:为什么拿出200万奖金打造中国版ImageNet?

地址:http://www.hcsbodzyz.com/hcxw/5535.html