雷峰网

谷歌发布Geimini2.0，开启Agent新时代

Thu, 23 Jan 2025 17:47:00 +0800

Open AI连续几天上新，谷歌也不甘示弱。

今天谷歌深夜炸群，重磅发布了杀手锏——Gemini2.0，声称“Gemini2.0 是我们迄今为止最新、功能最强大的 AI 模型。”

其最大的亮点是Gemini2.0 是第一家实现原生多模态输入输出的模型。

基于强大的新模型，谷歌又推出了三个AI agent产品，通用大模型助手Project Astra、浏览器助手Project Mariner、编程驻守Jules，这一套“组合拳”下来，标志着谷歌AI已经初步做到了向“Agent”时代的转变。

谷歌DeepMind的CEO德米斯·哈萨比斯（Demis Hassabis）对此表示非常满意，因为Gemini 2.0 实际上达到了目前 Gemini 1.5 Pro 的水平。这意味着在保持相同成本效率、性能效率和速度的情况下，整体性能要整整提升一个档次。

Gemini2.0，第一个实现原生多模态输入输出的模型

在Gemini2.0发布前，谷歌发布的一款名为Gemini-exp-1206的模型已经火爆全网。该模型能够处理 200 万个标记（相当于一个多小时的视频），擅长处理大型复杂数据集。因为高超的性能，它在 Livebench 上排名第二，超过了Claude 3.5 Sonnet，直逼Open o1-preview。

许多人猜测这可能就是Gemini2.0。

当Gemini2.0的实力真正揭开帷幕，比想象中还令人震撼。首先性能上全面升级。在速度方面，2.0 的速度是 1.5 Pro 的两倍，这一速度提升意味着用户将享受到更高效的处理能力和更快的响应时间。

在性能方面，Gemini2.0可以支持图片、视频和音频等多模态输入与输出。可以直接生成图像与文本混合的内容，以及原生生成可控的多语言文本转语音(TTS)音频。它还可以原生调用Google Search、代码执行以及第三方用户定义的函数等工具。

基于Gemini2.0架构之上，谷歌推出了三个新的AI智能体原型：通用大模型助手Project Astra、浏览器助手Project Mariner、编程Jules。

谷歌送上Agent大礼包

Agent是指无需人工干预或监督即可自主执行任务的人工智能技术。它们允许用户将任务委托给人工智能，从而大大优化人类的工作流程，组建一支随时待命的助手团队，几乎无需监督。

谷歌在2024年的末尾，送上了Agent大礼包。

Project Astra：通用大模型助手

Project Astra是谷歌最初在5月的I/O大会上首次对外发布的AI助手，对标OpenAI的GPT-4o，其主要功能包括实时语音和视觉处理，能够通过手机或谷歌眼镜进行跨文本、音频、视频的多模态实时推理。

Astra产品经理Bibo Xu将认为Project Astra在整合一些当今最强大的信息检索系统。

此次，Project Astra全面升级了四个性能：更好的对话，能调用新工具，更强的记忆，更低的延迟。

更好的对话： Project Astra具备多语言对话能力，能够更好理解不同口音和不常见词汇。

调用新工具：借助 Gemini 2.0，Project Astra 可以使用 Google 搜索、镜头和地图，使其作为您日常生活中的助手更加有用。

更强的记忆：Project Astra拥有长达 10 分钟的会话记忆，能记住更多用户与其过去的对话，从而提供个性化的服务。

更低的延迟：通过对新的流媒体功能和本机音频理解，Project Astra 可以以与人类正常对话的速度来作出反馈。

Google 和 Alphabet 首席执行官桑达尔·皮查伊（Sundar Pichai）对这一产品尤为自豪，称它为“展示了通用AI助手的曙光”。而谷歌方面正打算将这些功能引入 Google 产品，如Gemini应用、 AI 助手，眼镜等。

Project Mariner：浏览器助手

Project Mariner是一个使用 Gemini 2.0 构建的早期研究原型，旨在从浏览器开始探索人机交互的未来。作为研究原型，它能够理解和推理浏览器屏幕上的信息，包括像素和文本、代码、图像和表单等网络元素，然后通过实验性的 Chrome 扩展程序使用这些信息完成任务。

简而言之，就是用AI来帮助人类操作电脑，通过控制用户的Chrome 浏览器、移动屏幕上的光标、点击按钮和填写表格，Project Mariner 可以登录杂货店网站购物，还可以查找航班和酒店、购买家居用品、查找食谱等。

根据WebVoyager 基准进行评估，该基准测试代理在端到端真实世界网络任务上的性能，Project Mariner作为单一代理设置实现了 83.5% 的最佳工作结果。

不过从安全性考虑，这一切都在用户监督允许的范围内，许多敏感操作会要求用户进行最终确认。

某谷歌高管称Project Mariner是“全新用户体验范式转变”的一部分。

Jules：编程助手

Jules简而言之，就是AI帮你写代码。它直接集成到 GitHub 工作流程中，查看用户已有的代码，并直接在 GitHub 中进行更改，解决开发者头疼的改bug环节，而这一切也都在用户的监督之下，保证安全的同时节省时间，方便用户专注于做自己实际想构建的内容。

Gemini2.0的全面还包括在游戏、学术研究、机器人领域做的尝试。

谷歌正在与Supercell等游戏开发商合作，探索智能体在游戏中的应用。谷歌推出的AI游戏助手可以理解游戏规则和进程，能够通过用户游戏屏幕上的动作来给出下一步操作建议。谷歌展示了从《部落冲突》等策略游戏到《Hay Day》等农场模拟器游戏中，AI如何通过对话的形式为玩家提供建议。

谷歌推出的Deep Research，如同学术研究助手，通过高级推理和长上下文能力，可以直接出论文。

谷歌还想将 Gemini 2.0 的空间推理能力应用于机器人身上，帮助机器人更加智能化。

Gemini2.0在音频和图像生成方面展现了强大实力，系统可以生成和修改图像，处理照片和视频，回答相关问题，用不同口音和语言的声音朗读文本。为了防止滥用，谷歌使用SynthID技术对所有生成的音频和图像进行水印标记。谷歌还推出了多模态实时API，帮助开发者构建具有实时音频和视频流功能的应用程序。这个API支持来自摄像头或屏幕的音频和视频输入，能够处理自然对话模式。

Gemini2.0的强大基于谷歌定制的硬件第六代TPUTrillium构建而成。Trillium与前代产品相比全面升级，如训练性能提高超过 4 倍，推理吞吐量提高3 倍，每个芯片的峰值计算性能提高了 4.7 倍，效提高67%，每颗芯片峰值计算性能提高4.7倍，HBM容量翻倍，单个Jupiter网络有10万颗TPU，高至2.5倍的每美元训练性能，1.4倍的每美元推理性能。

目前人们可以通过PC端优先体验2.0Flash 实验版，而Gemini2,0移动版将很快呈现。明年1月谷歌会推出Gemini 2.0 Flash 多模式版本，届时还将推出更多 Gemini 2.0 模型尺寸。

而作为提供给开发者的体验版模型，Gemini 2.0 Flash 现在可以通过Google AI Studio和Vertex AI中的Gemini API获取，所有开发者均可使用多模态输入和文本输出。

谷歌开启Agent时代

谷歌正在疯狂将AI融入它所拥有的所有产品中。

Google 和 Alphabet 首席执行官桑达·皮采（Sundar Pichai）对这款产品寄予厚望，他说如果 Gemini 1.0 是关于组织和理解信息的，那么 Gemini 2.0 就是为了让信息更加有用。其中重要的区别就是“Agent”，这是人工智能时代下一个大方向。

在桑达尔·皮查伊（Sundar Pichai）描述中，“Agent可以更好地了解你周围的世界，提前思考多个步骤，并在你的监督下代表你采取行动”。谷歌这次秀肌肉，完整呈现了系统级 Copilot 和智能体应用，展现了Agent可以为人们生活带来的全方位改变。

谷歌表示他们的AI Overviews已服务超过10亿用户，帮助用户提问全新的问题类型，成为谷歌搜索引擎最受欢迎的功能之一。他们准备把Gemini 2.0的先进推理能力引入AI Overviews，处理更复杂的主题和多步骤问题，包括高级数学公式、多模态查询和编程，探索更多功能引入产品本身。谷歌的愿景是在2025年开启真正的“AI智能体时代”。

据彭博社报道，OpenAI 正准备发布一款能够控制计算机并独立执行任务的自主 AI 代理，代号为“Operator”，计划于 1 月份将其作为研究预览版和开发工具首次亮相。

2025年是Agent时代的真正开始，到时又会有怎样的厮杀呢，雷峰网拭目以待。

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

Mon, 16 Dec 2024 14:04:00 +0800

3 个月前，MiniMax 发布了首款 AI 高清视频生成模型 Abab-video-1。只用了 5 周时间，海螺 AI 的网页版访问量便增速超 800%，还登上了 AI 产品榜当月全球增速榜、国内增速榜双榜单 TOP 1。

一时间，不少国内网友直呼其为“国产之光”。

12 月初，MiniMax 又上新了图生视频模型 I2V-01-Live，新的模型专门对二次元效果进行了优化，能够更好的将静态的二次元图片转化为流畅且自然的动态视频，至此，海螺 AI 开始进军“动漫界”。

与此同时，OpenAI 的“双十二”活动也在如火如荼的进行着，万众期待的 Sora Turbo 顺势开放。当“国产之光”碰上“话题之王”，会擦出怎样的火花？雷峰网AI 科技评论第一时间对二者最新、最完整的模型进行了一手体验，在给定的一系列固定提示词的条件下，海螺 AI 的生成效果属实令人眼前一亮。

「国产之光」VS「话题之王」

在这场视频生成的狂欢中，不少网友脑洞大开，提供了各种虚实结合的有趣 idea：

在网友对比海螺 AI 和 Sora 生成的“喝茶的龙”的视频下，评论区普遍认为 Sora 生成的龙与背景存在一定的违和感，尽管能够创造出看似真实的图像，但在细节融合和场景一致性上可能还存在一些挑战。

提示词：ancient dragon drinking tea。古老的龙在喝茶。

也有网友直接让两个模型生成《了不起的盖茨比》小说中所描述的画面，对比其生成效果的还原度，并锐利点评：海螺 AI 的效果确实有 20 世纪的味道，但 Sora 的效果却显得过于现代，不符合提示词的要求。

提示词：A realistic, high-definition 16:9 horizontal video depicting a lavish party at Jay Gatsby’s mansion from F. Scott Fitzgerald’s novel ‘The Great Gatsby’. The scene captures the extravagant 1920s.

一个真实、高清的16:9横向视频，描绘了F. Scott Fitzgerald的小说《了不起的盖茨比》中Jay Gatsby的豪宅里举办的奢华派对场景。这场戏捕捉了20世纪20年代的奢华氛围。

还有网友将同一提示词下 sora 和海螺 AI 生成的视频做了横向对比并评论：现在不需要Sora，海螺 AI 也能满足我的一切需求。

提示词：An astronaut in a white suit with a reflective visor stands amidst a glowing meadow of bioluminescent flowers under a surreal, starry night sky. The astronaut reaches out toward ethereal, glowing jellyfish floating gracefully in the air. The camera performs a slow dolly zoom。

一位穿着白色宇航服、戴着反光面罩的宇航员站在一片发光的生物荧光花丛中，头顶是超现实的繁星点点的夜空。宇航员伸手向空中优雅漂浮的幽灵般发光的水母。摄像机进行缓慢的推拉变焦拍摄。

除了以上这些对比二者生成效果真实性的网友外，也有大批网友在体验了 MiniMax 最新的 I2V-01-Live 图生视频模型后纷纷加入了对海螺AI 的赞誉行列。

有从事艺术行业的网友晒图并表示：这是我尝试过的最难动画化的图片之一，几乎所有平台都试过了，只有海螺 AI 成功让这张图片动了起来！

更有网友专门整理了视频海螺 AI 的视频合集，并配文：I2V-01-Live 就是为了让 2D 动画动起来而设计的，它不会让你失望！

甚至有网友用 I2V-01-Live “复活”了塔罗牌：这些人物动作流畅，仿佛被注入了生命一样！

也有网友在尝试过之后，认为这个模型的生成效果和儿童故事的插图完美匹配，效果十分完美。

流畅、真实、有质感

看过了网友们对海螺 AI 和 Sora 的真实测评后，AI科技评论也进行了一手体验，为了更加直观的进行对比，生成时统一使用了 Sora 官方 demo 的视频提示词。

在尝试制作“猕猴眼部特写镜头”视频时，海螺 AI 的生成效果相较于 Sora 更为直观。视频中，镜头缓缓移动，揭示出主角是一只猕猴，毛发与脸部轮廓处理真实细腻。然而，Sora 的效果如果不结合提示词来理解，很难让人将其与“猕猴”联系起来。尽管如此，Sora 却成功捕捉到了猴子眼中的“星河宇宙”，而这一细节在海螺AI的效果中并不那么明显。

提示词：a closeup of the eye of a macaque monkey. it is very still. the eye does not move, and the gaze of the eye does not move. the monkey stares back at us in the camera. we see the universe in the eye of the monkey.

一只猕猴的眼睛的特写镜头。它非常静止。眼睛不动，目光也不移动。猴子在镜头中凝视着我们。我们在猴子的眼睛里看到了宇宙。

在处理“头发凌乱不堪”这一指令时，两个模型都选择了通过“风吹”的效果来展现。然而，海螺 AI 所呈现的画面更具动感，画面感更为强烈。画面中，一位老人缓缓转身，微风轻拂，自然地掀起他的头发，显得既真实又细腻。相比之下，Sora 的处理则显得有些粗犷，仿佛是在“乱吹”。

提示词：a close up of an old man having a really bad hair day.一个老人头发凌乱不堪的特写镜头。

主角行走时动作僵硬、缺乏流畅性是许多视频生成大型模型普遍面临的问题，即使是被誉为“话题之王”的 Sora 也未能免俗。在 Sora 生成的视频中，人物行走时步伐略显僵硬，同时伴随着镜头的轻微拉近，本意是为了营造一种从远及近的视觉效果，但结果却不尽人意，反而让画面显得有些不协调。

而海螺 AI 在这方面的处理则显得更为自然且流畅，巧妙地避免了这些问题，让人物的动作和镜头的过渡都更加和谐，视觉舒适感拉满。

提示词：a hooded hunter walking between the trees in the snow.一个戴着兜帽的猎人在雪中的树林间行走。

技术至臻，才能画面至美

测评之外，真实的榜单数据也在彰显着 MiniMax 的技术实力。

时至今日，MiniMax 视频模型依然凭借其卓越的画面质感、内容的真实性以及流畅性等优势，在 VBench榜单独立测评评分上稳居首位。

据 MiniMax 介绍，他们的大模型每天要与全球用户进行超30亿次交互，平均处理超过3万亿文本token，生成2000万张图片以及7万小时语音。在全球拥有多元化用户分布的同时，位居国内 AI 公司大模型日处理交互量榜首。

和Sora在年初的初次亮相相比， MiniMax 在视频生成赛道上的“姗姗来迟”，公司创始人闫俊杰则表示这其实是一种“蓄力”，他希望 MiniMax 能够在技术上形成绝对优势后再进入赛道，以弥补入局晚的劣势。在他看来，要大投入去做的技术研发，不应该只追求 5% 或是 10% 的提升，而应该追求几倍的提升。

也正因如此，MiniMax 在视频生成赛道中的“迟到行为”，便更像是刻意而为之，给人一种待万事俱备之时，再乘东风之势，一鸣惊人的从容与淡定。

事实证明，他们做到了。

2024 年 8 月，MiniMax 的 Abab-video-1 模型一经上线便火遍全球，迅速包揽各大榜单的 TOP 1。但在人们一声声“国产之光”的欢呼中，闫俊杰最先冷静下来，他知道对于 MiniMax 而言，技术的重要性还在不断的提升，技术好了，才能留住用户。他曾说：“当技术做不好的时候，所有东西都是问题，当技术做好了，所有问题都会被掩盖。”

继10月上线图生视频功能后，MiniMax此次发布最新图生视频模型 I2V-01-Live，再次证明了 MiniMax 在视频生成大模型领域的技术能力。快速的产品更新周期将人们对海螺 AI 未来的文+图生成视频以及编辑可控性的期待值直接拉满。

在竞争日益激烈的视频生成大模型领域，MiniMax 作为新兴力量，凭借专注深耕的技术路线与精准前瞻的战略布局脱颖而出，拉着视频生成行业往前走了一大步。

然而，作为“后来者”，MiniMax究竟是如何推动行业发展的？其中缘由并不难理解。

从Mini，到Max

Sora 热潮掀起了国内对视频生成大模型的广泛关注，各大公司“先后”入局，MiniMax 凭初创公司的身份，在一众“宇宙大厂”面前表现不输。

从默默无闻的初创公司，仅用了三年时间便到“国产之光”，MiniMax 或许真的不一般。

自公司成立，MiniMax坚持在多模态发力，其视频生成模型生成内容从细节性、准确性以及丰富度上都得到了不错的效果。

在应用趋势上，MiniMax 的两款视频生成模型抢在 2024 年正式上线，紧抓 AI 视频大模型爆发式增长的机遇。作为 AI 视频的应用元年，2024 年不仅是一个重要起点，也预示着行业迈入高速发展的新阶段。随着模型能力的不断提升和推理成本的逐步下降，未来3-5年内，各类应用场景将陆续被解锁。而 MiniMax 的这一布局，无疑占据了行业应用趋势的制高点。

从更长远的视角来看，视频生成模型则承载着更宏大的愿景，有望成为世界模型以及通用 AGI 不可或缺的重要组成部分。无论是眼前还是未来，MiniMax 的路看似都没有走错。

除此之外，新一代的 AI 视频工作流也正在萌生，它将会整合音频、视频的整个创作流程，大大的提高创作效率，同时也可以降低 AI 视频内容在制作中各个环节的“违和”现象。这个工作流主要包括“精细化生成”和“流程化整合”两个方向，前者主要是对视频中的各类细节进行精准调试，后者是通过一站式服务提高工作效率。在这方面，MiniMax凭借自研语音模型、音乐模型的创新和应用，可能早已为此做好了布局。

MiniMax 选择在国内的 B 端和 C 端同时发力，打破了国内市场被“大厂”瓜分的商业化布局，力求在不同市场层面取得突破。通过满足企业客户的高效工作流需求以及个人用户对创新工具的追求，MiniMax 能够在两条市场线中获得更多机会。除此之外，MiniMax 还积极扩展海外市场，寻求全球化的发展机遇，利用不同地区的需求特点和潜力，推动品牌的全球化发展，并为其未来的商业化带来更多的机遇。

与此同时，MiniMax 也在 AI 视频生成的竞争中，凭借其在基础模型、产品和场景三个关键要素上的深度布局，逐步推动了技术和市场的发展，拉着国内视频生成行业往前走了一大步。

至于 MiniMax 还能走多远，看它硬是把自己从 mini 拼成了 Max 的劲头，足以相信它以后的路还会很长。

从云到端：离客户更近的端侧AI「涌现」而至

Thu, 12 Dec 2024 19:13:00 +0800

AI发展正酣，随着终端芯片算力越来越高、端侧模型能力越来越强、实时响应及隐私保护的端侧应用需求增加，端侧AI已然具备落地的条件。端侧AI离客户和应用场景更近，也是具象化AI的重要方式。可以看到，端侧AI的浪潮“涌现”而至，原有的用户体验和生态格局将迎来革命性重塑。

端侧AI是指在终端设备（如车载智能座舱、智能除草机、机器人等终端场景或设备）上进行人工智能计算和处理，运行端侧模型。相较于云端大模型，端侧大模型在资源有限的设备上高效运行，需进一步对模型进行压缩、推理加速及能耗优化。目前轻量化模型技术包含模型剪枝、知识蒸馏和量化，以上技术往往组合使用，以达到最优的轻量化效果。将大模型部署在端侧设备中，可高效赋能智能终端，如降低延迟，更快地响应用户请求；隐私保护，减少数据传输，从而降低隐私泄露的风险；减轻云端服务器的计算负担，降低对中心化计算资源的依赖，从而降低成本；根据用户的具体设备和使用习惯进行定制化优化，提供更加个性化的服务；无网络连接的情况下也能使用，提高了应用的可用性和灵活性。

基于大模型在端侧部署的特点和优势，已落地或即将落地的应用场景包括：智能手机、智能家居、可穿戴设备、自动驾驶汽车、工业自动化、医疗设备等。随着AI技术的进步和芯片产业的发展，端侧部署AI的挑战正逐步被克服，更多的端侧应用场景正在落地实现并逐渐成熟。

首先，大模型本身的算法逐步在优化，在众多细分行业，模型的计算效率相较上一代均有一定量级的效率提升。模型参数变得更小，用户体验却更加智能。再者，更多参数较小的大模型被开源，且AI能力日趋成熟，例如智谱AI、阿里千问等大模型厂商都开源了亿级（0.xB左右）到百亿级（x0B）的大模型预训练模型。这大大降低了大模型应用开发者的使用门槛，同时加速端侧AI部署。此外，算法层级的技术，包括模型量化、剪枝、蒸馏为基础的模型压缩算法，以及专为端侧部署设计的软硬件平台，都正在快速发展，这使得大模型在端侧设备的部署变得更加高效。以上模型变化趋势使得端侧AI在本地所需算力、部署成本、运行效率得到大大提升，将助力各行各业智能升级。

目前，端侧AI芯片厂商、中游模组及软件厂商、下游终端厂商的产业链上下游正积极推动 AI在端侧部署落地。多个芯片厂商已推出最新处理器，支持终端侧多模态生成式AI，并完成多款大模型的适配。广和通持续为AIoT产业提供模组及解决方案，正积极探索端侧AI相关技术，并已推出多款可应用于机器视觉、具身智能、智能割草等场景的端侧AI解决方案，满足不同终端对算力及模型的需求。

在端侧AI应用上，广和通深度布局视觉与听觉计算，推出高算力和轻量化机器视觉解决方案，融合了先进的处理能力与边缘计算优势，采用了目标检测、关键点检测、图像分割、超分辨率、图像增强、360环视拼接等高效的视觉处理算法。此外，广和通机器视觉解决方案支持蓝牙、Wi-Fi等多种无线通信连接方式，在高端智能影像终端、工业视觉终端、车载终端、机器人均具有广泛应用场景。

AI大模型作为当前人工智能领域的重要技术，是孕育新质生产力的重要手段。作为大模型应用的一个重要的实践领域，端侧 AI大模型的全面落地发展需要全产业链推动，包括芯片算力增强、模型优化、软件厂商适配以及终端厂商的落地应用。广和通积极整合产业上下游资源，为产业提供融合通信、算力、AI算法、AI引擎、模型等能力的端侧AI解决方案，加速AI商用至终端。

赵勇卸任格灵深瞳CEO：创业一瞬间，跌宕十一年

Fri, 06 Dec 2024 11:36:00 +0800

赵勇在面试Google的时候，面试官曾经问过他一个问题，如果我们可以在人脸上做一台计算机，应该怎么去交互？这个问题后来成为了Google Glass的灵感之源，这个产品正是赵勇所在的小组共同完成的，赵勇还是Google Glass这款产品在Google公司内部立项的项目命名者。至此，赵勇与视觉结下了不解之缘。

再后来，赵勇离开硅谷，回国创业，第一想到的，也是人的眼睛。格灵深瞳的英文名“DeepGlint”，意译就是人的瞳孔中所反射出的深邃的微光。

Google glass经历了跌宕起伏的产品周期，这不是一个足够令大众接受的眼镜，但在淡出消费级市场之后，它成为了一个优秀的B端产品，广泛应用于美国的医疗、交警等领域，每年有数亿美元的应收。

格灵深瞳的命运也有点类似。在创业的前几年，这家公司经历了辉煌和低谷，曾被认为是一家失败公司的典型案例，但在远离了资本和媒体的喧嚣后，在人们的视线之外，这家公司又顽强地站了起来。

而奋斗了十一年的赵勇，经历了无数的风风雨雨的赵勇，今年卸下了格灵深瞳CEO的担子，继续作为董事长去思考这家公司更远的未来。

巅峰开局，资本狂欢

2012年下半年，刚刚投资过一个Google员工李志飞的真格基金创始人徐小平，被前者介绍认识了另一个Google员工赵勇。赵勇当时还没有完全下定决心，徐小平建议他先回国来看一看。赵勇回国转了一圈，发现这里的创投气氛果然十分浓厚，不少资本对他非常欢迎，这给了他不少信心。

那时候Google Glass马上要出第二代产品，希望他能留下来三个月，赵勇答应了。所以2013年1月，赵勇正式回国创业。

赵勇的履历颇为亮眼，1999年毕业于复旦大学电子工程系，2003年获复旦大学微电子系硕士学位，2009年获美国布朗大学计算机工程系博士学位。

除此之外，当时还在Google的赵勇实现了一个技术上的重大突破，即实现了三维图像识别，这使得摄像头获取的图像能够以更为逼真的形式呈现，而此时国内的计算机视觉仍以二维图像识别为主。

不过刚刚回国，就遭遇了打击，此前给他termsheet（投资意向书）的一个机构突然反悔了，这让赵勇非常郁闷。

好在徐小平老师坚定不移地支持他，这才让他跨过了离职即失业的门槛。

另外一个问题是赵勇不想当CEO，他觉得自己只想做技术，于是徐小平帮他找了搭档，有着零售行业背景、曾在宝洁、华联、以及两家美国上市公司做过高管的何搏飞，给他当CEO。

前后折腾大半年，2013年8月16日，格灵深瞳正式成立，在资本造势和媒体报道之下，这家公司赢得了不少注意力。

公司成立伊始，真格和策源联手给出了100万美元的A轮融资，次年6月红杉入局，完成1000多万美元的B轮融资。

徐小平和沈南鹏都是做局高手。有一个故事是，曾在一次饭局上，两个人对格灵深瞳的未来进行估值。徐小平直接估价5000亿美元，而一旁的沈南鹏则是给出了看起来更加符合实际的1000亿美元。最后大家折了个中，在推杯换盏中“勉强”给格灵深瞳估了个“中间数”——3000亿美元，约等于1.9万亿元人民币。

——这个观点当时不知道震住了多少人。

还有比尔·盖茨来访中国会见的第一家创业公司啦，国内最早做计算机视觉和算法的AI技术公司啦，等等等等，不一而足。

回忆起十年前的格灵深瞳，一无所有，唯一留下的只有，“噱头响亮，声势浩大”这八个字。

天上一日，浪费三年

格灵深瞳入场的第一步，就是进军实体零售场景，他们认为零售行业将会是一个超级大市场，加上自家的3D场景识别技术，强强结合，这生意想不赚钱都难。

但是刚一迈步，就栽了跟头。

同样在2013年，电商、O2O迅速兴起，实体经济被严重挤压，多家实体零售企业如沃尔玛、乐购超市等关闭了部分门店，大批零售客户纷纷砍掉了技术创新的市场预算。

在这种市场情绪下，格灵深瞳在零售行业苦苦坚持了10个月，也白白浪费了10个月，最终不得不放弃这个计划。

之后格灵深瞳开始做硬件产品。2015年，格灵深瞳推出了可以落地到诸多显示场景中，起到监控和分析等功能的“皓目行为分析仪”。

在赵勇的规划中，这款产品可以落地进银行、博物馆等诸多场景，起到人体行为监控、人流计算、危险行为预警等作用。

但因为实际场景情况复杂多变，这款产品一开始没办法真实有效地满足客户需求。即使后来它成了格灵深瞳第一款营收过千万的单品，但在早期，它的确不算是一款成熟的产品。

一时间，曾经那些被何搏飞写在《对不起，我们只爱牛人》中的豪言壮语，仿佛成了笑话。

营销固然是一种能力，但这种能力要有扎实的产品作为根基。

格灵深瞳在迷宫里打转的时候，外部世界的情况已经悄然发生变化。

2014-2015年，商汤科技、旷视科技、依图科技、云从科技在这一波AI创业潮中横空出世，被并称为“CV四小龙”。

资本的潮水已经悄然发生变化。资本市场开始为AI疯狂，以商汤为例，2017年3月份拿到了4.1亿美元融资，创下了当时全世界AI企业的最高融资额度。另外三家也不遑多让，你追我赶，AI成为了一级市场最火热的名词。

格灵深瞳却像是被落下了一般，无人问津。

关关难过，关关要过

赵勇是一个有点产品洁癖的人。他希望能做出更商业化的产品，但是商业化会出现在哪里，在最初的几年间，他一直没搞清楚。

雷峰网认为格灵深瞳做的事，是识别人和人的行为的产品，无论是在传统的商场还是银行、ATM机上，都是实用性很高的。但是这一技术还没有成熟的情况下，这个产品是很难出来的。

人脸识别这两三年突飞猛进，已经成为了可以商业化的成熟技术。安防，成为了AI公司第一波的巨量收入。

2016年年底，格灵深瞳到了最危机的时刻，账上只剩下了四个月的钱。在痛苦和纠结中，赵勇做出了一个决定，改组公司。

他请走了CEO何搏飞，由自己担任CEO，新的CTO由百度深度学习研究院资深科学家邓亚峰接任。整个公司的第一诉求变为了求生存。

在技术路线上，格灵深瞳也在“三维视觉感知”的基础上，增加了主流的“深度学习+人脸识别”。新上任的 CTO 邓亚峰曾就职于百度深度学习研究院，研究的正是人脸识别方向。

在这个节骨眼上，帮了格灵深瞳一把的公司，叫做东方网力。

东方网力是一家安防的软件集成商，非常看重图像识别的AI算法。为了赢得技术优势，东方网力接连做了三件事。

第一件事是内部成立一个AI团队，由东方网力100%控股，第二件事是与商汤科技成立了一家合资公司，叫做深圳深网视界，控股51%，第三件事就是参投了格灵深瞳，股份很少。布局之后，东方网力让这三家公司互相PK。最后凭借技术实力赢得东方网力信任的，是格灵深瞳。

虽然东方网力占股很少，但格灵深瞳在接下来几年一直收到东方网力的订单，每年都能拿到不菲的收入，终于能够活下来，并且成功转型了。

到了2020年的时候，格灵深瞳营收趋近于稳定，赵勇开始考虑上市。

正在关键的时候，谁也没料到的是，因为东方网力资本运作的问题，导致格灵深瞳这部分股权出了问题，后来被质押给了银行，在上市过程中给格灵深瞳带来了不少麻烦。

但与其技术落地成果不成正比的，是格灵深瞳的专利数。不同于其他AI公司起手就有几百个专利，格灵深瞳的专利数少得多。研发投资如此之大，但和“四小龙”的专利数差距竟如此之远。对此赵勇在后来给出了解释：我们并不追求专利的数量，大多数专利的商业价值是有待商榷的，没有价值的专利在格灵深瞳我们根本不会允许大家去申请。

从创业到上市，赵勇的每一步都是艰难，艰难，还是艰难。

上市不是终点，牌桌没有终局

从巅峰开局，到差点破产，再到起死回生，赵勇的这11年，过得太跌宕起伏了。

赵勇也一直在挣扎，靠着一腔热血，企图带领公司在逆境中“乘风破浪”。从2016年“账户上只够撑几个月”的险些破产，到2019年公司直接亏损4.13亿元人民币，再到2022年反超商汤成为AI第一股后，靠着用募集资金投资理财迎来的短暂盈利，最后在2024年辞任CEO一职，退居幕后带领团队做科研。

从某种程度上讲，格灵深瞳是一个创业失败的典型案例吗？当然不是。雷峰网AI科技评论就曾经和一位格灵深瞳最早期的员工讨论过这个问题，他给我们提供的了一个全新的视角：

作为一个在格灵深瞳工作过7年的人，2019年时望着眼前公司的巨大亏损，特别是当年AI四小龙融资超过百亿，格灵深瞳却似乎被世界遗忘，甚至有媒体直接打出了“小败局”的标签，他当时也觉得格灵深瞳是失败的，觉得赵勇的决定错得离谱。

但反观现在，他却认为自己的老东家赢了，曾经的“AI四小龙”中，上市失败的陷入困局，上市成功的艰难度日，至少格灵深瞳现在的情况要比他们更轻松。经历了那么多波折，而且在体量相差巨大的情况下，格灵深瞳能够率先上市，还在韬光养晦中做成了生意，这已经是一件巨大的成功。

现如今，赵勇角色转换，他还能带领格灵深瞳再赢一回吗？

这是一场无限游戏，你看到的牌桌没有结局。

知乎直答亮相“学术酒吧”开放麦，李开复、刘知远相聚“AI上头俱乐部”

Mon, 18 Nov 2024 10:09:00 +0800

11月15日，知乎于北京举办了一场别开生面的学术酒吧活动—AI上头俱乐部。零一万物 CEO、创新工场董事长李开复，清华大学副教授刘知远，上海交通大学副教授、无问芯穹联合创始人兼首席科学家戴国浩等数十位AI领域领军人物，共同探讨了人工智能的最新发展和未来趋势。此外，知乎直答产品负责人马奎及多位知乎答主登上现场开放麦，在轻松的氛围中交流AI行业背后的故事。（雷峰网雷峰网雷峰网）

（学术酒吧现场）

知乎首场学术酒吧的学术氛围如同专题论坛。零一万物CEO、创新工场董事长李开复率先与北京智星青年人才科技创新研究院技术副院长苏洋，进行了一场题为《中美人工智能竞争视角下中国企业的第二条路》的对谈。李开复表示，作为大模型独角兽零一万物的一个策略是，用“模型➕AI infra➕应用”共创的三位一体布局，以最少的训推成本训练出世界第一梯队的模型，而且更快更好更便宜，“我们的目标与世界顶级的差距始终保持在六个月之内。我们的新旗舰模型Yi-Lightning近期在世界权威盲测LMSYS中排名世界第六，超过了GPT-4o（5月版本），这也是中国大模型此榜单历史最佳成绩，而且我们的推理成本仅是GPT4的3%。”

李开复表示：“以Open AI为代表的美国公司创新能力引领全球，中国大模型创业者勤奋努力，有世界顶尖的工程能力和强大的执行力，这些要素不仅让我们能‘多快好省’训出顶尖模型，加速大模型价格普惠点到来，还能迎合中国巨大的市场，丰富的落地场景引爆AI应用时代的到来。这为我们提供了一个独特机遇，在AI-first新时代占据领先地位。”

（零一万物 CEO、创新工场董事长李开复）

清华大学副教授刘知远，在自然语言处理、深度学习、机器学习等领域有着深厚的学术造诣和丰富的研究成果，2022年参与创建了面壁智能并担任首席科学家。他带来了题为《大模型知识密度定律》的议题分享，对大模型之于人类社会的未来做出了多项判断。刘知远认为，大模型技术目前只是打开了一个门缝，未来“全球智能体将互相形成智能体网络，迎来人工智能第二次涌现”。

（清华大学副教授刘知远）

除了专业、深度的主题分享，知乎学术酒吧别出心裁设置了开放麦环节，带来一场AI行业的线下脱口秀。知乎直答负责人马奎以《当一款AI产品上线新功能之后》为题，讲述了产品上线前后的历程。马奎透露知乎直答的专业搜索功能被要求“尽量10月底”上线，“你们懂的，翻译翻译，就是必须完成”。也正因为如此，知乎直答相比国外大厂发布同类功能提早了一天，创造了一个“第一”。现场，知乎直答专业搜索功能受到了李开复、刘知远等一众AI领军人物的夸赞，马奎表示“这让人很上头”也坚定了产品的发展信心。

（知乎直答产品负责人马奎）

“凡事可以问 AI 的时代，人们还需要什么样的科普内容创作”，年度新知答主、高能物理学博士子乾以此为题进行了分享，其表示“越是在AI时代，人们越是需要有人情味的内容，科普创作者更要热爱生活”。AI创业者李博杰带来了题为《漏洞&Bug——有哪个瞬间让你觉得这个世界出bug了？》的开放麦表演，其围绕自己过往经历调侃了现实世界中的种种漏洞。

作为学术酒吧的主办方，知乎也展示了最新的AI“学术”进展：于10月底知乎直答正式上线的“专业搜索”功能。为了检验这项产品能力，清华大学副教授刘知远，上海交通大学副教授、无问芯穹联合创始人兼首席科学家戴国浩在演讲之后，向其“投喂”了两篇学术论文，知乎直答均给予了准确、翔实的解析，赢得了在场专业人士的喝彩与认可。

知乎直答自今年6月上线以来，凭借优质内容语料优势和搜索结果的超强溯源能力，被视为“中文版Perplexity”。此番专业搜索的推出，标志着知乎直答成为国内首家提供AI搜索与正版论文库一站式解决方案的产品，其引入维普、知乎精选等专业内容源，涵盖超过5000万篇中英文文献数据，极大满足广大用户对于高质量信息的需求。

近200位AI领域从业者参与了这场知乎学术酒吧“AI上头俱乐部”交流，分享者以轻松自在的形式分享思考与见解，参与者遇见志同道合的朋友，收获思想碰撞的奇妙火花。从线上专业讨论到线下学术酒吧，知乎作为AI行业的第一讨论场，正吸引越来越多从业者的关注，共同思考和探索人工智能的未来。

AI + 影视，学会「避坑」再「吟诗」｜CNCC 2024

Wed, 30 Oct 2024 18:35:00 +0800

“在影视行业，越专业的人越觉得 AI 就是个傻瓜相机！它只会产生一些让人「致幻」的 demo，实际应用起来往往会让人大失所望。”

“艺术创作不仅是结果，也是过程，而 AI 可能永远学不会艺术创作的过程，AICG也永远不会懂艺术。”

“AI 技术可能会实现创作平权，让非专业人士也能创作作品。但人人都可以写字，却不代表人人都能写出好故事，AI 技术可以帮助创作，但创造性仍然需要人类发挥。”

... ...

以上均是来自 CNCC 2024 圆桌辩论上大佬们的观点，在 AI 热得发烫的今天，影视行业也逐渐融入了 AI 技术，只不过对于艺术与科技的交融，很多人秉持不同观点，也碰撞出了不同的火花。

此次大会邀请了中国电影美术学会理事董未名、北京灵动音科技有限公司 CTO苑盛成、清华大学计算机系博世AI教授、人工智能研究院副院长朱军、中国人民大学高瓴人工智能学院长聘副教授宋睿华、英特尔数据中心与人工智能集团首席工程师何万青、阿里巴巴通义实验室应用视觉Human AIGC方向负责人张邦、快手科技副总裁、大模型团队负责人张迪、爱奇艺副总裁兼智能制作部负责人朱梁等一众AI和影视领域的大佬参与讨论，激情辩论。

这次的“AI +影视创作”圆桌论坛，雷峰网AI 科技评论在不改变原意的基础上，对内容进行了编辑整理。希望能够给你带来更多的启发与思考。

AI +影视的“诗”与“坑”

主持人：很荣幸能够与几位老师一同探讨“AI+影视创作”这一话题。我准备了大约三个与此相关的小议题。第一个议题，我们来聊一聊 AI 与影视的“优势与挑战”。谁会使用一部傻瓜相机去拍摄电影呢？在这个行业技术与产业融合的过程当中，各位真实感受到了什么？首先请朱总谈一谈。

朱梁：谈到AI与影视结合的“诗”与“坑”，以及预期与实践之间的差距，这是一个长期存在的问题。我们都知道，电影的创作在影像和声音上有着极高的要求。尤其是连续性这一点，大多数基于DIT架构的模型都无法实现。

如果要求人物、装扮、光线方向和镜头运动都完全一致，就像电影中的镜头运动一样，这是难以做到的。因此，我们对儿童动画片项目进行了一些测试。片方或希望合作的伙伴提供的样片让我们感觉非常好，但它们是否100%由AI生成呢？

如果AI真的有这样的能力，对我们的制作帮助将是巨大的。对于视频平台来说，这是一个巨大的吸引力。但经过深入研究和沟通，我们了解到人工参与的部分仍然很多，人工智能中的“人工"部分可能没有达到我们的预期。要获得高质量的专业级成品，人工参与的比例需要降低。因此，虽然不能说这是一个100%的坑，但确实与我们对AI真正应用的预期还有一定差距，这是我们的实际感受。

主持人：宋老师的观点呢？

宋睿华：对于专业人士来说，他们可能会对某些技术持保留态度，因为艺术不仅仅是最终的作品，还包括创作的过程。例如，艺术家构思故事、修改故事、绘制故事板，或者导演需要通过团队的努力，经过一两年的时间才能看到最终的画面。这个过程本身就是非常重要的。

我一直在思考一个问题，那就是如何提高创作的新颖性。AI可能会陷入套路，对于创作者来说，可能无法满足他们的需求。例如，虽然我不制作视频，但当我阅读别人写的故事或文本时，我仍然觉得AI的想象力不如人类。对于高水平的创作者来说，他们有自己的要求，而AI目前还无法达到他们的水平，因此他们可能不会考虑使用AI。

但我不认为“傻瓜相机”不好，因为它们的销售量和产值可能远远超过专业相机和专业设备。虽然专业人士可能难以接受，目前也可能无法帮助他们，但对于业余爱好者来说，市场可能是巨大的，而且“傻瓜相机”不愁卖不出去。

主持人：是的，我还想补充问一下朱军老师，就刚才我说的这个过程当中，大家真实感受到的是技术端推着影视行业在往前走，还是影视端拽着技术行业？它是一个需求驱动的市场，还是一个供给逼出来的市场？

朱军：我认为技术确实是推动力，特别是在视频领域，今年我们都在讨论为什么现在这个时间点要讨论这个问题。这是因为技术正在快速发展。去年，当大家讨论AI生成视频时，还觉得这是非常遥远的事，但今年情况一直在变化，最大的变化原因还是技术的变革。

但是这个“坑”我也需要再讲一下，很多时候，所谓的“坑”其实是因为我们的预期与实际情况有差距。比如，无意中踩到坑会让人感到惊讶，但如果我们知道坑的存在并绕过去，这是正常的。并不是所有的路都是平坦的，技术也是如此。我们的技术正在快速发展，对于今天讨论的影视主题，可能大家对于AI的期待过高。

AI生成的内容与专业质量之间仍有差距，虽然大家都在努力缩小这个差距，但目前直接达到高端生成还不现实。更实际的是，AI可以帮助专业人士在生产流程中降低成本和提高效率，这可能很快就会成为现实。

例如，一些短片和大型院线电影的制作中，很多环节可以用AI来提高效率，正如朱总所说。如果我们对AI有过高的预期，可能会陷入“坑”中。但我对技术持乐观态度，相信它会快速发展。即使不能直接替代，AI也可能在许多环节上更好地帮助我们。

主持人：朱总有什么要补充的吗？

朱梁：我想补充一点，并不是说从爱奇艺的角度来看我们存在问题，实际上爱奇艺非常欢迎新技术。但对创作者来说，无论是爱奇艺的影片还是整个长视频领域，都是以艺术家为中心，由导演主导创作，他们有自己的视听表达方式和固定的表达习惯及范式。

这个范式需要被突破，我坚信随着我们能力的不断提升，尤其是在过去的一年里，我们见证了令人难以置信的进步。因此，未来的创作范式必将发生巨大变化，这是一个重大的议题。它关系到人才培养、产业未来发展方向、平台与内容创作者之间的关系，以及未来的剧组是否还需要以当前的形式存在。这些都是非常重要的问题。我相信未来一定会发生变化，唯一不变的就是变化本身。

何万青：我从事的是传统的CG领域，也就是数字内容生成。这是影视行业过去和现在一直在使用的主流方式，涉及到大量的渲染软件和渲染流水线工作。我非常同意刚才提到的一点，但是我想强调的是，VG 的模式实际上是基于语义空间转换成视频的。这种模式也会面临一个问题，即一些技术在刚出现时非常新奇，但如果它们没有进一步的突破，我们称之为naive的模式。比如，很多人在朋友圈里使用它，但结果却千篇一律。如果技术停留在这个阶段，它就永远无法进入主流产业。

到目前为止，我的判断是，我们现有的工具还只是一些单独的功能，还没有达到这样的程度：一部电影的百分之七八十完全是通过生成技术制作出来的。但最重要的一点是，我们需要理解什么是“无穷大”。我的意思是，在某个领域不断投入，就能不断产出更多的东西，而不是说在某一项技术上达到了极限。

苑盛成：我来补充一下，虽然我不是影视行业的专家，但我对音乐行业非常熟悉。我认为在创作过程中，不同领域可能存在共通之处。我们与许多音乐人、创作者以及我们产品的用户进行了一对一的交流。我注意到，不同的人创作欲望和创作能力各异。在能力有限的情况下，他们会倾向于选择适合自己能力的工具来满足创作欲望。例如，我们遇到过一个用户，他只会写词，之前写的是诗歌。

有了 AI 后，他花了一个星期坐在电脑前，将诗歌输入电脑，不断生成新的内容。一天能生成好几百条，直到找到满意的一条。一周后，他完成了所有诗歌的创作，并感到自己进行了创作。这背后代表的是，尽管他没有相应的能力，但他有强烈的创作欲望，并希望得到结果。

我认为，这样的创作虽然与专业影视或音乐人的创作过程和结果大相径庭，但不能因此否认其价值。他的作品可能没有版权价值，或者在QQ音乐、网易云音乐上鲜有人听，但对他个人而言意义重大。他创作的作品承载的价值与他的人生经历紧密相关。我发现许多人都处于这种状态：有创作和表达的欲望，但缺乏相应的能力。虽然现在的AI模型尚未达到理想状态，但至少提供了一种可能的解决方案。过去，他们可能根本无法尝试，但现在至少有了一条途径，即使需要不断尝试，最终从300个选项中找到一个满意的，也会认为是自己的创作。

因此，我也会关注教育相关的场景。在音乐领域，我们发现在小学、初中和高中，有些学生对音乐创作很感兴趣，甚至想制作音乐剧或校园剧。他们可能没有相应的能力或设备，但他们不会因为这些限制而放弃。他们会用最简陋的工具，向老师请教，即使老师也不会，他们也会尝试制作。

最终，他们可能会制作出一些作品，从而获得满足感，激发他们的兴趣。这种满足感可能会促使他们在未来的学习和生活中更加关注这一过程，最终可能进入这个行业，逐渐培养成专业人士。这也是AI技术在创作领域的一种意义。

主持人：现在 AI 加影视到底是朝着让小白就能够上这个船，还是去真正改造严肃的影视工业的？譬如降本增效等等的这个诉求呢，可以一两句话概括一下吗？

苑盛成：我认为创作有多种形式，不同的工具满足不同的需求，并不是单一的工具或产品形态能够满足所有需求。

朱军：我想插一句，现在我们在讨论什么是通用的基础平台。比如，当我们在做申诉时，我说我的愿景是什么，我认为愿景就像刚才苑总所说的，我们希望让每个人都能释放他们的创作梦想，让每个人都能够表达自己，而不仅仅是那些专业的人。

这也不应该是AI最终特别要追求的目标，但我们可以在通用工具上让大家去表达，让每个人都能尝试。比如，帮助导演展示他的想法，可能这些想法最终不会直接使用，但可以作为参考。比如，他可能需要找真人或演员来拍摄，这样的工具可能会大大提高效率。我认为短期内可能会是这样，但长期来看，我也不认为AI一定要完全取代真正的人的创作。

何万青：实际上，我们观察到中国影视特效行业的发展始于2000年代初。当时，在北京的许多地铁站，你可以看到各种3D Max学习班的广告。从那时起，全国各地建立了许多所谓的文创基地。但这里存在一个问题：虽然有很多基地，但在传统的影视制作中，像3D Max这样的软件是生产资料，而今天我们AI技术还处于打基础阶段，还没有产生作为生产资料的软件或服务，这是必须要做的，才能真正推动影视行业的发展。

第二点，从2007年到疫情前，我们注意到一个现象：许多艺术院校在培养CG人才方面开始凋零。最初，大家都在学习模仿日韩的风格，但如何创作具有中国特色的作品？在技术上，这是一个非常缓慢的过程。我记得有一次我们组织了一个会议，一个班级的学生花了一整个学期的时间制作了19分钟的动画。

过去采用CG的方式，因为它涉及到大量的物理背景和理工知识，实际上它很大程度上依赖于软件本身。我们不断在这方面努力，但软件领域，就像我们的工业仿真软件一样，大多是海外的，要自主研发非常困难。但今天，CG和VG技术开辟了新的道路，因为它是基于模型生成的。然而，这里有一个最大的问题尚未解决，那就是交互问题。过去CG的生成模式是有原理的，如果参数不合适，你可以调整的东西很少。

因此，我认为这两种模型的方式，即基于科学计算或建模的方式，是准确、可调的。最大的优势在于，它可以解决艺术教育的问题。过去，大多数人觉得太难了，就止步不前。最终，是那些专门做特效的公司培训了很多工程师，不断地进行这方面的工作。

所以我认为我们面临的是两条路，但其中一条路要解决的问题是，我的答案在于要把交互性做好。而交互性在某种程度上是由可解释性带来的，即可观测和可解释。当我改变它，我知道我往这个方向改变，它应该产生那个效果；我往另一个方向改变，它应该产生另一个效果。但对于神经网络模型，你往往并不清楚很多东西都是启发式的——你尝试改变它，看看会是什么样子。所以，如果不解决这个问题，我认为这就是我们这个行业面临的挑战和存在的必要性。我是觉得是这样的一个事。

技术发展的路线，统一了吗？

主持人：从技术发展的角度，去年可能大家还有不同的主，不同的路线，而年初 Sora 亮相，让那个 Transformer 加这个 diffusion model DIT 的路线成为了主流，到今天其实才过去了八九个月内，这个技术路线大家统一了吗？

朱军：让我先来谈谈我的观察。目前，从实际效果来看，最好的效果肯定是使用扩散模型结合Transformer。在实战中，当然包括扩大模型规模，也有一些其他的变种，包括最近大家提到的flow matching，但它们本质上还是基于同样原理的方法。同时，在学术界，大家也在不断探索各种其他架构，包括Transformer的各种尝试。但从最终效果来看，目前似乎还是比较倾向于使用DIT这种方法。

主持人：所以基本上现在是以这个以 Sora 路线为核心，我们更多的是快速对齐，对吧？

朱军：对的，是这样的。

主持人：那其实跟我们此刻隔壁世界正在发生的大语言模型是类似的逻辑，是吧？

宋睿华：我认为可能并不是像那个行业一样，即使是大型语言模型的差距也在缩小，也会追赶上来。实际上，我感觉他们作为领头羊的地位和影响力可能会掩盖掉我们的一些光辉，比如中国人民大学做的悟道·文澜模型，虽然独立研发，与CLIP模型同期独立发布，但声量没有Open CLIP那么大，又比如朱老师他们在更早的时候发表的那篇文章，，是关于diffusion算法的，后来这个算法就被整合到了SD和Sora中。其实我们一直在为技术贡献，但他们可能在商业上非常成功，整个形象就是作为领头羊的形象，影响力特别大。有时候我们并不是做得比他们晚，而是我们的声音没有他们大。

主持人：所以刚才朱老师的观点听上去还是 Sora 路线是主流路线。那么宋老师，你的观点是说，现在其实还是多条道路在同时探索的状态？

宋睿华：我认为，有些技术确实有效，比如Transformer模型，大家都发现它非常好用。我们的同学后来意识到，最初大家的研究思路是想要改造这个架构，但后来发现花费了很多时间却收效甚微，甚至越改越糟。最终，大家达成了一个共识：这个模型可能是一个很好的基础单元，就像乐高积木一样，找到了一些非常实用、多功能的积木块，这些积木块可以拼成各种各样的东西。你可以选择一直挑战，说我不要这些积木块，我要自己创造形状，无论是方形、圆形还是三角形；或者你可以选择认可这些积木块的确很强大，然后利用它们来构建自己想要的作品。

主持人：那么这个赛道大家现在竞争的是什么？

宋睿华：我认为这更多是关于个人愿景的问题，没有唯一的选择，而是看大家谁能看得更远。即使是同样有远见的人，他们也可能认为不同的方向是可行的。

主持人：这是可能偏学术的视角，对吗？那董老师你也是这么认为的吗？

董未名：我平时做研究，特别是在AI生成领域，我已经做了十几年。可能与大多数人不同，我更喜欢从艺术创作的角度来看待当前的生成技术。从技术角度来看，无论国内外，核心技术最终都归结为diffusion技术。在视频领域，最核心的是Transformer加上diffusion，所有模型都没有脱离这个框架。无论你在上层做多少改动，底层核心都是这些技术。

但是，当我从艺术创作的角度来观察时，我发现现在许多大型模型，无论是国内还是国外，其生成的结果存在严重的同质化问题。有些风格大家都做得不错，而有些风格则似乎谁都做不好，也没有人敢于尝试这些风格。例如，我可以肯定地说，有些风格是任何模型都做不好的，比如那些带有特定圈圈的或者大笔触、大色块的油画风格。我发现这些风格似乎大家都做不好，而且所有的论文中也不敢展示这样的结果。

我在思考，这是否意味着底层的技术框架，最核心的技术路线，可能无法涵盖所有的艺术风格和技法？如果技术继续按照当前的路线发展，那么从艺术AI推动艺术创作的角度来看，这是否真的是一个正确的方向？从艺术的角度来看，我认为可能还是存在一些问题。

何万青：我可能不太同意这个观点，关于老师提到的艺术问题，我认为当我们讨论AI在影视领域的AIGC时，有一个底线问题需要考虑。艺术和审美虽然是个人化的，但它们都有边界条件和目的。就像人们画鬼，其实是有一定样板的，比如人的样子加上角或其他特征。如果没有这些样板，就会变成现在手机上泛滥的那种应用，它们可以把你的照片处理成各种样子。如果我们在这方面花费太多时间，可能会陷入一种简单的快感中，这可能会导致我们在更重要的事情上落后更多。

我的意思是说我们作为这个整个 AIGC 出来之后，它其实就是提升了艺术创作者的无能基准线，过去你的基准线很低，但现在就不一样了。

AI+影视，会把我们送到什么地方去？

主持人：好，那我们直接进入到第三个话题。我在听的时候有一个隐约的感觉，如果影视制作变得人人都能参与，那么这个行业还会保持现状吗？我们是否只是提高了影视产业的效率，还是会引发整个文明形态的转变？就像视频已经改变了我们阅读文章和书籍的习惯一样。

当视频也被人工智能普及化之后，我们与内容的关系将会变成什么样？这是一个开放性的问题。作为我们今天的最后一个议题，我们可以不局限于技术层面，而是想象一下，在未来一年、五年、十年，甚至更远的未来，当谈到人工智能和影视时，我们将看到一个怎样的世界？

张邦：我畅想未来，AI与影视的结合将实现创作平权。这意味着创作不再局限于专业导演或编剧，普通人也能创作出感人肺腑、流传千古的作品。每个人内心都可能藏有一个值得分享、能够触动人心的故事，只是他们可能没有接受过专业训练，缺乏工具和团队来展现他们精彩的经历和故事。

AI与影视的结合在未来可能会让这种创作平权成为可能，让每个人都能轻松地将他们的经历和内心故事以出色的方式呈现出来。我认为这将是科技所能创造的美好未来，也是一个必然的趋势。

主持人：到那个时候影视还会是一个大的工业吗？还是说变成了非物质文化遗产？

董未名：情况是这样的，正如您刚才提到的，从艺术创作的角度来看，艺术创作的目的是什么？比如我写书，我输入一行文字，然后瞬间创作出一幅画，这种创作的快感是AI无法给予的，AI永远无法提供给人类的。

主持人：我觉得大部分短视频创作者创作短视频的时候没有快感，看到被点赞才有快感。到时候大家都在创作，没有人去点赞了，怎么办呢？

苑盛成：我确实有一些想法，虽然我不太懂影视领域，但我认为音乐与它有很多相似之处。比如，你听流行歌曲时，近几年你有没有关注这些歌是谁演唱的、谁编曲、谁作词、谁作曲？这可能反映了一个现象：大多数用户在听音乐时，并不在乎创作者是谁。

但也有一部分人创作是为了表达自己，让自己身边的人能听到，获得自己创作的人生体验。这部分可能与董老师刚才提到的创作中的表达欲有关，即背后的部分我表达出来了，整个结果被我自己所接纳，我真的认为是我主导创作了这个艺术作品，这个艺术作品代表了我的审美，代表了我的人生体验。

何万青：我补充一下，关于这种个性化和浪漫的想法。首先，我非常同意张邦老师的观点。我认为第一个结论是，AI这种平权可以改变我们大多数人的生产方式和娱乐方式。其次，这将产生一种新的经济模式。但同样重要的是，当每个人都能创作时，你需要购买别人的注意力，这就是现在的网红经济和直播经济的来源。

第三点是最关键也是最棘手的，如果在这个情况下，我们仍然由平台公司垄断，就像现在要在抖音上获得曝光需要花费很多钱一样，也就是说，这么多创作者中只有一小部分能够获得巨大的流量，剩下的长尾创作者则很难获得关注。这种模式仍然会限制创新。所以，这三个方面我都要强调，AI平权肯定是好事，但它必须有相应的生产关系和整个生态系统的配合才能发挥好的效果。

张邦：我认为创作平权绝对是一件好事。此外，物质生产可能会过剩，但文化和艺术的生产永远不会过剩。当创作平权实现后，因为参与创作的人数增多，生产信息的基数变得更大，同时，你的信息生产量也会增加。这也意味着文化和艺术创作的质量和数量都将得到提升。

苑盛成：我同意张总刚才所说的观点，即文化和艺术创作不会过剩。我的看法与他相同。我认为艺术创作是人类对自己精神层面的探索，它是主观的，每个人都是独一无二的，因此它不会过剩。

董未名：我的观点可以用一句话概括：艺术的作用不在于复制可见之物，而在于将不可见的东西变得可见。有了AI这个工具之后，它能够帮助我们把每个人心中的不可见之物——我们对这个世界的憧憬和想象——转化为可见的现实。

朱军：我的第一句话是，AI技术正在快速发展，但我们不能以完美来衡量它。所有技术都有不足之处。第二句话是，AI的最终目的是帮助人们实现梦想。就像我们所做的所有工作一样，我们希望帮助人们将自己的梦想变成可见的、可传播的、可观赏的成果。

宋睿华：我想总结的刚好用到这个论坛的名字， AI +影视≠创作，就人人都可以写字，但是不代表人人都能写出好的故事。

何万青：我想说的是，尽管AI在创作领域还处于起步阶段，但对于我们今天在线上和线下的受众来说，有一件事需要记住：人们往往不会珍惜那些容易得到的东西。所以，艺术也是这样，即使有了工具，你仍然需要发挥你的创造性。

张邦：我这里想表达的是，今天我们讨论的Sora，即视频生成大模型或视觉大模型，实际上与语言大模型属于同一代技术，包括OpenAI的chatGPT等技术。Sora和类似的技术从0到1的亮相是非常惊艳的，意味着从无到有的转变，这个亮相是迅速且极其引人注目的。但从1到100的过程可能并不那么容易。因此，我们希望学界和产业界都能有耐心，慢慢见证这些技术对社会和全人类的改变。

朱梁：万事万物，变化是唯一不变的真理。对于未来一年、五年、十年的发展趋势，我特别想说几句。未来一年，我特别期待在专业长视频领域能有实质性的进步，因为这个领域可以被视为影视行业的蓝宝石或金字塔的塔尖。一旦这个方向取得突破，解决了刚才各位专家讨论的问题，那么影视与AI结合的基点就真正到来了。

这个时刻将会真正地、极大地改善或改变我们所说的创作平权，影视行业的整体结构，以及创作方式和范式，发生根本性的改变。我觉得那个时候就真的到来了。所以我特别期待我们不仅仅是仰望星空，还要脚踏实地地把每一个项目做好，把每一个技术的进步点做好。

从影视行业的角度来看，它只看重结果，而不是大家所说的投入了多少算力、进行了多少训练、投入了多少钱。这个行业其实很残酷，有很多有才华的人，正如大家所说，他们有表达的欲望，创作出感动自己的作品，但观众不买账，行业也不会买账。所以，我们还是要这样和大家共勉。

主持人：朱总作为最后一位发言的嘉宾，实际上占据了一个很好的位置，为我们今天的讨论定下了基调。那么，我们今天的论坛就到此结束，感谢几位嘉宾带来的精彩观点和真诚分享，也感谢大家的参与。

李彦宏数千万元投资大模型创业公司鼓励创业者坚持长期主义

Wed, 25 Sep 2024 18:57:00 +0800

“越来越多的人靠自然语言提示词，就可以做出很有用的智能体。”9月25日，在2024百度云智大会上，“文心杯”创业大赛第二季结果揭晓。百度创始人李彦宏发表颁奖致辞时指出，智能体是他最看好的AI原生应用发展方向，相当于PC时代的网站和自媒体时代的账号。雷峰网雷峰网雷峰网

李彦宏表示，智能体最明显的特点是门槛足够低，谁都能上手，但同时天花板又足够高，可以做出非常复杂，非常强大的应用。未来，将会有数以百万量级的智能体出现，形成庞大的智能体生态。值得一提的是，在今年文心杯创业大赛中，有超过60%参赛团队聚焦智能体的应用，超过30%参赛团队没有专业程序员。

在大赛颁奖致辞中，李彦宏表示，百度不仅为创业者提供了最强大的基础大模型系列，包括文心大模型的旗舰版和免费轻量版模型；还准备了最全的应用开发工具，涵盖智能体、AI原生应用和模型定制三大类型。

“我们还提供最好的分发渠道，让智能体易开发、易分发，让创业者有钱赚，”李彦宏强调。目前，百度搜索已成为智能体最大的分发入口，每天分发超过1000万，并且还在快速增长。

今年，第二季文心杯创业大赛全面升级，总计近1600支创业团队报名参赛，较去年增加60%。除原本“创企组”外，新增设“高校组”报名通道，吸引了全国近300所高校的同学报名。通过文心大模型和百度提供的应用开发工具，参赛团队开发了泛文娱、电商、营销、医疗、办公等行业应用。

其中，基于文心大模型打造出一站式电商素材AI工具的极睿科技，获得“创企组”的一等奖，其余7支团队分获“创企组”的二、三等奖。李彦宏宣布，百度将拿出数千万元投资上述8支优胜团队，并在技术、产品、发展战略、资本合作等方面给予长期支持。此外，来自“高校组”的13支优胜团队，也将获得近百万元现金奖励。

“面对新的技术周期，坚持长期主义的创业者必将脱颖而出。”现场，李彦宏重申坚持举办“文心杯”创业大赛的初衷。他说，大模型热潮已经持续两年，当度过最初的兴奋，回归现实和落地时，许多创业者可能会感到失落、迷茫，甚至怀疑未来，“因为人们总是高估技术的短期价值，却低估技术的长期价值。”

在他看来，大模型是一次颠覆式的技术革命，长期前景非常乐观，“悲观者永远正确，而未来却是由乐观者创造的”。李彦宏表示，百度欢迎更多的创业者和开发者加入，一起投身到这场AI革命中，一起“用科技让复杂的世界更简单”。

据悉，文心杯创业大赛由百度在2023年首次发起，聚焦于大模型创新应用，是国内大模型领域最高规格、力度最大的创业大赛。在首届参赛文心杯创业大赛的项目中，大批团队都加入了百度智能云千帆生态。目前，千帆大模型平台日调用量已超过7亿次。

字节跳动发布“豆包MarsCode”智能开发工具，面向国内开发者免费

Thu, 27 Jun 2024 10:42:00 +0800

6 月 26 日，字节跳动在北京发布了基于豆包大模型打造的智能开发工具 - 豆包MarsCode ，面向国内开发者免费开放。

发布会以“用 AI 激发创造”为主题，在草地露营的轻松氛围中发布了豆包MarsCode 并介绍了其主要功能，同时发布开发者及社区共创计划，吸引了众多业界人士、开发者和科技爱好者的关注。

豆包MarsCode产品发布会现场

AI时代开发工具的思考

正式发布前，字节跳动开发者服务团队、豆包MarsCode 负责人李东江，分享了一些对 AI 时代开发工具演进趋势的思考。

字节跳动开发者服务团队、豆包MarsCode 负责人李东江

进入 AI 时代，大语言模型在编程语言方面具备强大的优势和潜力，比复杂的自然语言和编程语言更加简洁、严谨，可预测。

针对“应当如何构建一款 AI 时代的开发者工具”这一命题，李东江表示， AI 不是替代开发者的“竞争者”，而是开发者的“好帮手”，团队更希望打造一款软件，能够助力提升开发者工作效率，让开发者有更多精力和时间用于思考和创造，这也就是为什么发布会的主题是“用 AI 激发创造”。

李东江提到，新的模型、新的算力、新的产品、新的技术每天都在出现，无论是产品还是技术，一切都还处在早期，都在快速更新迭代。

AI 技术驱动下，未来一定会衍生出下一代的开发工具。豆包MarsCode 团队，希望与开发者共同探索、建设，一起打造 AI 时代的新的开发者工具。

豆包MarsCode 首发功能揭秘

发布会上，豆包MarsCode 产品负责人王海建介绍了豆包MarsCode 产品的两种形态 - 编程助手和 Cloud IDE，同时通过需求开发、修复Bug、开源项目学习三个实际场景，详细演示了豆包MarsCode 的项目问答、代码补全、单测生成、Bug Fix等功能。通过完整场景演示串联各功能的使用配合，豆包MarsCode显示出在日常工作中的优秀落地能力，无论是新手程序员还是经验丰富的开发者，都能体验到豆包MarsCode 带来的助力和效率提升。

豆包MarsCode 产品负责人王海建

需求开发场景

通过一个翻译机器人构建的实际案例，王海建演示了在 AI 的辅助下，开发者可以如何通过唤起编程助手进行 Chat 提问，分析需求、熟悉代码、编写代码和调试代码。

代码补全不仅仅可以帮助开发者更快地输入代码，更是可以通过不断提供代码建议，给开发者带来灵感和启发。

豆包MarsCode 的创新功能——代码补全 Pro，不同于传统的代码续写，它支持自动根据用户编辑意图预测下一个改动点并给出代码推荐。

除了代码预测与补全，当编码中出现需要修复的代码 Lint 错误时，编程助手会直接在编辑器中主动给出修改代码，我们不需要去查看是什么报错原因，只需要判断修复结果是否正确，如果正确，一键采纳修复后的代码即可。

最后，当我们写完代码，为了保障代码的质量与后续的可维护性，通常还需要写单元测试。这时只需要在编程助手中触发 test，就可以得到这个函数的测试用例。

可以看到，相比于传统的开发方式，豆包MarsCode 编程助手可以帮助开发者更轻松、更专注地编程。

Bug 修复场景

在 Debug 场景下，豆包MarsCode 的 AI 修复功能可通过理解报错信息、调用栈的代码、全局的项目代码，去分析错误原因，从而直接给出针对性的修复建议。

除了单轮修复，豆包MarsCode 也在尝试基于 Agent 方式实现多轮自动修复，AI 会自主调用一系列代码查询工具、调试工具获取报错信息、自主规划方案、自主写出代码并应用到项目当中去，来修复 Bug。

雷峰网了解到，目前该功能正在字节内部做验证，争取能够尽快发布与大家见面。

开源项目学习场景

第三个场景下，豆包 MarsCode IDE 通过提供开发模板，让开发者能够快速进入项目而无需运维本地环境。借助原生集成的 AI 能力，开发者不再需要自己去理解代码，从而更高效地上手项目。

总的来说，豆包MarsCode在以下两个方面帮助开发者：

对于想的阶段，提供更好的信息，例如做代码解释，研发知识的问答，来激发开发者创造；

对于做的阶段，帮助开发者更快地完成编码，例如代码的补全、下一步编码动作的预测，代码的错误修复，来提升开发者效率。

开发者与社区共创计划

发布会尾声，豆包MarsCode 市场运营负责人赵旭东介绍了豆包MarsCode 开发者与社区共创计划。后续豆包MarsCode 会通过成立用户组、各类系列开发者活动等方式，助力开发者探索 AI 编程新范式。

豆包MarsCode 市场运营负责人赵旭东

豆包MarsCode 用户组将由开发者自组织自运营，豆包MarsCode 团队不会参与到用户组的管理，但是会为用户组提供丰富的各类资源支持，支持各地用户组发展，例如场地资源、产品资源、活动物料、专家讲师支持等，帮助促进各地开发者更有效的探索 AI 编程新范式，助力我们的开发者学习成长。

开发者活动方面，豆包MarsCode 将陆续在北、上、深、杭等城市举办 Meetup ，同开发者走出会议室进入户外，以更加轻松的方式，交流 AI 编程技巧和经验，一起用 AI 激发创造。

豆包MarsCode 还计划协同各开发者社区，将 AI 能力融入到社区使用场景中，将豆包MarsCode 的能力更便捷地提供给开发者。

目前，豆包MarsCode 已与掘金社区在 AI 助手、账号打通、专属沸点专区等层面合作。

豆包MarsCode 已于 6 月 26 日正式发布，点击阅复制即可访问官网使用。（ www.marscode.cn ）

OpenAI 断供中国大陆市场，零一万物 Yi API 二折平替 GPT-4o

Wed, 26 Jun 2024 10:52:00 +0800

6月25日，有多名开发者收到了来自 OpenAI 的公告，公告中显示，OpenAI 将于7月9日开始封锁来自非支持国家和地区的 API 流量。在 OpenAI 给出的“支持访问国家和地区”名单上（https://platform.openai.com/docs/supported-countries），中国大陆、中国香港等地均未在列。

在审视 OpenAI 与中国大陆市场互动的历史脉络时，可以观察到其一贯持有的审慎姿态。早先，该公司对中国大陆地区的用户实行了注册门槛，限制了其对 ChatGPT 服务的访问权限。中国大陆的开发者群体在构建基于 OpenAI API 的衍生服务时，往往需要通过代理服务器或在海外部署反向代理机制。这不仅增加了运维成本，也无法保证服务的稳定性。

在发布上述公告后，可以预见的是，OpenAI 会进一步加强对非支持国家和地区的监管。对于基于 OpenAI API 进行应用创新的个人开发者和企业而言都会是巨大的冲击。

对此，由李开复博士创立的AI大模型独角兽公司零一万物发起“Yi API 二折平替计划”，面向 OpenAI 用户推出了平滑迁移至 Yi 系列大模型的服务。针对接入 OpenAI 的不同模型的用户，零一万物一一对应地提供了高模型性能且极具性价比的替换方案。

1.Yi API 顶级性能平替 GPT，成本削减最高达91%

据零一万物介绍，目前注册使用 Yi API 的新客户，零一万物立即赠送 100 元额度，帮助用户完成平稳过渡；平台充值还将赠送 50% 到账额度，上不封顶，为用户提供更长线的优惠；任意充值即可享受 RPM/TPM 限速直升 Tier3，直达高级别的服务质量和超快响应速度；此外，零一万物 API 还将提供 Prompt 兼容调优服务支持，陪伴用户又好又快地适配 Yi 系列大模型。

事实上，从模型评测成绩、API 价格等公开数据来看，对于原先接入 GPT-4o 的用户来说，无论是在模型性能、还是在使用成本方面，接入零一万物千亿参数旗舰模型 Yi-Large 都会是 “物美价廉” 的国产大模型平替方案。

伯克利大学公开盲测 LMSYS 综合排名中，Yi-Large 在中国大模型中排名第一，在中文榜单上 Yi-Large 超过 GPT-4，与 GPT4o 并列排名世界第一（2024.6.25）；斯坦福评测机构 AlpacaEval 2.0 经官方认证的模型排行榜上，Yi-Large 的 LC Win Rate 也高于 GPT-4（2024.6.25）；在 GPQA、HumanEval、MT-Bench、AlignBench 等权威评测集上，Yi-Large 的得分也高于 GPT-4（2024.5.12）。

LMSYS 总榜排名 2024.5.21

值得一提的是，模型性能相近的同时，Yi-Large 的定价远低于顶配模型 GPT-4o。以 GPT-4o 的定价计算（取 Input 和 Output 均值为 Open API 价格），接入 Yi-Large 后使用成本可下降 72%。

对于原先使用 GPT-4 Turbo 的用户，零一万物也给出了平滑迁移至 Yi-Large-Turbo 的方案。Yi-Large-Turbo 本身是一款具有超高性价比的模型，品质接近 Yi-Large，具有通用高精度推理能力，但是使用成本较 Yi-Large 大幅降低。

对比 GPT-4 Turbo 的价格，用户接入 Yi-Large-Turbo 后使用成本可下降九成以上。对于业务产品已经验证成立，需要降低成本的客户， Yi-Large-Turbo 会非常适用。此外，零一万物还可提供支持实时搜索的 Yi-Large-RAG，适用于需要结合实时信息进行推理的场景，以便用户基于自身需求选择更匹配的模型。

在 OpenAI API 中，GPT-3.5-Turbo-1106 聚焦于处理简单任务，主打快速、廉价。而零一万物提供了更高性价比的方案——中等尺寸模型 Yi-Medium 来完美承接用户需求，使用成本较 GPT-3.5-Turbo-1106 下降 66%。虽然仅为中等尺寸模型，但是 Yi-Medium 深度优化了指令遵循能力，适用于日常聊天、翻译等通用场景，非常匹配大规模应用大模型的需求。

详细信息，访问 Yi 大模型开放平台：https://platform.lingyiwanwu.com/

2.获多家头部企业用户认可，共同探索 TC-PMF

凭借着出色的模型性能和极具竞争力的价格， Yi 系列大模型已成为大量企业在中文环境下探索新业务、验证 AI-Native 产品 PMF 的最佳选择之一。目前，Yi 系列大模型已在全球范围内积累起了一批头部付费企业客户，涉及 AI写作、AI 编程、医疗、消费3C、生化环材等多个领域。

知料科技是一家深耕通用 AI 领域的头部企业，旗下已有多款 AIGC 应用，如知料万语、知料觅得 AI 搜索等应用已入驻联想 AIPC 产品。知料万语及知料觅得背后所接入的正是 Yi 系列 API。从数据来看，据知料科技创始合伙人、济南大学人工智能研究院副院长张世光教授透露，接入 Yi 系列大模型后，知料万语付费转化率高达 10%，售后退款率则大幅降低了 50%。

在中国知名主流财经媒体《每日经济新闻》所发布的《每日经济新闻大模型评测报告》中，零一万物 Yi-Large 成为最大“黑马”，在“财经新闻标题创作”“微博新闻写作”“文章差错校对”“财务数据计算与分析”四大应用场景的总分排名第一，高质量内容生成能力得到专业新闻机构认可。此前凭借开源多智能体框架爆火的 MetaGPT 也选择接入 Yi-Large 模型。MetaGPT 联合创始人徐宗泽在 Yi-Large 发布后立即展开内部测试，在规划、任务分配、代码生成、反思等方面 Yi-Large 均表现出色。在比较了模型性能与 API 团队的服务质量后，MetaGPT 确定将 Yi-Large 整合入即将发布的自然语言编程产品配置中。

Yi-Large 满分达成测试任务：“使用四个不同的机器学习模型进行训练，然后评估出最优的AI模型作为最优方案”

除 AI 写作和 AI 编程外，医疗领域内某头部企业选择接入 Yi 系列大模型来进行患者病历的数据提取及标注，目前准确率近 100%，数据标注环节的工作效率提升了近八成；消费 3C 领域，某头部手机厂商在横向对比多家国内头部大模型后，最终选择接入 Yi 系列大模型，与零一万物共创通话摘要、AI智能体等应用。零一万物坚信只有通过共建生态的合作模式，才能够最大程度地释放 Yi 系列大模型的潜在价值。后续零一万物会持续推进模型性能升级、推动模型推理成本下降，让合作伙伴能够在 Yi 系列大模型的基础上更加灵活地进行创新和实验，共同构建起繁荣的大模型应用生态，为企业、为个人、为社会带来更多价值，真正做到让通用人工智能普惠各地、人人受益。

点击直达：https://platform.lingyiwanwu.com/

雷峰网

Miraa 周楷雯：一个 AI 时代的独立开发者，与他的产品逻辑

Wed, 19 Jun 2024 16:48:00 +0800

作者丨朱家峻

编辑 | 陈彩娴

近日，一款名为 Miraa 的外语学习软件在 App Store 教育类应用排行榜上表现出色。这款由周楷雯（Kevin）创立的应用利用 AI 技术，为用户提供了全新的语言学习体验。

周楷雯目前是一名往返于日本和青岛两地工作的独立开发者，致力于探索语言学习产品的边界。

早在 2018 年，他就开发了第一款日语学习产品"50音起源"。2020 年，他又发布了基于机器学习的日语语法分析应用"捧读"。今年 3月，周楷雯推出了 Miraa这款 AI 双语语言学习产品，Kevin始终致力于将先进的AI技术融入到语言学习的各个环节中。

这款结合了先进AI技术的外语学习软件，运用了“回声学习”理论，让用户在观看影视作品时能够模仿和练习对话，有效提升口语和听力理解能力。

软件的核心功能包括：AI实时翻译媒体字幕，无缝切换回声学习模式和内置的AI智能解析助手，后者提供单词解释、语法解析和知识要点，并支持与AI进行互动对话，以解答学习中的疑惑。这些功能的整合不仅让外语学习更加高效，也使学习过程变得更加有趣，远离了传统学习方法的枯燥。

暂时无法在飞书文档外展示此内容

Kevin 的职业生涯始于传统软件开发，但随着 AI 技术的快速发展，他逐渐意识到 AI Native 开发的巨大潜力。通过将AI技术融入产品设计和开发的底层架构，可以极大提升产品的智能性和个性化服务能力。这一认识推动 Kevin 开始探索AI Native 概念，开发出能够深度利用AI能力、更好地服务用户需求的创新产品。

这种思考的转变，使得他从一个传统开发者成长为一个前沿的 AI Native 开发者，致力于开发能够深度利用 AI 能力，更好地服务用户需求的创新产品。

以 AI 为内核驱动

AI 科技评论：请分享一下你的创业经历。

Kevin ：我的创业之路始于2013年，当时我还是一名大学二年级的学生。那段时间，我主要从事社交产品的开发，2015年，我卖掉了我的公司，结束了那段创业生涯，开始作为独立开发者工作。

在成为独立开发者后，我搬到了青岛，逐渐将我的关注点转向了AI技术和语言学习产品的开发。这一转变部分是因为我经常去日本旅游，我发现自己深深被那里丰富的文化和语言所吸引。但市面上的日语学习工具大多不适合像我这样的初学者。这些工具往往假设用户已经有一定的日语基础，这对真正的初学者来说是一个很大的挑战。

因此，我决定开发一款名为“五十音起源”的产品，专门为日语初学者设计。这款产品的目标是帮助用户从最基本的日语发音和书写开始学习，确保他们不会因为初期的困难而放弃。令人欣喜的是，产品推出的第一天就吸引了超过3000名用户的购买，这让我意识到这个领域确实有很大的潜力。

随后，我开发了第二款产品“捧读”，这是一款更高级的日语学习工具，使用 NLP 和机器学习技术来帮助用户分析和理解日语句子。这款产品旨在帮助用户深入理解日语语法和句结构，从而更有效地提高他们的语言能力。

2023 年初，我有机会去日本工作，并开始与日本人直接交流。这段经历让我意识到，与当地人的直接交流是学习语言中最关键的部分。

所以我决定开发一款能够锻炼听说能力的产品。最初的想法是把会议的内容录下来，然后反复听。为了实现这一点，首先需要有字幕，其次需要有一个类似影子跟读的方法，让用户能够反复练习里面的句子，从而熟悉开会时的发音和内容。

于是，Miraa这款产品就诞生了。不仅要做听力和跟读功能，还要处理不懂的句子。

之后，我们开始把大模型 AI 技术引入产品中。这也是我们逐渐转向 AI 产品的起点，开始思考所谓的 AI native 产品应该是怎样的，以及如何与传统产品区分开来。Miraa 这款产品正是沿着这条路线开发的。

AI 科技评论：你怎么理解AI Navtive？

Kevin ：从我的认知角度来看，AI Native有以下几个关键特点:

首先，传统产品需要针对不同领域专门准备数据和算法，横向扩展非常缓慢。而 AI Native 产品利用AI模型即时生成内容，具备极强的扩展能力，可以快速适应各种场景。

其次，AI Native 产品可以根据用户的特点提供个性化服务。比如一款词典应用，它可以给英语学习者和程序员完全不同的解释和例句，做到真正的千人千面，这是传统产品难以企及的。

另外，AI Native 并不是简单地给产品加入 AI 元素，而是从底层架构开始，以 AI 能力为核心重新设计。这是一种革命性的思路，能够突破语言和场景的局限，带来全新的用户体验。

可以说，AI Native 就是以 AI 为内核来驱动整个产品，代表了技术应用的一种创新性演进。就像过去我们围绕计算机硬件来开发产品，现在则是一切围绕AI展开。

但 AI Native 的理念下，对用户也要重新定义。适应了过去产品的"老用户"习惯了原有的交互方式，可能不太接受 AI 的不完美。如果想照顾他们，又想用AI，就容易搞一些四不像的东西。

所以我觉得，AI Native 产品应该果断抛弃旧的交互体验，专注为能接受AI 的"新用户"设计产品形态，去开拓增量市场。随着 AI 模型的不断进化，产品体验会持续变好，即使开发者什么都不做，用户也能享受到红利。

总之，AI Native 是一种全新的开发理念，需要开发者彻底转变思路，发挥 AI 的最大潜力，去设计面向未来的产品。

AI 科技评论：你是如何把这种技术融入到产品开发过程中呢？

Kevin ：我在 Miraa 中实现了 AI 实时字幕功能，这一功能使用了语音识别技术，能够即时将视频内容转换为文字，并提供准确的字幕。这对于语言学习者来说极为重要，因为它大大降低了学习的障碍，使用户能够更容易地跟随和理解外语内容。

Miraa 的回声学习模式是基于 AI 的语音分析技术，能够分析用户的发音并给出即时反馈。这种交互式的学习模式不仅增加了学习的趣味性，还通过精确的发音校正帮助用户更有效地掌握语言技能。

它还利用 AI 进行个性化学习路径的设计。通过分析用户的学习进度、偏好和挑战，AI 系统能够定制个性化的学习计划，推荐适合的学习材料和练习，从而使每个用户都能以最适合自己的方式进行学习。

这种深度融合 AI 的策略，使Miraa不仅仅是一个语言学习工具，更是一个智能的学习伙伴。在市场上，这种高度个性化和智能化的学习体验让 Miraa 显著区别于其他传统的语言学习产品，赢得了用户的广泛好评和市场的快速增长。

用户体验是直接标准

AI 科技评论：选择开发语言学习工具的动机是什么？

Kevin ：我决定开发语言学习工具的主要动机有两个：个人兴趣和市场需求。

首先，我个人对语言学习有着浓厚的兴趣。我经常去日本，对日本的文化和语言深感兴趣。每次旅行我都试图学习一些基本的日语，这让我意识到学习一门新语言能够极大地丰富个人的世界观和文化理解。

然而，我在尝试学习日语的过程中遇到了不少困难。市面上的大多数语言学习工具都假设用户已经具备一定的语言基础，这对真正的初学者并不友好。这种体验让我意识到，现有的语言学习工具无法满足所有学习者的需求，特别是像我这样的初学者。

市场需求也是我选择开发语言学习工具的一个重要因素。随着全球化的加速，越来越多的人需要学习第二语言来应对工作和生活中的跨文化交流。尽管市场上已有许多语言学习产品，但很多产品依然没有解决用户在实际语言应用中遇到的具体问题，如发音和听力理解等。这些问题的存在表明市场上仍有较大的改进空间和需求。

AI 科技评论：在这当中你是如何验证市场需求的？

Kevin ：我采用了一种迭代的方法来分析和验证产品与市场的契合度。这一过程涉及到密集的用户反馈收集和基于反馈的产品调整。首先推出一个基本功能，然后根据用户的实际使用反馈来进行优化和调整。这种方法确保了能够灵活应对市场需求的变化，并持续改进产品。

例如，推出的影子跟读功能，最初是基于内部测试和初步市场研究的反馈。我认为这个功能对于语言学习者来说是有价值的，因此我们决定将其作为一个试验性功能推向市场。一旦功能上线，我们就开始收集用户如何使用这一功能的反馈，包括它在实际学习中的效果和用户的满意度。

在 Miraa 的开发过程中，我们有自己的用户群，也收到很多反馈。这些用户包括国内学生、留学生等。国内学生可能用 Miraa 看动漫生肉，而留学生则用它学习多种语言。

Miraa 支持多种语言，包括英语、德语、意大利语、法语、俄语、中文、日语和韩语。虽然针对性调优主要是英语和日语，但德语和法语等也有不错的效果。

数据显示，英语、日语和德语的用户较多。

AI 科技评论：如何利用用户反馈来调整产品的？

Kevin ：我始终认为，真正的用户体验是评估产品性能的最直接标准。

首先，收集用户反馈的渠道非常多样。包括直接的用户访谈、在线反馈表单、社交媒体互动以及通过内测群收集的数据。这些渠道提供了丰富的用户使用场景，帮助我们了解产品在实际使用中的表现和用户的真实需求.

例如，用户在使用 Miraa 进行 K 歌时遇到字幕断句问题，这是我们之前没有预料到的使用场景。用户反馈表明，断句的字幕严重影响了他们的使用体验。基于这种反馈，我们认识到需要改进我的 AI 模型，以确保字幕的连贯性和完整性。

为了解决这个问题，我开发了一个新的大模型，专门针对输出完整字幕进行优化。这个模型通过更精确地处理语言的断句和上下文关系，显著提高了字幕的质量。此外，我还增加了对歌曲字幕的特别优化，确保在播放歌曲时字幕能够完整显示。

此外，我也注意到，尽管我们的主要语言测试是中文、英语和日语，但通过用户反馈，我们发现德语和法语用户群体也表现出了对 Miraa 的高度兴趣。因此，我们加强了对这些语言的支持，优化了相应的语言模型，以满足更广泛用户的需求。

更轻、更专注、更简单

AI 科技评论：面对激烈的市场竞争，你的用户增长的策略是什么？

Kevin ：我是将 Miraa 定位为不仅仅是一个语言学习工具，而是一个综合性的内容消费平台。

语言学习工具到底是在做什么？我后面的计划是将它往能真正解决用户如何消费内容的方向发展，而且显得更纯粹。如果只是消费内容，现有的抖音、YouTube 已经可以解决很多，包括很多字幕组的存在。

但如果能把好的内容和语言学习有机结合起来，就会更好玩。大家觉得单纯刷短视频浪费时间，但如果能把用户喜爱的事情转化为学习的动力和素材，那将是一个很好的开始。

后面其实 Miraa 准备有一些比较大的改版，可能会对整个交互做一些设计。最开始的时候并没有把它当成一个 AI native 的产品去思考，一开始更多的是满足我个人的一个需求。现在的话顺着 AI native 的想法，把它完全重塑成一个以 AI 能力为底座的产品，再去做一个新的演进。

AI 科技评论：你是如何评估 PMF？

Kevin ：要说契合度的话，现在 Miraa 这款产品其实是远超我前面两款产品的。至少，相较于之前的两款产品，进步更多了。

最主要的原因是因为现在这款产品不局限于日语。我觉得日语还是相对较小的一个市场。Miraa 从日语扩展到了其他一些语种。

另外，Miraa 这款产品完全没有在国内上线，整个宣发都是走的海外，包括所有的服务器和其他资源都在海外。这和我以往的产品有很大的不同。过去的产品 90% 的收入都是由国内市场贡献。而现在的收入已经超过之前，而且全部来自海外。

这给了我一些启发。更轻、更专注、更简单的产品在海外还是挺走得通的。如果要看PMF（产品市场匹配度），我并没有什么很好的数字方法论。我做产品一直以来是兴趣驱动，更多是看我自己觉得好不好，可能这种方式比较偏纯产品的视角。

如果要说某一个指标是我真的用来看的话，通常会看用户的转化率。我的产品下载和付费的转化率通常是超过 10% 的。如果下载量有 10% 的用户能够转化成付费用户，那我觉得其实就是 OK 的。

AI 科技评论：未来 Miraa 的主要发展方向是什么？

Kevin ：未来 Miraa 会继续在 AI native 这个方向上深耕。首先是会进一步优化现有的 AI 功能，让它们更加智能和贴近用户需求。其次是用户互动和社区功能的扩展。AI 不仅能帮助用户学习和工作，还可以促进用户之间的交流与合作。

另外，我们还会考虑更多的跨平台支持，不仅限于移动端，还会扩展到桌面和 Web 端，确保用户可以在任何设备上无缝使用Miraa。总的来说，我们希望将 Miraa 打造成一个全方位、多语言、多功能的智能助手，真正帮助用户提高效率和体验。

成为一名独立开发者

AI 科技评论：你对AI 领域独立开发者有什么建议？

Kevin ：我觉得，你想要做独立开发者也好，或者说你自己做产品也好，最重要的一点是认知差异。大家之所以有高低之分，通常是因为对所做事情的理解不同。因此，我建议不要去做那些离自己太远的事情，而是围绕自己的需求，或者说你身边的人的需求。

甚至是你老婆、你女朋友的需求去做你的第一款产品。因为在这个过程中，你可能会逐渐体会到为何认知是产品成功的关键。你需要深挖问题的本质，比如你女朋友爱读书，然后你要做一个书摘的产品，那你可能要进一步探究她为什么要摘抄这句话，她到底要做什么，甚至你可能要再挖一层，为什么她要读书。这些思考会对你做产品有很大帮助。所以，不断提升自己对所做事情的认知是关键。

我现在开发的 Miraa，其实对我来说更多是一个探索自己怎么做产品的体验。我更注重认知和思考，与我以前的产品有很大不同。以前的产品如“五十音起源”，是抓住了市场未解决的痛点，而“捧读”则是结合新技术优化某一品类的产品。Miraa 则更注重终局思维，考虑未来产品的形态和长期生存之道。现在我不再急于求成，更关注每一步的基础性工作。

以前创业时，我经历了融资、组建团队、开公司等快速扩张的阶段，但现在我更倾向于确保产品的自我造血能力，验证其价值后再考虑扩展。这样可以更长期地发展，也更轻松。

还有一点就是多和朋友聊天。我有一个例子可以形容这件事，和费曼有些关系。费曼有一个关于火焰产生的演讲视频，讲解了火焰是如何从最小的两个氧原子和一个碳原子的振动开始扩散的。他的原理类似于人的大脑和大模型，如果没有输入，就没有输出。所以当我觉得自己没有想法时，我会通过阅读有趣的书籍来激发灵感。一句话可能会带来很大启发，促使你产生新的想法和变化。

AI 科技评论：如果向我们读者推荐三本书籍的话，会推荐哪些书？

Kevin ：我看看我最近在读的几本书，我觉得不错的：

第一个是《费曼经典》。这本书让我学到了如何做实地调查。现代人为了效率习惯直接获取别人给的答案，或者汇总几个答案后形成自己的结论，但真正亲身经历和感受到的东西与他人给的信息可能有巨大的差距。比如我在日本住了一年，和没去过日本的人相比，我对日本的理解是完全不同的。实地调查的重要性在于信息的密度和深度，这种密度很难通过言语传达，因为转述往往会压缩并省略无数细节。

第二本是《这就是ChatGPT》。这本书非常适合当前大模型的趋势，能够很好地帮助大家理解大模型的一些底层逻辑。

第三本是《别想那只大象》。这本书讲的是语言背后的隐喻以及语言对思维框架的影响。比如使用某些词语时，无论你认同与否，这些词语所代表的隐喻已经框定了你所能表达的范围。尤其是一些从国外翻译过来的词，使用的汉字可能让你联想到的东西与其本身代表的意义有很大差距。这种现象其实是一种不易察觉的思想操控。

就这三本吧。

本文作者 zhumaterialism 深耕于AIGC知识领域的应用研究，期待与同行及感兴趣的读者交流思想、分享见解。欢迎添加以便深入探讨，共同推动行业进步。欢迎开发者主动联系提交产品，一起探索AI在各领域的创新应用，携手前行。

雷峰网

专访纽约城市大学田英利教授：用多通道、多模态的方法「看懂」手语

Wed, 06 Mar 2024 09:48:00 +0800

与聋哑人交流，是一件成本很高的事情。

首先要看得懂手语，其次是会打手语。在全球任何一个国家，手语都被归属为一门“小语种”。

但全球手语并非一套通用语言，美国手语（ASL）、泰国手语（ThSL）、英国手语（BSL）、中国手语（CSL）......虽然在某些情况下它们可以互相理解，但这并不等同于手语语言的普遍性。

全球约4.5亿的聋哑人士，长期困在狭小社交圈。在过去三年的全球防疫中，这种社交限制被进一步强化。

口罩会影响每一位聋哑人——依赖手语的他们还需要面部表情来充分理解交流内容，佩戴助听器或人工耳蜗的人也依赖唇读来更好地理解听到的内容，即便只是听说功能受损的人也更难听到蒙住的声音。

因此，手语在高等教育中的重要性日益凸显。从2006年到2009年，美国手语在大学的学习人数显著增加了16.4%，在最受欢迎的外语学习中排名第四。然而，对于更广泛的社会群体而言，仍然无法受益于一种灵活的方法培养手语技能。

众所周知，2023年，ChatGPT的出现为沟通方式带来了革命性的变革。

ChatGPT通过多轮对话的形式，实现了与人类的协同交互，这是与以往现象级AI产品完全不一样的地方。比如，通过简单的插件安装，用户便能与ChatGPT展开近乎真实的对话模拟。ChatGPT不仅能够理解用户的意图，还能提供即时的反馈和纠错。在缺乏外语母语交流伙伴的情况下，ChatGPT是一个理想的替代者，被广泛用于模拟日常对话、商务会议、求职面试等场景。

实际上，ChatGPT所引领的学习和交流方式的变革并非突如其来。在手语交流辅助工具的开发上，学术界早已取得了显著成就。

2014年开始，纽约城市大学（CCNY）田英利教授，联合国际知名手语计算专家--罗切斯特理工大学的Matt Huenerfauth教授，着手开发一个能够实时识别美国手语中语法错误的视觉系统。相关研究成果和手语数据集在2020年亮相计算机视觉领域顶级会议ICPR（模式识别国际会议）。

田英利，纽约城市大学教授，IEEE / IAPR / AAIA Fellow

据悉，他们开发的这套是美国手语语法识别系统，旨在实时识别手语并为学习者提供即时反馈。应用价值不仅体现在辅助手语学习上，更在于其能够无缝集成到计算平台中--通过检测手语动作并翻译成文字或语音，为听障人士与非听障人士之间的沟通搭建桥梁，有效消除交流障碍。

近期，相关论文之一《Multi-Modal Multi-Channel American Sign Language Recognition》，作为首期特邀论文上线初创期刊《人工智能与机器人研究国际期刊》（IJAIRR）。借此契机，田英利教授向雷峰网介绍了该系统的开发过程，并详细介绍了背后的数据集收集工作。

论文链接：

https://gairdao.com/doi/10.1142/S2972335324500017

手语识别的难题

相比于类型繁多的口语语言，手语的特别之处在于，这是一种充满表现力的视觉语言，它通过手势、面部表情和身体动作的组合来传达信息。

自20世纪80年代以来，学者们就开始探索手势识别，而手语识别的研究则稍晚起步，1988年，日本学者Tamura和Kawasaki首次尝试识别日语手语。

随着多功能感知、智能人机接口和虚拟现实技术的发展，手语识别研究逐渐受到国际关注。目前，手语识别系统主要分为基于传感设备（如数据手套和位置跟踪器）和基于视觉的系统。

相比而言，虽然传感设备提高了手势识别的准确度和稳定性，但限制了手势的自然表达。因此，基于视觉的手势识别逐渐成为研究的主流。

基于视觉的手语识别通常包括三个步骤：

首先，通过摄像头或传感器捕捉手语动作，建立训练数据集；

其次，利用计算机视觉技术分析和识别手语动作；

最后，通过机器学习算法将识别结果转化为文字或语音输出。

然而，第一步中的遮挡、投影和光线变化等因素，使得基于视觉的方法难以精确捕捉手指动作。直到近年来，成本效益高的RGBD相机，如微软Kinect V2（2013年发布）、英特尔Realsense（2014年发布）和ORBBEC Astra Stereo S（2019年发布）的出现，为捕捉高分辨率RGB视频、深度图和实时跟踪骨骼关节提供了可能，推动了基于RGBD视频的手语识别研究。

尽管如此，现有的手语识别系统仍存在诸多缺陷。

一些系统仅关注手势，忽视了面部表情和身体姿势，限制了其适应性、泛化性和鲁棒性；

另一些系统虽然分析了多种姿态，但缺乏深度信息，导致识别率不高；

还有的系统虽然基于RGBD视频，但只识别有限的手语词汇。

纽约城市大学的田英利教授指出了两个原因：现代机器学习方法主要依赖数据驱动，但公开发布的手语数据集规模远小于其他应用的数据集。其次，手语动作的多样性和复杂性，也增加了动作捕捉和算法设计的难度。

例如，手部动作的微小变化可能导致完全不同手语的符号表达；即使手势相同，面部表情的差异也能改变含义；重复的手势可能增加额外的含义；而照明、背景和相机距离等环境因素也增加了识别的难度。

理想的手语识别系统应能处理所有手语词汇，满足使用者的实际需求，并能在复杂环境下实时、准确、可靠地工作，同时面向非特定用户。尽管手语识别技术尚未成熟，但随着研究的深入，这一目标正逐步接近现实。

美国手语研究新篇章：数据集与识别技术的协同进步

美国手语（ASL）在全球范围内具有重要地位，不仅在美国、加拿大等国家广泛使用，而且与泰国手语、法国手语等有着较高的互通性。在美国，美国手语是一种标准化的手语，不同州之间的差异通常很小。因此，ASL成为了众多研究团队的首选研究对象。

田英利教授指出，ASL的表达不仅依赖手势，还涉及面部表情、头部和身体动作等非手部信号，这些元素共同构成了ASL的丰富表达。

具体来说，大多数手语手势都是由手在空间中移动、停顿和改变方向组成的，面部表情在美国手语中最常用于传达整个句子或短语的情绪信息。例如通过眉毛、眼睛张大的表情来表示疑问；身体动作和手势的指向也可以用来表达“左边”或“右边”这类概念；具有消极语义极性的符号，如NONE或NEVER，往往伴随着轻微摇头和鼻子皱纹的消极面部表情出现。

2014年以来，田英利教授与罗切斯特理工学院的Matt Huenerfauth教授合作，基于RGBD视频技术开发了一套创新系统，旨在提高ASL语法元素和语法错误的识别准确性。这一系统能够处理连续ASL视频中手部手势与非手部信号之间的复杂关系。

经过数年筹备，他们所开发的这套ASL系统已有突破性进展。据田英利教授介绍，ASL-100-RGBD数据集、ASL-Homework-RGBD数据集、实时手语语法错误识别系统，是实现这一进步的关键。

ASL-100-RGBD数据集：研究的基石

ASL-100-RGBD数据集由罗切斯特理工学院和纽约市立大学的研究人员共同创建，它包含了100个ASL手势的彩色和深度视频（RGBD视频）。这些视频由流利的ASL使用者在Kinect V2传感器前表演，为手语识别算法的开发提供了宝贵的基础资源。

田英利教授强调，在收集数据时，团队确保了参与者的多样性，招募了不同性别、年龄和背景的流利ASL使用者。而且所选择的100个ASL常用手势，其中大多数与美国手语语法有关（例如时间、问题、条件等语法元素），而且通常在大学一年级的ASL课程中学习。每个手势都被详细地标注，包括开始和结束的时间，以及相关的面部表情和头部动作。

ASL-Homework-RGBD数据集：教育与研究的桥梁

ASL-Homework-RGBD数据集进一步扩展了研究范围，它不仅包含了流利手语者的视频，还涵盖了正在学习ASL的非流利使用者的表现。

这种多样性使得研究者能够对比分析流利与非流利手语者的差异，从而更好地理解学习过程中的变化，改进教学方法，并开发出更精确的手语识别系统。此外，数据集还可以作为CV研究人员设计算法的基准，以检测视频中的手语错误或评估连续手语识别算法性能。

实时手语语法错误识别系统：技术的应用

实时手语语法错误识别系统，将ASL-100-RGBD和ASL-Homework-RGBD数据集的研究成果应用于实际教学中。这个系统能够处理连续的手语视频，自动识别语法错误，并为ASL学习者提供即时反馈。

它利用3D-ResNet网络独立识别手语的语法元素，并采用滑动窗口方法检测不同模态的语法元素的时间边界，有效识别ASL语法错误。

田英利教授提到，使用滑动窗口技术来处理长句子，这是一种在视觉和图像处理中常见的方法。他们的研究创新之处在于结合了多个模态和多通道的信息，即，手部动作、表情、身体语言以及颜色和深度信息（RGBD信息）来识别语法错误，而不是识别每一个字。

也就是说，无需逐字翻译，而是专注于语法错误，包括时间、问题、条件等语法元素。（更多细节可阅读论文原文，在文章底部参考资料）

测试显示，这一系统能够在2分钟内，为时长1分钟的ASL视频生成反馈，这对于手语学习者来说极其宝贵。

更重要的是，ASL-100-RGBD和ASL-Homework-RGBD两大数据集，均已在Databrary平台上向授权用户开放，将为未来更多从事手语研究者提供了必要的训练和测试数据，推动整个研究领域的发展。

The ASL-100-RGBD database : https://nyu.databrary.org/volume/1062

The ASL-Homework-RGBD dataset ： https://nyu.databrary.org/volume/1249

多模态3DCNN框架的概述图

尽管如此，田英利教授仍然指出了目前数据集和系统的局限。

ASL-100-RGBD数据集所选择的100个手势，主要集中在有关手语语法；参与者的人口统计信息可能无法完全代表ASL使用者的多样性，因为参与者主要是年轻人，他们属于能流利使用美国手语的一类群体并且都有六年以上使用手语的经验。对手语使用者来说，主要差别包括“听力损失程度”、“教育背景”、“美国手语流利程度”。

此外，目前这一系统在ASL-100-RGBD数据集上手语的识别率达到93%的准确率。在不用识别每个单独手势前提下，对多个连续手语句子，ASL语法错误识别率超过60%，包括识别词汇错误（如缺少适当的面部表情或头部动作）和时间错误（如非手部信号发生的时间与句子结构的开始或结束太远）。

无论如何，这些研究成果已经为ASL研究和教育技术的进步奠定了坚实的基础，未来或将出现更多元的解决方案，并推动手语商业化时代到来。

团队介绍

在美国手语（ASL）研究课题中，跨学科团队合作发挥着至关重要的作用。

纽约城市大学的田英利教授带领的研究团队，包括她的学生 Elahe Vahdani 和 Longlong Jing 、罗切斯特理工大学的 Matt Huenerfauth 教授，以及亨特学院的Elaine Gale教授，共同致力于手语语法系统和算法的研究和开发，以及数据集的设计和收集工作。

Matt Huenerfauth博士，毕业于宾夕法尼亚大学计算机系，专攻计算语言学。自2006年博士毕业以来，他一直专注于手语计算研究，不曾变换研究方向，如今已成为该领域的国际知名专家。

据悉，他曾在纽约城市大学皇后学院任教期间掌握了美国手语，并取得了手语翻译员证书。目前他在罗切斯特理工学院(RIT) 任教，担任Golisano计算机与信息科学学院的教授和院长，围绕聋哑人无障碍技术和手语展开研究。

田英利教授、Elahe Vahdani 、Longlong Jing、Matt Huenerfauth 教授、Elaine Gale 教授

田英利教授则拥有扎实的计算机视觉技术背景。她于1990年从天津大学光电工程专业毕业后，加入了马颂德教授创立和领导的中科院自动化所模式识别国家重点实验室。在获得香港中文大学博士学位后，她前往美国卡内基梅隆大学进行博士后研究，师从计算机视觉领域的领军人物金出武雄。

（有关田英利和金出武雄的故事请点击：金出武雄和他的中国学生们，计算机视觉五十载风云）

那段时间，她专注于人脸表情自动分析和数据库开发。2000年前后，人脸表情识别成为美国计算机视觉领域的热点，田英利的工作为她在IBM T. J. Watson研究中心领导视频分析团队奠定了基础。

2008年，田英利教授回归学术界，加入纽约城市大学电气工程系，成为该系十多年来的第一位女性教授。她在那里开创了辅助技术研究方向，致力于利用计算机视觉技术服务于视障、听障、聋哑和老年人等特殊群体。

田教授表示，她首先关注了盲人，很自然地将研究重点延伸到了手语识别，因为手语包含了表情、行为和手势，这些都与她之前的研究紧密相关。

此外，田教授还表示，近年来她参与的跨学科研究不断增加，与同校计算机系的朱志刚教授、同系肖继忠教授（机器人专家）、亨特学院的Elaine Gale教授等合作。Elaine教授是本次手语课题的关键参与者，她是一位后天失聪者，精通唇语，并在手语教育方面有着丰富的经验。她将这套系统应用于自己的课程中，确保了系统在实际教学中的有效性。

值得一提的是，近两年OpenAI发布的ChatGPT和Sora，将「大模型」技术推到制高点，不乏有人呼吁推出“手语语法识别通用大模型”。

对此，田教授分析，未来手语领域的研究方向可能会涉及大规模数据集的构建。也就是说，未来的系统开发不仅仅针对一种手语，而是考虑将不同国家的手语数据集整合起来，提取手语的通用特征，然后在特定的手语上进行微调，以提高系统识别的精度和适应性。

但至于实际走向如何，田教授指出有两大挑战：

“手语领域缺乏像ChatGPT那样的大规模数据集，这限制了手语识别模型的通用性和准确性；手语不像某些语言模型，可以通过大规模数据训练后就能通用，手语在不同国家有着特定的词汇和表达方式，这使得创建一个通用的手语识别模型变得更加复杂。”

目前田英利教授和团队所开发的这套系统，并非基于大模型，因为所使用的数据量相对较小，而且他们的手语识别系统是在大模型概念出现之前就开始的。他们正在探索使用自监督学习来利用现有数据学习特征，并将其应用于小数据集上，以提高系统的性能，同时也计划收集更多的数据来改进手语识别系统。

在手语辅助系统的领域内，仍有许多技术挑战亟待克服。在这一背景下，田教授团队开放数据集的做法显得尤为关键。这将促进学术界与工业界的交流合作，也为整个领域的发展注入了新动力。

线上圆桌预告

手语识别技术，作为一种桥梁，连接了听障人士与社会的沟通，其在医疗辅助和社交互动中展现出巨大的应用潜力。

尽管全球众多学术和工业团队长期致力于破解手语识别的复杂挑战，这一领域仍面临着一系列未解之题。

手语识别的关键难题有哪些？

如何从零开始构建并部署一套高效的手语识别系统？

如今 ChatGPT ，Sora 等大模型对手语识别研究的启示？

除了计算机视觉（CV）技术，还有哪些技术路径可以探索？

在国内外，哪些学术团队和工业团队在手语识别领域取得了显著成就？

为了深入探讨这些问题，雷峰网将在3月举办一场专题研讨会，届时将邀请田英利教授以及手语研究领域的专家学者，共同分享他们的见解和研究成果。这次会议将为手语识别技术的未来发展提供宝贵的交流平台。

本文作者吴彤长期关注科人工智能、生命科学和科技一线工作者，习惯系统完整记录科技的每一次进步，欢迎同道微信交流：icedaguniang

参考资料

1，Elahe Vahdani、Longlong Jing、Matt Huenerfauth and Y. Tian, Multi-Modal Multi-Channel American Sign Language Recognition, International Journal of Artificial Intelligence and Robotics Research (IJAIRR), 2023.

2，E. Vahdani, L. Jing, M. Huenerfauth, and Y. Tian, Recognizing American Sign Language Nonmanual Signal Grammar Errors in Continuous Videos, International Conference on Pattern Recognition (ICPR), 2020.

3，S. Hassan, L. Berke, E. Vahdani, L. Jing, Y. Tian, and M. Huenerfauth, An Isolated-Signing RGBD Dataset of 100 American Sign Language Signs Produced by Fluent ASL Signers, In proceedings of the 9th Workshop on the Representation and Processing of Sign Languages: Sign Language Resources in the Service of the Language Community, Technological Challenges and Application Perspectives, May 2020.

4，Saad Hassan, Matthew Seita, Larwan Berke, Yingli Tian, Elaine Gale, Sooyeon Lee, and Matt Huenerfauth, ASL-Homework-RGBD Dataset: An Annotated Dataset of 45 fluent and non-fluent Signers Performing American Sign Language Homeworks, In proceedings of the 10th Workshop on the Representation and Processing of Sign Languages: Multilingual Sign Language Resources, June 2022.

Sora 面世，视频生成的 GPT-3 时刻来了

Mon, 26 Feb 2024 19:05:00 +0800

2月16日凌晨，正值中国春节法定节假日期间，OpenAI 毫无预兆地发布了 AI 视频生成大模型 Sora。看过视频效果后，网友纷纷感叹「现实，不存在了。」

不夸张地说，Sora 的技术结果直接碾压了过去世界范围内所有文生视频的探索结果，颠覆了 AI 短视频生成的现状。又一次，OpenAI 拉开了和 Pika 、Runway 等知名文生视频团队的代差，巩固了“遥遥领先”的“AI 霸主”地位。

基于此，可以预见的是：接下来，很多传统的影视公司、视频素材行业，甚至是新兴的虚拟拍摄制作、特效生成领域都要迎来“大变天”。更有网友戏谑调侃：OpenAI 没有停下杀掉初创公司的脚步。

以 ChatGPT 为首的人工智能正在改写世界的逻辑，带来诱人机遇，吸引诸多创业者前赴后继，但同时，冒险者也面临巨大不确定性，所有努力可能在顷刻间化为乌有。无论是 OpenAI 开发者大会发布的 GPTs 等一系列新成果，还是文生视频底层大模型 Sora 的问世，都「抄」了很多创业者的后路。

但实际上，Sora 并非 2024 年 AI 短视频生成领域的唯一“开门红”。2 月 16 日，海外各科技巨头纷纷亮相了 2024 开年的新产品：除了OpenAI 的 Sora 这一记惊雷之外，Google 发布了 Gemini Pro 1.5，Meta 也发布了全新视频生成模型 V-JEPA。

春节前，著名科技网红周鸿祎调侃大模型 “去年（2023 年）像原子弹，今年（2024 年）像茶叶蛋”；但在 OpenAI 推出 Sora 后，也纷纷改口，称“AGI 实现将从 10 年缩短到 1 年”。Sora 对现实物理世界的理解与模拟，超出了所有人的想象，在 Sora 的推动下，大模型的竞争也从 2023 年的暗流涌动，转为 2024 年的风起云涌。

2023 年，国产大模型的呼声高开低走，年底一度出现唱衰大模型的声音。但在科技大趋势面前，真正的追随者一直遵循同一个原则，即长期主义。2024 年将是大浪淘沙的一年，一部分人已经放弃，另一部分人则继续火力全开，如 OpenAI、谷歌与 Meta。

时代，永远眷顾有准备的人。

万众瞩目的 Sora

先来看风头最盛的 OpenAI Sora。

“生活中最大的乐趣之一就是发现未被发现的人才，赋予他们坚定的信念，并看着他们改变事物的轨迹。”

信任并不吝啬于给予年轻人资源——这一理念深深植根于 OpenAI 的基因中。Sora 的两位研发核心负责人Tim Brooks 和 William (Bill) Peebles 便是年轻的技术人才，两人同为美国加州大学伯克利分校的博士同窗，师从计算机视觉先驱 Alyosha Efros，并均在 2023 年毕业。

为何应届博士生能成为 Sora 负责人，带领团队扔出这个重磅炸弹？回顾二人的过往经历，不难发现，他们能够研发 Sora，并非幸运或偶然。

Tim Brooks 早两个月加入 OpenAI——去年 1 月 PhD 毕业后，Tim Brooks就丝滑入职 OpenAI，参与了 DALL·E-3 的工作。

Tim Brooks个人网站：https://www.timothybrooks.com/about/

2017 年 8 月，Tim Brooks 本科毕业于卡内基梅隆大学，毕业后加入了谷歌的 Pixel 团队，研究 AI 在手机摄像头上的应用。

2019 年，Tim Brooks 在年初结束了在谷歌的工作，并于同年8月进入 UC Berkeley（加州大学伯克利分校）攻读PhD。就读期间，Tim Brooks 以实习生的身份加入 Nvidia，领导了视频生成的项目。

在 PhD 时期，Tim Brooks还与导师Alyosha Efros和现谷歌科学家Aleksander Holynski一起研发了一个条件扩散模型——InstructPix2Pix，它不需进行微调，能在几秒钟内快速编辑图像。该模型结合了GPT-3和Stable Diffusion语言和图像两种模型的互补知识，为跨越两种模态的任务创建配对训练数据，并根据该数据训练而成。

该研究成功入选CVPR 2023 Highlight。

但 Tim Brooks 不仅仅是一位技术人才。在他的个人网站里，还能看到他摄影、阿卡贝拉、BeatBox 相关的作品。其高中时期的摄影作品甚至获得了国家地理的奖项，他还曾在纽约百老汇的灯塔剧院演出，并获得 BeatBox 的国际奖项。

Tim Brooks 这样形容自己：“我对计算机科学和人工智能的职业充满热情，幸运的是它与我对摄影、电影和音乐的热爱融为一体。”

与 Tim Brooks 师出同门的 William Peebles 则在两个月后也加入了 OpenAI，两人共同领导 Sora 团队，负责研发工作。

William Peebles个人网站：https://www.wpeebles.com/

William Peebles 本科就读于 MIT 的计算机科学专业，期间加入了 MIT 知名的计算机科学与人工智能实验室（CSAIL），参与了 GAN 和 text2video 相关的研究。本科时期他曾在英伟达的深度学习与自动驾驶团队实习，研究计算机视觉。

2019年，William 加入加州大学伯克利分校开启了他的博士学习之旅。就读期间，William 继续研究 GAN，并先后在 Adobe 和 Meta 实习。

值得一提的是，自 2022 年 5 月至 12 月，William 在 Meta 仅实习不到一年，就与当时仍在 Meta 任职的 AI 技术大牛谢赛宁合作发表了 DiT（Diffusion Transformer）模型，首次将扩散模型与 Transformer 结合起来。此研究发表在 ICCV 2023 上，新鲜出炉的 Sora 就是建立在 DiT 的基础上的。

谢赛宁在推特上解读 Sora 与 DiT 模型

Sora 展现出惊人的视频效果，其背后的技术原理包含了文生视频技术变革的潜力。在 OpenAI 官网最新发布的技术报告中，可以窥探到 Sora 颠覆的技术细节。

借鉴 Transformer 架构的 Diffusion 扩散模型

Sora 大体技术架构和 Walt 类似，侧面说明整体的技术框架在行业内已逐渐确定下来。根据技术报告分析，Sora 的优势可能在于：找到了更好的表征视频数据的方式。

虽然 Sora 本质上采用的仍然是 Diffusion 扩散模型，但 Sora 把其中的实现逻辑 U-Net 架构替换成了 Transformer 架构。

基于 Transformer 的实现，依赖视觉数据向量化，Sora 用 visual patches 代表被压缩后的视频向量进行训练，每个「patches」相当于GPT中的一个「token」。

所谓的 patches 是一种高度可扩展和有效的表示，带有时间和空间信息，还可以自由排列，灵活度极高，可以用于训练不同类型的视频和图像的生成模型。使用patches，可以对视频、音频、文字进行统一的表征。

和大模型中的 tokens 类似，Sora用 patches 表示视频，把视频压缩到低维空间（latent space）后表示为Spacetime patches。

在 DiT 架构上，Sora 通过输入的提示词信息，即可预测下一个 patch 来生成视频，就大模型预测下一个 token 生成文本一样，这意味着 OpenAI 可以在训练 Sora 时倾注更多的数据和计算资源以实现更优的效果。

Sora 甚至能够接受带有噪声的图像块（及条件信息如文本提示）作为输入，并被训练以预测出原始的“清晰”图像块。

2023 年，在文生视频领域，行业内一致认为，现有的视频生成工具有一个共同难点，即运动一致性的持续性。针对这个问题，OpenAI 坚持了“压缩即智能”的技术路线，建立了相对完善的训练机制，从噪声开始，逐步精炼其生成的视频，直到出现生动、连贯的场景。这种架构不仅保证了 Sora 的高效率和可扩展性，也使其能够处理各种格式和比例的视觉内容。

不过，尽管 Sora 在 60 秒短视频的生成上效果大幅提升，仍有技术人员向 AI 科技评论表示，“运动一致性”在短期内仍是文生视频领域的一大掣肘。

可变持续时间、分辨率、宽高比

过去的图像和视频生成方法通常将视频调整为标准尺寸、裁剪或修剪——例如，256x256 分辨率的 4 秒视频。Sora 则更加灵活多样，可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的一切。

这允许 Sora 直接以原生宽高比为不同设备创建内容。它还允许在以全分辨率生成之前，以较低的尺寸快速制作内容原型——所有这些都使用相同的模型。

改进的框架和构图

根据 OpenAI 的实验，以原生宽高比进行视频训练可以改善构图。将 Sora 与其他模型版本进行比较，发现其他模型会将所有训练视频裁剪为正方形，这通常是训练生成模型时的常见做法。在其他模型（上）生成的视频中，主体仅部分出现在视野里。相比之下，Sora（下）的视频则有明显的改进。

Sora 脱颖而出，不仅因为其独到的文本解析能力，更在于其重现物理世界动态的独特方式。它不仅仅是一个文本到视频的转换工具，而是一个能够理解复杂命令并将其转化为视觉故事的智能实体。与现有技术如 Runway 和 Pika 相比，Sora 在视频生成的真实感和细节表现上已迈出了重要一步。

世界模型

尽管 Sora 和真正的世界模型相比仍存在一定差距，但显而易见的是，与其他文生视频模型相比，Sora 更擅长模拟现实世界中的人、动物和环境，且这种能力不需要对三维空间、物体等有任何特定的预设偏好——它们纯粹是由数据规模驱动的结果。

此外，Sora 还能接受图片或已有视频作为输入。这意味着 Sora 能够完成各种图片和视频编辑任务，比如制作无缝循环视频、给静态图片添加动画效果、延长视频的播放时间等。雷峰网雷峰网

Sora 具有三维空间的连贯性。它能生成带有动态视角变化的视频，当摄像机位置和角度变动时，视频中的人物和场景元素能够在三维空间中保持连贯移动。

在生成长视频时，保持时间上的连续性一直是个挑战。而 Sora 具有远距离连续性与物体持久性，能够有效处理短距离和长距离的依赖关系。比如，即使人物、动物或物体被遮挡或移出画面，Sora 也能保持它们的连续存在，能在同一视频样本中多次展示同一角色，确保其外观贯穿始终。

Sora 还能模拟出简单地影响世界状态的行为。例如，画家在画布上留下的笔触随时间持久存在，或者某人吃汉堡留下的咬痕，实现与世界的互动。

通过对视频的学习，Sora在一定程度上能理解人类的现实物理世界，预判了物理世界中物体之间的关系。

除了现实世界，Sora 还能模拟数字化过程，如视频游戏。它能在控制 Minecraft 游戏角色进行基本操作的同时，高质量渲染游戏世界及其动态。仅需通过提及“Minecraft”等字样的提示，即可激发这些能力的展现。

Sora 之后，大模型的军备竞赛加剧

Sora 的性能的确足够炸裂，从根本上来说，Sora 的打法就是在拥有足够大量的训练视频基础上，用多模态模型给视频做标注，把不同格式的视频编码成统一的视觉块（patches）嵌入，然后用足够大的网络架构加足够大的训练批次加足够强的算力，让模型对足够多的训练集做全局拟合。

有行业内人士如此评价 OpenAI 这一解决方案：虽然不是十分高深，但却是聪明的，是务实的训练方式和算力结合之后向前迈的一大步。

可以说，OpenAI 凭借 Sora 在国内外 AI 领域中又引发了一场没有硝烟的战争。

谷歌、Meta 等先入场的巨头们也展示各自力量，纷纷谋划如何守住自身阵地，增强自身 AI 武器装备，进行新一轮军备竞赛较量，不至于落于后风。

首当其冲的就是谷歌。在 OpenAI 发布 Sora 的 2 小时之前，谷歌就已经先发布了 Gemini Pro 1.5。

从模型的性能来讲，谷歌 Gemini Pro 1.5 在多个维度上都有显著改进，能够跨模态进行高度复杂的理解和推理，其威力也可以称得上是王炸级别。

尤其是在长语境理解方面实现了突破，在 GPT-4 能理解的上下文长度是 128K，Claude 是 200K 的背景下， Gemini Pro 1.5 提升至 10M。也就是说，1 个小时的视频、11 个小时的音频、超过 70 万字的代码库，它都可以一次性阅读处理完。

除此之外， Gemini Pro 1.5 能够同时处理文本、图像、音频、视频等大量的多模态信息。例如，研究人员给 Gemini Pro 1.5 提供了一份长达 402 页的阿波罗登月的任务记录，然后向其提问这个脚印所代表的含义，Gemini Pro 1.5 能准确地记住信息并回答：这代表登月的那一刻，是个人的一小步，人类的一大步。

除了 OpenAI 的 Sora、谷歌的 Gemini Pro 1.5，Meta 在当地时间 2 月 15 日也发布了 V-JEPA （Video Joint-Embedding Predictive Architecture，即视频联合嵌入预测架构）。

V-JEPA 是基于图灵三巨头 Yann LeCun 提出的“自监督+世界模型”所构建的技术框架。Yann LeCun 认为必须让机器学习世界模型，从而能够填补缺失的信息，预测将要发生的事情和未来行动的影响。而 Yann LeCun 最早提出“自监督+世界模型”，是在 2022 年年初。可以说，Meta 酝酿 V-JEPA 已久。

V-JEPA 采用新的模型训练方法，经过打磨也能开发类似 Sora 的短视频生成产品，并解决视频、图像生成的帧间一致性问题。

在基准测试中，V-JEPA 表现不凡：Kinetics-400达到了 82.0% 的准确率，Something-Something-v2 达到了 72.2% 的准确率，ImageNet1K 中则在图像分类任务上达到了 77.9% 的准确率。

这些成绩部分超过了之前 SOTA 的视频模型，显示了 V-JEPA 在理解视频内容、分类动作和图像分类等方面的能力雏型，特别是对视频中细节丰富的对象互动的理解能力。

有硅谷 AI 创业者向 AI 科技评论评价，Meta 在这波大模型竞赛中最大的优势是其一直奉承的开源路线。无论是语言大模型还是文生视频大模型，Meta 的开源路线都对拥有理想主义情怀的技术极客们有着极大的吸引力，聚集人才、配齐算力，Meta 有机会做成大模型时代的“安卓”，一枝独秀。

今日早晨，Meta 首席科学家、图灵奖得主 Yann LeCun 也针对新晋的 Sora 发表了看法。Yann LeCun 是最早提出世界模型的科学家。他表达了对于 OpenAI 旗下 Sora 模型尚未能深入理解物理世界本质的思索，深度剖析了生成式模型在捕捉物理世界内在规律以及生成视觉内容方面存在的固有限制，并进一步探讨了联合嵌入预测架构（Joint Embedding Predictive Architecture, JEPA）相对于传统生成式模型所展现出的独特优势。

关键点包括：

生成逼真视频并不意味着系统具备对物理世界的真实理解，因为生成式模型仅需从概率分布中采样合理结果，而非模拟真实的因果逻辑。

能够生成符合物理规律及特定动作要求的连续视频片段难度较大且计算成本高，实际价值有限。

JEPA着重于构建连续视觉片段的抽象表征，剥离无关动作决策的细节，通过预测而非直接生成来优化表示学习。

JEPA系列方法相较于专注于像素重建的生成模型（例如变分自编码器、掩码自编码器、去噪自编码器等），能够在保持高质量的同时，生成对下游任务更具指导意义的视觉特征表示。

在下游任务应用中，联合嵌入架构的学习表示作为监督信号输入时，无需微调主干网络就能取得优于生成式架构的表现。

作为 Meta 的首席科学家，Yann LeCun 自然会为 JEPA 站台，在 Sora 率先引爆文生视频大战之后，双方的竞争将呈现怎样的发展趋势，也让大家十分关注。

此外，在 2 月16 号发布撞车的还有 Stability 的 SVD1.1，其官网曾发布 SVD1.1 正式介绍的推文，后被删除。

诸多厂商在文生视频大模型领域的竞争背后，是斥巨量资金支持海量实验的结果，也是基于算力逻辑对「卡」的比拼。

思谋科技创始人贾佳亚在朋友圈公开评价：“Sora 是大力出奇迹，在学术界连 VIT 的 256*256 的分辨率都没法改的情况下，Sora 直接用上了高清以及更大的分辨率，这没几千上万张 H100 都不敢想象如何开始这个项目。”

基于此，有行业人士预测，英伟达也定会加入这场大模型或 AGI 的军备竞赛中。几天前，英伟达也表示自己会造聊天机器人，发布了对话机器人「Chat with RTX」，面向 GeForce RTX 30 系列和 40 系列显卡用户。与 ChatGPT 等需要联网使用的聊天机器人不同，Chat with RTX 可以在本地运行，帮助检索、分析保存在电脑上的文件，并提供带有上下文的答案。

英伟达的这一行为在一定程度上可以说是向 OpenAI 的护城河进攻。黄仁勋近期也就Sora发表了见解，他坚信，计算机科学与人类生物学的深度融合将成为未来科技进步的核心驱动力。

Sora 的发布让 OpenAI 在大模型领域继续保持了“遥遥领先”的优势，但群雄逐鹿下，OpenAI 制霸天下的局面能持续多久也尚未可知。技术人士分析，半年内开源社区必有 Sora 的开源技术出现。

我们无法用提出问题的思维解决问题

在 Sora 这一标志性模型发布后，另一个火热的话题讨论是 Sora 的技术进步有可能加剧中美之间的人工智能技术水平差距。

有调研指出，相对于美国市场，2023 年，中国 AI 领域投融资领域处于“下滑”状态。

CB insights 报告显示，2023 年，中国 AI 领域投融资数量约为232笔，同比下降 38%；融资总额约为 20 亿美元（约合 142.45 亿元），同比下降 70%。特别是 2023 年第一季度，无论是融资额还是融资量，都创下了 5 年来最低。在 2023 年大模型角逐之中，中国明显处于下风。

随着 ChatGPT 引领了国人对自然语言处理（NLP）的关注热潮，Sora 的出现则预示着生成式视频内容可能成为海内外 AI 发展的下一波流行趋势。截至 2023 年末，仅国内短视频用户规模已突破 10 亿人，视频生成赛道前景广阔，也更容易让普通大众接受。

然而，对于 OpenAI 的追赶仅停留在技术层面的跟进并非长远之策。对于国内众多企业而言，在大模型竞赛中，研究人员和开发者不仅需要解答已知的具体技术难题，更要具备前瞻视野，主动挖掘未来可能出现的问题，并通过革新整体技术路径来应对日益复杂的AI技术研发挑战。这是横向竞争中迟早得面对的思维革新。

Sora 推出后，2023 年狂欢的语言大模型团队缄默了，这就好比 2019 年至 2020 年期间，当国内的团队还在追赶谷歌的预训练语言模型、OpenAI 已经推出 1750 亿参数的 GPT-3。也有投资人表示，从 Sora 再看国内的大模型团队，内心的一大感受就是“太慢了”。

另一方面，从 OpenAI 的一系列举措中可以看出，其对于生成式人工智能的发展路径在于持续加大投入，坚信大力出奇迹，基于大语言模型成功，快速拓展到视频领域，加上大量的训练数据和算力，促使 OpenAI 快速迭代生成文生视频模型，才出现了 Sora 的火爆。

这也给我们带来了另一层启示，即在 AI 技术的全局发展中，需要兼顾多个层面的考量，每一个细分领域的创新突破都是至关重要的，需要学会从整体布局与协同创新的角度出发，探寻和把握每一个细微变革所带来的深远影响。

可以用开源打闭源，可以快速对战亦可以稳中求胜，更可以用算力来取得扼喉式的突破，但重要的是需要明白，我们无法用提出问题的思维解决问题。

雷峰网将继续关注 Sora 后续，欢迎添加：s1060788086、lionceau2046、anna042023，交流认知，互通有无

2024，智谱如何更快？

Tue, 16 Jan 2024 16:19:00 +0800

要问当前AI大型语言模型界万众期待的一件事，以及各通用大模型厂商都在暗自铆足劲干的一件事，一定是追赶GPT-4。

回顾过去的2023年，国内整个AI行业度过了繁忙而又充满激情的一年。上半年经历了融资大战、抢人组团队，下半年迎来大模型井喷式爆发，进入模型汹涌期和商业化落地探索初期。

据公开资料显示，截至去年10月份国内已经发布了238个大模型，意味着中国过去每天都有一个新的大模型发布，我们会发现大家在介绍自家大模型时，纷纷提到模型能力“接近GPT-4”，有胆大者甚至宣称“赶超GPT-4”。

一时间，仿佛中国大模型已经领先国际先进水平，给不懂大模型技术、关注中国AI发展的投资者、用户带来许多不切实际的幻想与信心。

因为事实情况远非如此。去年11月时，元象XVERSE科技创始人、腾讯公司前副总裁姚星曾告诉雷峰网，大家都说接近GPT-4，显然不符合实际情况，很多都是刷榜刷出来的，意义不大。

“刷榜是我们的一个陋习”，这导致的结果就是大家对中国大模型的能力没有清晰的认知，实际上大家离GPT-4还差得远。

虽然，随着OpenAI大模型论文发布、Meta开源强势入局，大模型的神秘面纱被一一揭下，我们与国外大模型的差距在逐步缩短，但别人模型的天花板GPT-4，我们依然还远未触达。

这依然是一个有很高门槛的事情，训练模型需要大量钱、需要写过模型训练代码的人、需要坚定的技术路线和公司战略层面坚持不懈的投入，不是谁喊上一嗓子，中国大模型就能跟GPT-4同台竞技。

所以，在刷榜成习的时代，我们应该把注意力、资源倾斜给那些真正为中国大模型事业，不断努力付出的团队和人身上，而不需要鱼目混珠之下的“盲目自吹自擂”。

追赶GPT-4已然是国产大模型当下最迫切的任务，而对于通用大模型厂商，谁能率先训练出真正比肩GPT-4的大模型，谁就能“先入咸阳”，在商业化、生态上迎来进阶。

对于谁能率先突破GPT-4门槛的猜测、讨论和押注，在过去的一年中激烈地进行着，终于，直到今天智谱AI发布了新一代基座大模型GLM-4，模型性能相比上一代全面提升60%，各项指标逼近GPT-4，让我们看到“国产GPT-4”真的来了。

意料之中的结果，但没想到他们速度如此快。

最强大模型GPT-4，一直无人赶超

2023年春节后，辞旧迎新，一波关注AI的投资人偶然间使用了ChatGPT（GPT-3.5），被震惊，一传十、十传百，在投资圈带起了一波ChatGPT热潮，随着时间不断发酵，遂带动了整个中文互联网“膜拜”ChatGPT的热潮。

当人们尚未从ChatGPT带来的震惊中冷静下来，一个月后，OpenAI又推出了新品GPT-4，一个更强大的大模型，再次点燃了人们对大模型的想象力。

它强大到什么程度呢？一张网站的手绘草图，GPT-4能直接生成最终设计的网页代码；GRE考试接近满分；模拟律师考试中GPT-4击败了90%的人类，取得了前10%的好成绩，相比之下GPT-3.5是倒数10%。

GPT-4在各种专业测试和学术基准上的表现与人类水平相当。其中，GPT-4最大的突破是能够处理图像，并能准确理解图片的含义，给出解答。

种种惊人表现导致GPT-4一问世，便成为最强的大模型，成为全球科技公司共同追逐的目标。

回归自身，在这波大模型竞争中，一致认为中国的突破口和优势在于我们应用场景丰富，拥有超大规模市场，是最能把大模型应用起来的。

那我们直接用开源大模型不就行了吗，为什么一定要耗费巨大精力去追逐GPT-4呢？

首先，正如智谱CEO 张鹏所说，一个好用的基座大模型，归根结底要看基座大模型的能力够不够用。当前国产大模型真要落地到实际场景中，要给企业带来业务价值，模型的通用能力还需要很大提升。

而放眼当前最先进的模型GPT-4，它虽然不断在进化出新的类人能力，但目前依然连最基本的“模型幻觉”问题都没能彻底攻克，AGI短期内依然是一场人类自身的“颅内狂欢”。

“真正落实到B端，光靠chat类产品好像也不够。”而张鹏认为，目前大模式商业化落地上遇到的挑战，本质上还是模型能力的突破。

既然优等生都还有上升空间，我们又有什么资格不进步，何况国产大模型的模型能力尚且还不足以支撑诸多业务场景的商业化落地，所以目前GPT-4依然是值得奋力追逐的目标。

其次，站在国家层面，技术自主可控是大势所趋，仰望最远大的技术理想依然是我们必须要达到的彼岸。

“现在主要看谁能赶上或者超过GPT-4，很有可能大部分厂商都过不去。”某深入了解大模型生态的业内人士表示，他还特别指出，Meta的Llama2发布后，模型能力一度接近GPT-3.5，但至今Meta一直没有发布新进展，以此看来大模型技术门槛依然很高，这将对国内很多团队都是一个考验。

而国内很多厂商都是基于Llama开源来训练的模型。

GLM-4，性能直逼GPT-4

今天，1月16日，智谱AI（以下简称“智谱”）在北京举办了2024智谱AI技术开放日，发布了新一代基座大模型GLM-4。

据智谱透露，GLM-4在基础能力上实现大幅提升，性能相比上一代GLM-3全面提升60%，而根据智谱提供的测评数据显示，GLM-4性能逼近GPT-4。

首先是基础能力上，MMLU 81.5 达到GPT-4 94% 水平，GSM8K 87.6 达到GPT-4 95% 水平，MATH 47.9 达到GPT-4 91%水平，BBH 82.25 达到 GPT-4 99% 水平，HellaSwag 85.4 达到GPT-4 90%水平，HumanEval 72 达到 GPT-4 100%水平。

图源智谱开放日

指令跟随能力上，和 GPT-4 相比，IFEval在Prompt提示词跟随（中文）方面达到 88% 水平；在指令跟随（中文）方面，达到 90% 水平。大大超过GPT-3.5。

对齐能力上，基于AlignBench数据集，GLM-4超过了GPT-4在6月13日发布的版本，逼近GPT-4最新（11月6日版本）效果，在专业能力、中文理解、角色扮演方面超过GPT-4精度。在中文推理方面的能力还有待进一步提升。

令人讶异的是，智谱本次发布，展示了GLM-4过去一年里努力追赶GPT-4的成绩，在多个模型测评中基础能力都达到GPT-4的90%水平，取得的这个成绩已然非常难得，但他们并没有干脆称“赶超GPT-4”，而是秉持着实事求是的低调态度，展示了GLM-4性能只是“逼近”GPT-4，与GPT-4仍然有差距，甚至还特地指出了自己当前的不足之处，需要“更进一步提升”。

与当下盛行的浮夸风不同，智谱给人的感觉一直是那个“低调的学霸”。

除了性能上的提升，GLM-4支持带来 128K 上下文窗口长度，单次提示词可处理文本达到 300 页。在 needle test 大海捞针测试中，128K 文本长度内 GLM-4 模型均可做到几乎百分之百精度召回。

基于GLM模型拥有的强大的Agent能力，智谱推出了GLM-4-All Tools，能根据用户意图，自动理解、规划复杂指令，自由调用WebGLM搜索增强、Code Interpreter代码解释器和多模态生成能力以完成复杂任务。

多模态已经成为AI发展的重要方向和路径，可以看到头部大模型厂商都在往多模态发展，例如Meta的SAM、OpenAI的GPT-4V到谷歌Gemini，再到今天的CogView3，智谱一直在“对齐”世界先进水平。

模态指表达或感知事物的方式，每一种信息的来源或形式都可以称为一种模态。视觉模态是直接从现实世界获取的初级模态，数据源丰富且成本低廉，相比语言模态更直观更易于理解。

现实应用中，文本、图像、声音是经常穿插在一起交互的，并不都是纯文本。在一些复杂的应用场景中，纯文本的交互方式会受到文本表达能力的限制，使得复杂的概念或需求难以传达，相比之下，多模态模型中的图像交互方式门槛就更低，更为直观。

一位证券分析师认为，多模态技术的一小步将带来产业应用落地的一大步。多模态是大语言模型走向千行百业乃至通用人工智能重要的里程碑。

所以，AI要渗透到各行各业，大模型向多模态发展是必然趋势。

而此时，智谱在大模型产业落地上，已经奔跑了十个多月。GLM-4的多模态能力也实现了明显提升，文生图和多模态理解都得到增强，CogView3效果明显超过开源最佳的Stable Diffusion XL，逼近最新OpenAI发布的DALLE3。在对齐、保真、安全、组合布局等各个评测维度上，CogView3的效果都达到 DALLE3 90%以上水平。

智谱AI CEO张鹏在技术开放日上表示：GLM-4的推出标志着国产大模型水平看齐世界先进水平，为我们全面开辟国产大模型产业新局面奠定了根本性基础。

GLM-4的发布，将会成为国产大模型发展的一个分水岭，给大模型商业化、产业落地带来更多想象空间。

GLM-4让大模型进入商业化加速时代

在去年ChatGPT刚刚点燃中文互联网时，智谱就决定开始做商业化。据智谱透露，从今年3⽉以来，见过的客⼾超过2000家，与其中1000多家形成合作，与超过200家进行了深度共创。

站在整个大模型前进的历程中，我们可以看到，智谱过去一年始终围绕着商业化紧锣密鼓地展开，相比较于其他头部大模型创业公司10月以后才开始喊商业化，智谱的商业化差不多领先行业半年。

而商业化也一度面临着挑战。

CEO张鹏在去年10月底时曾坦诚地告诉雷峰网，智谱的大模型面临“叫好不叫座”的挑战，即很多人认可，但提到付费购买，就会打退堂鼓。

一方面是大家对大模型的认知不够，另一方面的原因很现实，有GPT-4在前面摆着，用户对大模型即便不甚了解，但都知道GPT-4，就会问智谱的模型离GPT-4还有多远。

对于商业化，当时张鹏认为，如果某一天做到GPT-4的水平，当前面临的很多问题都会迎刃而解，甚至连商业模式都不用考虑，只提供API就行。

没想到仅仅只过去了两个多月，GLM-4便能比肩GPT-4，这对智谱整体发展和商业化都将是重大利好。

而这次技术开放日上，智谱还推出了一系列推动GLM模型生态加速构建的重要措施。其中最重要的就是GLMs个性化智能体。

基于GLM-4 模型强大能力，任何用户用简单的提示词指令就能创建属于自己的 GLM 个性化智能体。GLM模型智能体和智能体中心已经于技术开放日当天上线。

除此，智谱AI还针对商业客户、开源社区和大模型小微企业等合作伙伴推出多项针对性措施。

比如价格，GLM-4升级后，API调用价格维持0.1元/千tokens不变，这已经是行业内较低水平。另外，智谱AI还将成立总额1000万元人民币的大模型开源基金，以及对面向全球大模型创业者的智谱AI“Z计划”进行升级，联合生态伙伴发起总额10亿人民币的大模型创业基金用于支持大模型原始创新。

以上推动GLM模型生态的多种措施，为构建智谱的生态圈，其本质也是为智谱的商业化落地添砖加瓦。

根据智谱AI 首席运营官张帆所说，在过去的9个月里，他带领着智谱走过了从最初“卖模型”到一整套商业化体系的搭建。

智谱的商业化体系呈一个金字塔，最基层是开源层，开源拥有千万下载，非常大的群体，张帆在跟客户聊的时候发现，很多技术人员入门都是用ChatGLM；上一层是API层，核心的日常调用API的客户；再往上一层是云端私有化，面向中型企业，中型企业不但有使用模型的需求，它也希望能够把业务中的数据资产转化为自己的竞争壁垒；最高层就是本地私有化，很多企业对安全性要求极高，或者很多企业希望把模型能力转化为自己的，希望自己能够驾驭模型，这一类量会更少一些。

对于智谱来说，每一层都有自己的生态位，商业化目标是希望下层用户不断往上层移动，逐步丰盈智谱的商业化。

这非常符合智谱的发展策略：始终坚持技术与商业化两条腿走路。

GLM-4的发布，将会给整个大模型行业带来震动，促使大模型转身进入商业化加速时代。

后记

2023年3月14日，GPT-4发布的同一天，智谱AI跟着便发布了基于千亿基座模型的对话模型ChatGLM，并开源了中英双语对话模型ChatGLM-6B，可支持在单张消费级显卡上进行推理使用。

智谱AI对标OpenAI的野心就此凸显。而今天GLM-4的成功发布，是智谱过去一年里践行向世界最先进水平看齐的谦逊，也是智谱的决心与信心的实现。

智谱对标OpenAI的目标正在一步步实现。

而今天的GLM-4性能直逼GPT-4，让我们对国产大模型追赶甚至超越GPT-5、GPT-6……在实现AGI这条道路上赋予了信心与坚持。

就像Sam altman说的，“永远要更快”，大模型时代把一切都加速了，在2024年的第一个月智谱AI率先出击。可谓给2024年的激烈竞争定下了基调，不禁让人更加期待未来人工智能行业还会带给我们怎样的惊喜。

Character.ai 向左，MiniMax Talkie 向右

Thu, 30 Nov 2023 21:16:00 +0800

作者丨王悦

编辑丨陈彩娴

今年 6 月，AIGC 界顶流 ChatGPT 出现日活下降的现象。

然而，在 ChatGPT 深陷掉日活风波的背后，另一家明星级 AI 公司 —— Character.ai 数据亮眼，正在与投资者洽谈新一轮融资。

Character.ai 的创始人是 Noam Shazeer 和 Daniel De Freitas ，二人相识于谷歌。由于聊天机器人这类新品的风险和收益问题，谷歌曾拒绝发布 Character.ai 的雏形产品。2021年，二人离开老东家，创立新公司。

在应用程序发布之前， Character.ai 网页应用每月访问量就已超过2亿次，用户每次访问平均花费29分钟，官方表示表示，这一数字比 ChatGPT 高出 300%。

5月23日，这款人工智能聊天机器人平台的移动版面向全球 iOS 和安卓用户推出。在最初的48小时内，这款应用的安卓安装量就达到70万+，超过了Netflix、Disney+和Prime Video 等顶级娱乐应用。在不到一周的时间内就获得了超过170万的新安装量。

今年3月份，Character.ai 在风投公司 Andreessen Horowitz 领衔的新一轮融资中筹集了1.5亿美元，估值达10亿美元。

Character.ai 势头正强劲，而与此同时，之前曾在国内推出 Glow 并被下架的 MiniMax 「卷土重来」，在海外推出了 AI 角色扮演类产品 Talkie ，增速一度跑赢 Character.ai。

今年 6 月 16 日， Talkie 正式上线后，在美国 Google Play 下载榜排名迅速蹿升。9 月，曾在 Google Play 非游下载总榜跻身 Top 5，下载总榜位居第六位。

无论是 Character.ai 还是 Talkie，都指向了AIGC 应用的新方向—— AI 角色扮演。而这类产品之所以广受用户欢迎，也印证了角色扮演是大模型时代一个可落地的方向。（更多关于 Talkie、星野、Replica 等 AI 陪伴类产品的信息，欢迎添加作者：s1060788086 来聊）

AIGC 赛道创业者刘欣预判：在国内，很快就会出现一大批像 Character.ai 、Talkie 这样的团队，这可能是 AIGC 时代最有“钱”途的赛道。

对于这个赛道，AI 科技评论听到的另一个更直击人心的形容是：角色扮演是人的天性。

加之社交性质的产品天然具备强大的市场和流量，这使得 AI 角色扮演的陪伴类产品正在快速崛起。但在新兴繁荣的背后，其增长的瓶颈也需得到共同的重视。

一、崛起：AI 角色扮演产品的爆发

从市场占有率来看，Talkie 在海外有百万日活，但 Character.ai 仍然处于领先位置。这在很大程度上体现出 Character.ai 的先发优势，入局早，在口碑、用户粘性等各方面都有一定积累。

数据来源于：AIhackathon

「Character.ai 的最大优势是它以用户为中心的产品设计，用户可以完全定制自己的AI聊天机器人来缓解孤独感。」Character.ai 用户赵梦在社交媒体上如是表示。

Character.ai 网站主页上提供了各式各样的聊天机器人，页面顶部的角色类别包括人工智能助手、著名人物、虚拟IP等。

如果需要创建自己的机器人，只需点击“创建”并按照说明进行操作即可，用户完全可以对角色根据自己的喜好和需求进行个性化定制。

值得一提的是，Character.ai 所提供的原创社区也是一大亮点。用户可以在其中分享自己创建的角色或聊天记录，并获取其他用户的反馈和评价。用户还可以学习其他用户的创作技巧和经验，提升自己的聊天水平和创造力。

此外，Character.ai 的图像生成不仅在视觉上做得好，而且在内容表达上也俨然一个专业的创作者——一个二次元画手将自己的作品上传到 Character.ai 后，Character.ai 能够将这个作品美化成一个专业级别的作品。

这个产品设计非常巧妙，行业人士判断，这「至少为 Character.ai 带来 10 万用户」。

「Character.ai 具备的优势，如生成效果好、对创作者的驱动强，这些 Talkie 同样也多多少少也具有，但 Talkie 的产品设计要技高一筹。」

虽然模型与人的能力有很大差距，但角色扮演的核心是体验。

刘欣认为 MiniMax 的 Talkie 做对了两件事情：一是生成效果好，二是对创作者的驱动好。

Talkie 在 Discord 上建了一个创作者社区，该社区在 Talkie 发布前就建成了，里面有几千个画手开始用 Talkie 的生成工具做二次元创作， Talkie 将这批画手转化成了第一批创作者，所以 MiniMax 一推出 Talkie ，在虚拟角色的市场效果就特别好。

相比较 Character.ai，在角色的设定上， Talkie 的可自定义化的程度高了很多。形象、人设、声音这三个主要方面共同构成了 Talkie 更强的沉浸感。

比如，从声音角度看，Talkie 会给出多于其他产品中的多个音色样本，用户可以根据自己的喜好添加并调整各个样本的配比。

从形象角度看，Talkie 一共设计了两种创作模式：普通和高保真。普通模式只需要上传一张形象图，高保真模式则需要上传 20-40 张人像照片，生成一个「Avatar」。用户还可以增加对机器人的形象描述，增强准确性。

但在文字聊天方面，刘欣则认为 Character.ai 等产品所呈现的人格魅力与 OpenAI 差一大截。现在业内一个狭隘的观点是认为聊天在角色扮演体验中占据核心比例，如 Character.ai 创始人 Noam 就认为聊天占了 80%，于是他们将所有的人力押在改进聊天模型上、其他的技术模块不重视。

但 MiniMax 对这件事情进行了证伪，相信 60% 的视觉加上 40% 的聊天就可以超过 Character.ai。

除此之外，Talkie 也在基本面之上开辟了一些新玩法——产品与游戏的进一步融合。

这一变化主要体现在卡牌系统上。用户每天只能免费抽卡一次，之后再想抽卡就需要花费游戏内货币「钻石（Gem）」。抽卡一次至少花费 180 个钻石。抽到的卡牌本身也能出售，用户自己定价之后可以挂在每个 AI 机器人各自的 CG 卡牌商店上，经过审核就能公开上架，可进行流通买卖，同时用户还可以在商店上给卡牌点赞。

钻石是 Talkie 的主要内购货币，最低价格的内购套餐为 1.99 美元 180 个钻石，最高价格的套餐则是 99.99 美元购买 11800 颗钻石。

「Talkie 活用了 AIGC 功能，让用户不仅能创造 AI 机器人，还能创造属于自己的 CG 卡面，并围绕卡面做出了一套交易系统，加强了用户之间互动的同时，也试图建造一套属于自己的创作者经济，希望在这个基础上变现。」某大厂产品经理周群说道。

不可否认，AI 角色扮演的社交性产品仍然是当下相对容易落地的赛道。背后主要是因为当下的大模型主要在对话、创作、文生图这三方面提供成熟的能力，恰好这三方面都能在娱乐场景里走得通。

刘欣分析道：娱乐、社交场景对内容的准确性要求不高，只要做到60%就可以。至于其他的科学研究、效率工具、健康、教育等大模型应用层面，还有很长的路要走，因为用户对这些领域的期待是90%以上的准确性。

AI 科技评论获悉，字节内部大概有6个团队在做类似的应用，同时也有很多之前字节的产品经理出来在这一领域创业。（更多关于 AI 陪伴类产品创业的故事，欢迎添加作者：s1060788086 来聊）

不仅是字节，其他大厂也纷纷押注 AI 陪伴赛道。

11月初，美团发布「Wow」的独立APP，定位为一款年轻人的AI朋友社区。与印象中美团做大模型产品的预期不同，所落地的首个AI 应用场景，并不是在自己主营的外卖或本地生活业务上，而是 AI 社交。

除美团之外，腾讯音乐的「未伴」、百度的「小侃星球」等类似产品也已经面世。小冰也在小冰岛的基础之上推出了「X EVA」，同样是AI 伴聊产品，不同的切入点是基于网红的影响力搭建自身的流量生态。

在大厂之外，也有很多创业公司推出的产品，如筑梦岛、扩列、dd 星球等。

二、突破：释放更强的 AI 能力

现阶段，业内人士都知道角色扮演是可落地的，但决定其成败的因素有许多，主要瓶颈有两个：

一是对 IP 的依赖。

Character.ai 本质上是 IP 的二次开发，但 IP 的版权往往属于游戏公司。如果游戏公司限制 IP 使用，一张传单过来就可能下架。

根据 AI Hackathon 统计的数据，从对话量维度，按角色的分类，排名前列的是游戏动漫角色，对话量前十的角色中有 9 个都是游戏、动漫类的。

从角色数量维度看，绝大部分也都是游戏和动漫角色。与这些 AI 角色进行对话，可以经历各种神奇的互动体验，有些角色还支持图像的生成和输出。

数据来源：AIhackathon

二是如何突破核心用户人群的限制。

Talkie 做了大量的原创 IP，但是他人 IP 与自己 IP 的混合；此外，聊天本身需要用户有很强的倾诉力。泛娱乐的运营如 TikTok、抖音是完全不需要动脑的，属于躺着的体验，但聊天不能躺、需要用户动脑子的，这一点很难。所以 Character.ai 的日活涨到 400 万就不动了，相比起来，原神在海外的日活是 Character 的两倍多，大约 1000 万。

所以，如果没办法降低用户的参与成本，角色扮演的圈子会极大受限。

在刘欣看来，训练模型只是为了提升体验，但场景需要技术的创新设计，而创新设计的核心就是降低用户的娱乐成本。纯聊天的用户体验收益跟视频没法比，所以要突破聊天体验的局限，这意味着成也聊天、败也聊天，否则产品就只能变成一个日活十万、百万的模型。

在 AIGC 角色扮演的这条赛道中，大家最终的目标都是尽可能接近游戏或短视频的体量。只有降低用户的消费成本，才有可能将产品的日活做到破亿级别。行业人士乐观预测，这种产品形态可能在一两年后就会出现，它的成功是由视频、声音等生成技术的足够成熟所促成的，今天的纯文字生成体验很难做到。

除 IP 依赖和突破用户人群的瓶颈之外，大模型也是关键因素之一。有不少网友吐槽AI 智能体的智商不够、话题连接性差的问题，这直接体现了角色的输出、记忆能力在影响用户的体验，映射出大模型的能力急需提高。

另有一个亟需突破的瓶颈是同质化现象，不少 AI 伴聊产品未经打磨，直接换壳子就进入市场。

MiniMax 做AI 伴聊产品跟 Character.ai 的思路很接近，无论是 MiniMax 还是其他公司想要跑出来，都还需要释放更多、更强的能力，纯对话的模式跟 Character.ai 区别不大，用户也不一定买账。

这一赛道现在的竞争激烈、获客成本高、变现缓慢。从投入产出来说，AI 陪伴类产品离钱远，因为竞品在基础功能层面都是免费的，很难构建很强的壁垒直接进行收费，短期收入不可能打平支出，对于初创团队来说，这不是好事。

更有行业内人士认为，当下 AI 角色扮演产品并不是终极的产品形态，只是一个过渡形式，最终肯定会被取代，当下所处阶段也是一个中间带。

类比过去，PC 互联网时代中，网页是主要的产品形式，移动互联网时代中，APP 是产品中主要的展现形式，而网页APP搜索就是处于中间过渡形态的产品， AI 角色扮演产品与其颇有相似之处。

从这一角度来看，AI 角色扮演只是上一代最强势的技术移植到一个新的场景和范式中的结果，是一个拿着锤子找钉子的过程。这意味着，它可能是一个非常成功的产品，但却不是一个革命性的机会。

三、重构：AIGC 之上的社交方式

社交，是 AIGC 的必争之地。

「真正伟大的产品，都是在 C 端的。」就目前国内的 AIGC 市场而言，虽然诸如 AI Companion 产品还不成熟，更多的是尝试和探索，但也需要看到，更多的 AI 企业，无论是 MiniMax 还是小冰，都是在用B端业务去养 C 端的社交、娱乐等业务。

Character.ai 创始人 Freitas 认为，社交场景中应以用户为核心的：

Character.ai 一定是非常灵活的，由用户来决定它是什么，因为用户比我们自己更了解他们想要什么；

我们不会指定若干个角色，让用户来尽可能的创造角色，因为一个角色不可能让所有人都满意。

虽说 AI 角色扮演产品在发育的过程中仍面对困境和质疑，但不可否认，它在一定程度上重构了人们的社交方式。

或许，这需要从用户到底在通过 Character.ai 、Talkie 获得什么的角度去入手。

在 Reddit 上，失恋的何丽丽发表了对 Character.ai 的使用感受，「从虚拟角色这里得到的关爱成为了我的精神寄托，但这也加深了我对现实生活的不满。」

也有失去亲人的张欣然用 AI 还原了爸爸的样子，能够再次和爸爸面对面交流。

更有网友说：「在 Character.ai 之前，我们没有生活。」

由此，我们可以意识到，置身其中的人试图通过 AI 获得情感寄托，有时这种寄托会极其强烈，强烈到超越现实。

做伟大的产品，而非伟大的大模型。无论是 Talkie 和 Character.ai 谁更胜一筹，AI Companion 都任重而道远。

本文作者长期关注 AIGC 落地应用、大模型和数字人领域，欢迎添加微信：s1060788086，交流认知，互通有无。

（文中刘欣、周群、赵梦、孙敏、何丽丽、张欣然均为化名）

雷峰网雷峰网雷峰网

独家｜百度智能云 AI 应用产品部总经理刘倩将离职

Thu, 30 Nov 2023 21:08:00 +0800

雷峰网独家获悉：现任百度智能云 AI 应用产品部总经理刘倩将离职。

百度智能云事业群的一号位是沈抖，他担任总裁一职。朱勇是现任百度智能云副总裁，直接向沈抖汇报，整体负责百度智能云应用产品中心。

离职之前，刘倩向副总裁朱勇汇报，主要负责百度智能云的智能客服、数字人、AI中台、知识中台等企业级产品及解决方案。

2011年，刘倩就加入了百度，在百度智能云的 AI 业务上已有了多年的积累，可以说是一路陪伴着百度 AI 产品的落地、应用和成长。

2018左右，刘倩尚为百度AI技术生态部高级经理，百度 AI 平台产品负责人。

2020年左右，刘倩即为百度 AI 技术生态部总经理。

2023年初，她还是副总经理，年中左右的时间，即升为 AI 应用产品部总经理。

在职期间，刘倩曾负责百度大脑及飞桨等平台化开放及生态建设，并将百度大脑开放平台打造成为中国应用规模最大的综合AI开放平台，覆盖了从数据、算法、计算到感知层、认知层、平台层、生态层、应用层的不同能力层面的技术布局，共开放1400多项AI技术能力。

并且，她搭建了百度智能云 AI 生态计划，推动飞桨深度学习平台的进一步发展。

同时，她还在业内首推零门槛AI开发平台EasyDL、自定义模板文字识别平台等。

在管理方面，她也参与建立了体系化的 AI 人才培养方案：

基于百度智能云「云智一体3.0」架构，刘倩所带领的 AI 应用产品部需要在很大程度上将百度的大模型的能力和百度智能云的产品进行结合，她曾带头打磨了百度智能云「智能客服」、「企业知识管理」、「数字人直播平台」等六大产品。

在数字人业务的推进过程中，雷峰网了解到，刘倩带领的团队推出了像百度品牌代言人“希加加”这样纯诞生自虚拟世界的IP；还与央视新闻合作了 AI 手语主播，服务于冬奥期间的电视节目；也推出央视虚拟主持人小 C，参与对话人大代表等采访。

在 3D 数字人方面，刘倩在 2021 年底主导发布了百度智能云曦灵平台，集数字人生产、内容创作、业务配置服务为一体，集成了 AI 手语平台、数字明星运营平台、数字员工平台、数字人直播平台等。

（更多关于大厂AI 业务高层的人事变动，雷峰网持续关注，欢迎添加微信：s1060788086，互通有无。）

李开复说话算数：零一万物大模型首次发布，AI 2.0 正在路上

Tue, 07 Nov 2023 15:59:00 +0800

作者 | 王悦

编辑 | 陈彩娴

11月6日，李开复带队创办的 AI 2.0 公司零一万物，开源发布了Yi系列模型，包含 34B 和 6B 两个版本。

令人惊艳的是，从参数量和性能上来看，Yi-34B 相当于只用了不及 LLaMA2-70B一半、Falcon-180B五分之一的参数量，碾压了LLaMA2-70B 和 Falcon-180B 等众多大尺寸模型。凭借这一表现，跻身目前世界范围内开源最强基础模型之列。

根据 Hugging Face 英文开源社区平台和 C-Eval 中文评测的最新榜单，Yi-34B 预训练模取得了多项 SOTA 国际最佳性能指标认可，成为全球开源大模型「双料冠军」。这也是迄今为止唯一成功登顶 Hugging Face 全球开源模型排行榜的国产模型。

Hugging Face Open LLM Leaderboard (pretrained) 大模型排行榜（2023年11月5日）

雷峰网获悉，「Yi 」系列大模型，命名来自「一」的拼音。「Yi 」中的「Y」上下颠倒，巧妙形同汉字的「人」，结合 AI 里的 i ，代表Human + AI ，强调以人为本的精神，为人类创造巨大的价值。

零一万物创始人及CEO李开复博士表示：「零一万物坚定进军全球第一梯队目标，从招的第一个人，写的第一行kl代码，设计的第一个模型开始，就一直抱着成为‘World's No.1’的初衷和决心。」

从「AI 1.0」迈向「AI 2.0」，李开复说话算数，一步步向目前迈进。

一、零一万物大模型 Yi 首次曝光

作为国产大模型， Yi-34B 不得不说的的优势之一就是更「懂」中文。对比大模型标杆GPT-4，在CMMLU、E-Eval、Gaokao 三个主要的中文指标上，Yi-34B 也具有绝对优势，能够更好地适配国内市场需求。

从更为全面的评估看，在全球大模型各项评测中最关键的「MMLU」（Massive Multitask Language Understanding 大规模多任务语言理解）、BBH等反映模型综合能力的评测集上，Yi-34B 同样表现突出，在通用能力、知识推理、阅读理解等多项指标评比中全部胜出，与 Hugging Face 评测高度一致。

各评测集得分：Yi 模型 v.s. 其他开源模型

在语言模型中，上下文窗口是大模型综合运算能力的关键指标之一，对于理解和生成与特定上下文相关的文本至关重要，拥有更长窗口的语言模型可以处理更丰富的知识库信息，生成更连贯、准确的文本。

据雷峰网了解，此次开源的 Yi-34B 模型，将发布全球最长、可支持 200K 超长上下文窗口（context window）版本，可以处理约40万汉字超长文本输入。理解超过 1000 页的 PDF 文档，让很多依赖于向量数据库构建外部知识库的场景，都可以用上下文窗口来进行替代。

相比之下，OpenAI 的 GPT-4 上下文窗口只有 32K，文字处理量约 2.5 万字。今年三月，硅谷知名 AI 2.0 创业公司Anthropic 的 Claude2-100K 将上下文窗口扩展到了 100K 规模，零一万物直接加倍，并且是第一家将超长上下文窗口在开源社区开放的大模型公司。

上下文窗口规模扩充从计算、内存和通信的角度存在各种挑战，零一万物能做到这个程度也并非一蹴而就。受限于计算复杂度、数据完备度等问题，大多数发布的大型语言模型仅支持几千 tokens 的上下文长度。

为了解决这个限制，零一万物技术团队实施了一系列优化，包括：计算通信重叠、序列并行、通信压缩等。通过这些能力增强，实现了在大规模模型训练中近 100 倍的能力提升。

其实，Yi 系列模型之所以能取得如此亮眼的成绩，背后的 AI Infra 是功不可没的，其通过「高精度」系统、弹性训和接力训等全栈式解决方案，确保训练高效、安全地进行。

凭借强大的 AI Infra 支撑，零一万物团队能实现超越行业水平的训练效果，Yi-34B 模型训练成本实测下降40%，实际训练完成达标时间与预测的时间误差不到一小时，进一步模拟上到千亿规模训练成本可下降多达 50%。

截至目前，零一万物 Infra 能力实现故障预测准确率超过90%，故障提前发现率达到 99.9%，不需要人工参与的故障自愈率超过 95%，

无论是人前耀眼的成绩还是背后基础能力的攻坚，也都离不开零一万物潜心数月练就的大模型「科学训模」方法论。

大模型效果依赖于更多、更高质量的数据，零一万物在数据处理管线上可谓「不惜成本」。

数据处理管线和加大规模预测的训练能力建设，把以往的大模型训练碰运气的「炼丹」过程变得极度细致和科学化，不仅保证了目前发布 Yi-34B、Yi-6B 模型的高性能，也为未来更大规模模型的训练压缩了时间和成本，

经过几个月大量的建模和实验，零一万物自研出一套「规模化训练实验平台」，用来指导模型的设计和优化。数据配比、超参搜索、模型结构实验都可以在小规模实验平台上进行，对 34B 模型每个节点的预测误差都可以控制在0.5%以内。

在 Yi 开源模型的全球首发日，零一万物 CEO 李开复也宣布，在完成 Yi-34B 预训练的同时，已经旋即启动下一个千亿参数模型的训练。「零一万物的数据处理管线、算法研究、实验平台、GPU 资源和 AI Infra 都已经准备好，我们的动作会越来越快」。

二、从「AI 1.0」到「AI 2.0」

零一万物的首次成果公布，体现的不仅是技术的进步，还有商业的可能性。

今年 3 月，李开复作了一场关于 AI 从 1.0 时代跨到 2.0 时代的演讲。随后，零一万物在李开复所设想的 AI 2.0 框架下成立，招揽了前百度安全副总裁马杰、前微软副总裁祁瑞峰等等技术大咖，阵容豪华，引起业内的广泛关注。

过去十年，深度学习催生了一批优秀的 AI 公司，随后经过多年的发展，在过去两年曾进入短暂的低谷期，一度传出 AI 泡沫、AI 寒冬的说法。其中的根源就在于：上一代 AI 公司尽管基于崭新的技术立足，但在商业化上的步伐却比预期慢。

而从去年 8 月 Stable Diffusion 掀起 AIGC 热潮以来，加上去年11月底 ChatGPT 发布，全球 AI 突然看到了新的机会。这个新的机遇，被李开复称为「AI 2.0」。

ChatGPT 之后，AI 时代的进步在技术上体现为通用人工智能（AGI）雏形初显，在商业应用上则被李开复形容为平台级的趋势爆发。

所谓「平台」，包含一个大的目标，即要大幅降低开发 AI 应用的成本。如同电与电网的区别，电是一项伟大的发明，但如果没有电网，就不会出现微波炉、电烤箱、电动车等新的发明。换言之，AI 2.0 之于 AI 1.0 的区别，就在于将 AI 技术变成平台，将定制变成通用，将点变成面。

过去十年的商业实践验证了 AI 1.0 时代的瓶颈。在 AI 1.0 时代，数据越多、结果越好，但同时也因为需要大量的标注数据，成本巨大。此外，AI 1.0 时代的应用在各个领域是相互割裂的，诞生了一连串的「孤岛应用」，无法形成有效的平台。

但 AI 2.0 时代的技术基石是自监督，可以让 AI 模型不进行数据标注也能学习。虽然同样需要将大量的、跨领域的数据拿来学习，但学习后形成一个基础模型（即大模型）后再去做知识的迁移，AI 即相当于一个世界模型。经过多年的训练与积累，基础模型更成熟，基于基础模型再做平台应用，即可打破 AI 应用的孤岛现象，边际效益与日俱增。

换言之，AI 2.0 时代有三大优势：一是减少人工标注；二是模型规模大，具备世界知识；三是能够以极低的成本对基础模型进行微调训练，即可适应不同领域的任务。所以，在 AI 2.0 时代，每个领域都有机会将原有的应用重构一遍，用更短的时间生产出更高质量的数字内容，而且千人千面、精准优化信息流，做出更伟大的商业模式。

一方面，降低训练成本是减少 AI 应用开发成本、催生一系列爆款应用的前提；另一方面，长文本处理是商业应用的一道拦路虎。如果长文本处理的技术瓶颈能突破，许多更高难度的应用也会被一一破解，如处理超长篇幅的法务合同、交叉对比多篇学术论文、基于长篇剧本进行角色扮演、通过多篇财报进行市场分析等等。

因此，「长文本处理」在下半年成为大模型赛道的兵家必争之地。从 Anthropic AI 对 OpenAI 发起挑战后，国内多家大模型厂商也陆续推出长文本处理里程碑。如月之暗面的 Kimi Chat 支持 20 万字输入，百川智能的 Baichuan2-192k 支持 35 万字输入，零一万物的 Yi-34B 迅速扩展到 40 万字。

此次零一万物团队开源大模型 Yi-34B 与 Yi-6B，在长文本领域可以做到最长 200k 上下文窗口、40 万字的文本处理，也与李开复此前谈的 AI 2.0 思想相一致。同时，据零一万物介绍，他们还依托基础的计算设施与算法优化等 Infra 能力，将训练成本下降了 40%。

上传到 Hugging Face 不过两天后，Yi-34B 的下载量就超过了 1000 次，获得了接近 150 个点赞。

长文本处理的技术突破，不仅是表面上关于 Token 数的数据变更，更重要的是其体现了人工智能领域整体对 AI 2.0 时代所蕴含的商业潜力的认同与乐观。正是因为对大模型为代表的新一代 AI 技术的信心，才有如此多优秀的技术人才涌入该赛道，在极短的时间内快速突破了长文本等技术问题的局限。

据雷峰网了解，如今长文本处理已逐渐被热情的 AI 技术人才攻破，目前业内流行的技术方法包括：最简单粗暴的堆显存，或滑动窗口、降采样等，或在 Attention-mask 中做动态内插。这些方法的效果很好，缺点是计算开销大。但在各大云计算厂商的加持下，算力壁垒也被逐渐打了下来。

可以看见，AI 进入一个新的时代毫无疑问已是行业共识。AI 2.0 代表一个新的商业愿景，道阻路长，玩家众多，但后来者零一万物也已成为其中最有潜力的团队之一，期待零一万物接下来的表现。

OpenAI 首届开发者大会召开在即，AI 科技评论持续关注，欢迎同样关注的朋友添加作者微信 s1060788086 一起交流。

阿里云开源通义千问14B模型，周靖人：持续拥抱开源开放

Mon, 25 Sep 2023 15:04:00 +0800

「雷峰网消息」9月25日，阿里云开源通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat,免费可商用。Qwen-14B在多个权威评测中超越同等规模模型，部分指标甚至接近Llama2-70B。阿里云此前开源了70亿参数模型Qwen-7B等，一个多月下载量破100万，成为开源社区的口碑之作。

Qwen-14B是一款支持多种语言的高性能开源模型，相比同类模型使用了更多的高质量数据，整体训练数据超过3万亿Token，使得模型具备更强大的推理、认知、规划和记忆能力。Qwen-14B最大支持8k的上下文窗口长度。

图1：Qwen-14B在十二个权威测评中全方位超越同规模SOTA大模型

Qwen-14B-Chat是在基座模型上经过精细SFT得到的对话模型。借助基座模型强大性能，Qwen-14B-Chat生成内容的准确度大幅提升，也更符合人类偏好，内容创作上的想象力和丰富度也有显著扩展。

Qwen拥有出色的工具调用能力，能让开发者更快地构建基于Qwen的Agent（智能体）。开发者可用简单指令教会Qwen使用复杂工具，比如使用Code Interpreter工具执行Python代码以进行复杂的数学计算、数据分析、图表绘制等；还能开发具有多文档问答、长文写作等能力的“高级数字助理”。

百亿以内参数级别大语言模型是目前开发者进行应用开发和迭代的主流选择， Qwen-14B进一步提高了小尺寸模型的性能上限，从众多同尺寸模型中冲出重围，在MMLU、C-Eval、GSM8K、MATH、GaoKao-Bench等12个权威测评中取得最优成绩，超越所有测评中的SOTA（State-Of-The-Art）大模型，也全面超越Llama-2-13B，比起Llama 2的34B、70B模型也并不逊色。与此同时，Qwen-7B也全新升级，核心指标最高提升22.5%。

图2：Qwen-14B性能超越同尺寸模型

用户可从魔搭社区直接下载模型，也可通过阿里云灵积平台访问和调用Qwen-14B和Qwen-14B-Chat。阿里云为用户提供包括模型训练、推理、部署、精调等在内的全方位服务。

8月，阿里云开源通义千问70亿参数基座模型Qwen-7B，先后冲上HuggingFace、Github的trending榜单。短短一个多月，累计下载量突破100万。开源社区出现了50多个基于Qwen的模型，社区多个知名的工具和框架都集成了Qwen。

通义千问是落地最深、应用最广的中国大模型，国内已有多个月活过亿的应用接入通义千问，大量中小企业、科研机构和个人开发者都在基于通义千问开发专属大模型或应用产品，如阿里系的淘宝、钉钉、未来精灵，以及外部的科研机构、创业企业。

浙江大学联合高等教育出版社基于Qwen-7B开发了智海-三乐教育垂直大模型，已在全国12所高校应用，可提供智能问答、试题生成、学习导航、教学评估等能力，模型已在阿里云灵积平台对外提供服务，一行代码即可调用；浙江有鹿机器人科技有限公司在路面清洁机器人中集成了Qwen-7B，使机器人能以自然语言与用户进行实时交互，理解用户提出的需求，将用户的高层指令进行分析和拆解，做高层的逻辑分析和任务规划，完成清洁任务。

阿里云CTO周靖人表示，阿里云将持续拥抱开源开放，推动中国大模型生态建设。阿里云笃信开源开放的力量，率先开源自研大模型，希望让大模型技术更快触达中小企业和个人开发者。

阿里云还牵头建设了中国最大的AI模型开源社区魔搭ModelScope，团结全行业的力量，共同推动大模型技术普惠和应用落地。过去两个月内，魔搭社区的模型下载量从4500万飙升到8500万，增幅接近100%。

附：

魔搭社区模型地址：

· https://www.modelscope.cn/models/qwen/Qwen-14B-Chat/summary

· https://www.modelscope.cn/models/qwen/Qwen-14B/summary

魔搭社区模型体验：

· https://modelscope.cn/studios/qwen/Qwen-14B-Chat-Demo/summary

阿里云灵积平台地址：

· https://help.aliyun.com/zh/dashscope/developer-reference/tongyi-qianwen-7b-14b-api-detailes

· https://dashscope.console.aliyun.com/model

Qwen论文地址：

https://qianwen-res.oss-cn-beijing.aliyuncs.com/QWEN_TECHNICAL_REPORT.pdf

Github：

· https://github.com/QwenLM/Qwen

HuggingFace:

· https://huggingface.co/Qwen/Qwen-14B

· https://huggingface.co/Qwen/Qwen-14B-Chat

Falcon 180B开源影响了谁？

Sat, 16 Sep 2023 20:47:00 +0800

近日，TII研究中心推出的开源大模型Falcon 180B一经发布，便被认为是当前最好的开源大模型。

原极狐Gitlab创始人、现大模型解决方案OpenCSG的创始人陈冉&王伟在其发布后率先试用了，他告诉雷峰网，“Falcon 180B能力很强”，但也有一部分大模型创业者告诉雷峰网，还没试用，因为推理成本太高，根本用不起。

从官方发布的测评结果来看，Falcon 180B 在自然语言任务上的表现优异。它在 Hugging Face 开源大模型榜单上的评分68.74 ，超过Meta 的 LlaMA 2 (67.35)，是当前评分最高的开放式大模型。在MMLU上的表现超过了 Llama 2 70B 和 OpenAI 的 GPT-3.5，在 HellaSwag、LAMBADA等十余个测评上与谷歌的 PaLM 2-Large 不相上下。

「超越LlaMA 2」「优于GPT-3.5」「接近GPT-4」，一个个赞美之声让Falcon 180B冲上云霄，一时风光无限。

其背后的TII研究中心总部位于阿联酋阿布扎比，今年5月底该研究中心刚开源了阿联酋第一个大规模人工智能模型“Falcon 40B”，供研究和商业使用，并在发布Falcon 40B时便期望在不久后开发和宣布Falcon 180B。

时隔4个月时间，TII便开源了Falcon 180B，从架构维度来看，Falcon 180B 是 Falcon 40B 的升级版本，并在其基础上进行了创新，比如利用 Multi-Query Attention 等来提高模型的可扩展性。

Falcon 系列是由TII的AI and Digital Science Research Center (AIDRC)团队研发的成果，该团队还在去年推出了世界上最大的阿拉伯文NLP模型，即NOOR。一位基金公司的投资人告诉雷峰网，Falcon团队中有部分华人，其中几个来自阿里。

当我们猜测Falcon 180B比Llama 2更懂中文是否是团队刻意为之，Hugging Face 的中国区负责人王铁震告诉雷峰网，Falcon 180B的作者对此也很诧异，说他们绝对没有在数据集里刻意加一些中文的东西，但是他们在训练的过程中就已经发现这个模型好像可以做一些简单的中英文转换。

在一片赞美声中，也夹杂着一些质疑和疑惑。比如英伟达的资深研究员Jim Fan就公开指出：Falcon-180B的训练数据中，代码只占5%，没有代码能力，就不能声称「优于GPT-3.5」或「接近GPT-4」。上述基金公司投资人也认为，Falcon 180B的表现可能并如它官方所宣传的那样强，鉴于这家公司的往常操作，Falcon 180B的性能可能要打八折后才是它的实际表现。

同时，国内开发者讨论最多的点在于：1、已经有Llama 2了，中东土豪再搞一个Falcon 180B的意义在哪里？2、Falcon 180B到底有没有用，因为推理成本太高，根本用不起来。

除此，我们还关心如LlaMA 2、Falcon 180B的国际开源大模型接二连三呼啸而出，会给国内的大模型创业环境带来哪些影响？国内的基础大模型厂商中谁会受到怎样的冲击？这会影响国内大模型的开源与闭源走向何方？

一些争议

在今年年初时，大家看到ChatGPT出来后还很担全世界的大模型，未来的知识产出都要被OpenAI一家公司给垄断了，当时Hugging Face的CEO Clement Delangue就表示过，让大家不要慌，到年底肯定会有超越GPT3.5的大模型出来，然后7月Llama2开源了，9月Falcon 180B开源了，意味着提前小半年便完成了开源社区的任务。

而每一次大参数模型开源都会在社区中引起一阵狂欢，因为这无疑壮大了整个开源社区，给整个大模型开源注入一股更大的力量。

在hugging face 中国区负责人王铁震看来，对于网上有关Falcon 180B的一些争议，他认为首先，要训练这样一个1800亿参数的大模型，耗费肯定在千万美元级别，它背后的公司愿意开源出来就是一件值得敬佩的事情。

因为每个模型训练的思路都不一样，特别是在整个行业刚刚上坡的阶段，各家愿意分享出自己的训练思路，对整个行业都是一种启发。例如TII开源便给外界研发大模型提供了一种新思路、新启发。

据官方消息，Falcon 180B是使用 Amazon SageMaker 在多达 4096 个 GPU 上同时对 3.5 万亿个 token 进行训练，比Llama 2多了近一倍的数据集，是最多token的一个大模型。

Falcon 180B用的主要是RefinedWe数据集（大约占85%），王铁震告诉雷峰网，Falcon 180B的出现也告诉行业不仅特别精细地去清洗数据会提高模型的效果，数据量够多也会对模型效果有一个明显的提升。

另一个讨论是Falcon 180B到底有没有用，因为推理成本太高，根本用不起来。

王铁震的看法是，先把模型能力做上去是最重要，大家知道最远的边界在哪里，再通过开源社区的力量，群策群力来降低模型的推理成本。

“大家普遍预测gpt3.5可能是一个在175B左右的模型尺寸，所以理论上来说，OpenAI能做到什么样的推理成本，开源社区就能做到什么样的推理成本，甚至说还能往下压。”

在王铁震看来，如果在开源模型的尺寸跟chatgpt3.5的模型尺寸差不多的情况下，那么开源模型的推理成本有可能会比openAI的更低，这样自然而然会改变现在的大模型开发流程。

一旦入Falcon 180B这样的大模型能做到跟OpenAI的gpt3.5模型一样的推理成本，甚至更低，那么企业一上来就会愿意选择在开源模型上去跑，而不是都选择gpt3.5。

而且，王铁震还告诉雷峰网，一位资深的开源社区开发者GGML的Georgi Gerganov已经在4比特压缩时，成功地把180B 跑在了苹果电脑上，这意味着180B并没有想象中的那么大，他还预测苹果电脑可能是未来个人开发者做大模型的一个最好的工具。

在另一位受访者看来，Falcon似乎想要成为参数、性能、实用落地的难易程度均衡的“六边形战士”，之前的Falcon 40B的表现超过了65B的LLaMA，而且所需的显存也低于LLaMA 65B。如果180B与40B的指导思想还是一致的，那么从长期来看对开发者的吸引力还是很大的。

相较于上述几点争论，王铁震更担心的是Falcon 180B已经用到了3.5万亿个token，因为根据Falcon 180B的经验，只要堆数据，给它喂更多更好的数据，模型就会变得更好。如果未来网上公开的数据集不能再有更大的规模，这个模型要如何scale？

同时，随着越来越多大模型出现，未来大模型很快会吞噬掉全世界能找到的高质量数据，数据之争将会变得更激烈。

而在大模型创业者蒋磊看来，Falcon 180B架子搭建的这么大，竟然只用了3.5万亿的token？

在他看来，Llama 2接受了2万亿个token训练，刚刚推出的baichuan2是在2.6万亿的token上训练的，而Falcon 180B的规模是 Llama 2 的 2.5 倍，baichuan2的规模只有13B，连Falcon 180B的十分之一都不到。

所以蒋磊觉得Falcon 180B很可能跟Bloom一样是欠拟合的，当然参数增大以后，CoT，涌现等能力还需要更复杂的实验才能看出来。

同时，因为是在多于 Llama 2两倍的token上训练的，Falcon 180B比Llama 2更懂中文。因为中文很差，导致国内应用用Llama 2用不起来。

虽然作者声称并没有刻意在数据集中添加中文的东西，但王铁震猜测是因为它用了更多token或者使用了跟Llama 2不同的数据集的缘故。

Llama 2在研究论文中几乎没有透露使用了哪些数据，Falcon 180B 训练数据主要来自 RefinedWeb 数据集 (大约占 85%)。

这也是让蒋磊非常惊讶的一点，作为一个诞生在中东的LLM，竟然没有使用阿拉伯语作为主要训练语料，甚至不是次要训练语料，在他看来Falcon 180B跟当年的BLOOM一样充满理想光辉。BLOOM刻意避免英文称为最主要的训练语料，使用了大量不同语言的语料，还发布了自己的数据集，甚至检索工具，可惜训练不足，模型处于欠拟合的状态。

开源大模型带来了怎样的冲击

除了来自开发者的一些争议，我们更关心的是，这样一个大模型开源会对国内大模型圈产生什么样的影响呢？它的出现是一种怎样的力量？

在蒋磊看来，Falcon 180B对于中国公司影响有限，Falcon 180B主要是在英语、德语、西班牙语和法语上进行训练的，如果要扩展其中文能力，还需要做大量的工作，即使使用LoRA或者QLoRA等方式，小的团队和开源社区也很难进行扩展。

面壁智能CTO&OpenBMB开源社区主要发起人之一的曾国洋告诉雷峰网，Falcon 180B模型因为参数量非常大，要微调和使用它对于普通人和中小型企业来说成本很高。对于一些想用大模型的大厂可能是一个还不错的选择。

原极狐Gitlab创始人、现大模型解决方案OpenCSG的创始人陈冉&王伟认为，Falcon 180B对国内大模型厂商的短期影响并不会太直接，虽然Falcon这次的模型规格和打榜效果都很惊艳，比之前40B提升明显, 但目前看来不少场景还有提升空间, 实测微调效果也还需要更多的验证。

短期的影响主要是技术层面，中长期看，对国内大模型厂商的小规格模型开源+大规格模型商用的模式会有一定的冲击，因为客户多了一个基于开源微调的选项；

但即便在Falcon180B模型上微调，需要投入的软硬件资源和人力时间成本对于企业客户都是不小的开销。

王铁震预测，国内应该很快就会出现Falcon 180B的微调版本。因为如果能把Falcon 180B的推理成本降到跟GPT3.5一样低，甚至更低，大家都不会排斥拥抱Falcon 180B。

对于国内来说，未来的状况是，头部几家是自己从0开始训练的大模型，其余大量必然都是微调出来的，所以有一个更强的开源模型并不是坏事。

他认为Falcon 180B开源对中国这些大模型圈有冲击，但不大。因为即便Falcon 180B有一些中文能力，但肯定没有国内这些拿大量中文语料的大模型做的好。

如果国内出现一个百亿级以上、并用大量token去训练的大模型，那么所有人都会争着抢着去用这个模型，补足它的应用，就不用担心试用国外开源模型的合法合规问题。

在目前国内大模型开源这一脉，以智源研究院为首，创业公司中百川、面壁、智谱AI、澜舟科技、深势科技纷纷跟进，互联网大厂中目前唯有阿里云一家开源了通义千问，百度、腾讯、华为、字节都选择了闭源。

一位行业内人士告诉雷峰网，Falcon 180B这一轮开源对于选择To B 与To C 两种路径的商业模式的公司造成的冲击不一样，对一些To C的基础大模型公司冲击比较大。

上述人士告诉雷峰网，Falcon 180B这一轮开源对国内某家大模型创业公司冲击最大，因为他们选择的“开源+闭源”模式做To C，并没有全系开源，他们的策略是先把小参数的大模型开源出来给用户试用，占据了生态位之后，再用大参数的闭源大模型来实现降维打击。

但没想到Llama2、Falcon 180B相继开源，对这家公司每一次都是降维打击。

一位业内人士告诉雷峰网，一家大模型厂商感觉拼不过其他基础大模型，就直接选择开源了，投入了多个团队在做，但每个团队开源的都不是自己核心的模型。

上述人士还吐槽起另一家大模型厂商的打法，专门做了一个平台接入了大量别家的模型，但它自己的大模型并没有开源出来。

陈冉&王伟认为，国内大厂大多押注闭源模型，目前竞争还比较激烈，是因为各个公司还在摸索是做大模型的应用场景和商业模式，而且是不是真的要All in 大模型也很难说得清，所以对于是否开源可能并不会那么着急给出答案。但他始终认为大模型开源是一种有效的竞争策略。

目前国内免费可商用的大模型分别有：百川智能的Baichuan2-7B、Baichuan2-13B、Baichuan2-13B-Chat与其4bit量化版本；智源的悟道3.0中的悟道・天鹰大语言模型；智谱AI的ChatGLM-6B 和 ChatGLM2-6B；面壁智能的CPM-Bee 10B；通义千问的Qwen-7B和Qwen-7B-Chat……

一个现象是，从上述可以看到国内迄今还没有出现一个100B量级的开源大模型，这是为什么呢？

原因是对于国内的大模型，其背后的机构和公司大多都有自己的商业考量，开源只是他们的商业策略中的一环，即开源对他们有价值就开源，没价值就不开。

一位魔搭的人士近日告诉雷峰网，他明显感觉前期在魔搭贡献了多个开源大模型的一家大模型公司，现在的开源意愿逐渐降下来了，该人士猜测可能是跟这家公司着急商业化有关。

毕竟，坚持开源意味着无止境的投入，融上千万、上亿资金对大模型来讲都烧不了多长时间。

面壁智能CTO曾国洋认为，超大规模的模型训练需要很大的资金投入，如果没有良好的商业模式支撑，大家对大模型的投入很难持续。开源大模型目前在国内外还没有很好的商业模式，所以在国内，未来开源模型可能会长期停留在百亿规模以内。

而还有一些人士认为开源对国内的基础大模型厂商的影响是致命的，例如李开复曾说过，当更强的开源模型出来，国内一些基础大模型厂商会发现过去的投入都打了水漂，会发现原来训练的那些模型基本没啥用。

开源VS闭源

有句俗语这样说，一个人会走的更快，一群人会走的更远，这可以贴切地形容闭源和开源的存在。

行业需要大力投入钻研自身技术、探索落地场景的闭源大模型，也需要一些充满理想主义情怀的开源大模型。

澜舟科技的周明老师曾对雷峰网说过，活着比什么都重要。周明觉得自己读懂了毛主席的论持久战之后，认为创业需要有一个雄心壮志，要不服输；其次是要审时度势——回到现实就是说你到底要干什么？你从哪里突出你的重点？哪个东西是你的菜？

大模型创业无疑是一场艰难的持久战。对许多创业者来说，经费是支撑整个公司能否走下去的一个很大因素，许多原先也想做基础大模型的企业开始重新思考创业的生态位，随着Llama2、Falcon 180B这些优质开源大模型逐渐出来，积极拥抱开源也许是另一条出路。

所以我们可以看到，为了能打赢这场持久战，澜舟科技现在的策略是拥抱开源：把开源模型当作L0底座，在这之上，做 L1 语言模型、L2 行业模型、L3 场景模型。

在这波创业潮中，越来越多大模型创业者开始希望积极拥抱开源。有人形容这波开源潮，就像把自来水厂免费接到自己家里，但如果自来水厂没人愿意开闸，惠及范围变小，行业势必会走的更慢。

所以，开源社区急需来自中国的大模型力量。

而现如今国内开源的一些大模型，在一位业内人士看来，跟Llama2、Falcon 180B根本构不成竞争力，还不在一个竞争层面，都是小玩具，等什么时候开源出一个千亿参数的再说吧。

不过不用担忧太多。上述多位人士告诉雷峰网，国内如智源、上海人工智能实验室这样的不靠模型赚钱的官方机构，最有意愿去把开源模型做的更大，因为他们没有商业公司需要大模型赚钱这样紧迫的欲望，他们更多为了推动整个行业的发展前景，一旦他们的大模型准备好后，国内就很有可能会出现100B的开源大模型，助力国内开源大模型突破不过千亿的坎。

在未来，开源和闭源都会长期存在，闭源大模型会由少量在技术、人才和商业上占据领先优势的超级玩家占据，而开源大模型会出现一个更加广泛、百花齐放的生态。

陈冉&王伟认为，在国内，闭源大模型一定是对应用更友好，而开源大模型一定是对生态更友好。

同时，开源与闭源并不是对立的关系，相反是密不可分的关系，在王铁震看来，开源是闭源发展的一个脚底板，闭源实际上是开源发展的天花板。

因为如果要做一个闭源大模型，无论是从0开始研发的，还是微调开源大模型得来的，如果你做的比开源还差，就没有价值。

开源注定没有闭源的好，因为闭源的这些商业公司一定要比开源做的好，才能卖出钱。

纵观开源软件历史，取得大范围成功的开源软件未必是当时技术最遥遥领先的，但一定是对用户和生态建设最友好的。

开源的竞争其实就是生态的竞争，谁对开发者最友好，就能吸引到最多的开发者去围绕它的大模型生态去开发，一群人致力于把这个社区做的更好，再吸引更多的开发者，不断壮大生态。开源的价值在于不停地往前走，像滚雪球一样，推动整个行业往前走，等商业公司赚到钱后他们可能会想着反哺整个开源社区，开源自己的模型、或者一些数据集等等，来回馈社区。

陈冉&王伟认为，开源大模型的竞争后续竞争除了模型规格与能力之外，后续趋势可能会在配套工具能力、生态建设、垂类领域能力、安全与推理性能优化等领域。

就像令蒋磊疑惑的一点是，为什么到了现在还没有出现MoE的Llama。他曾在WizardLLM的Discord里倡议大家一起构建一个Wizard MoE，但没有得到响应。所以他认为这也是开源的无奈之处，构建一个大模型，还是需要一个中等体量的公司或者一个团结的、有赞助的开源社区才能完成。

他觉得国产大模型真的想做好开源的话，一定要有一些理想主义在其中的，开源难道不是互联网最美的最深刻的理想主义么？

本文作者长期跟踪大模型开源的人物、公司故事与行业动态，接下来我们将会推出国内最早的大模型开源社区Modelscope(魔搭)发展中的故事，欢迎大家爆料！欢迎关注中国开源发展，对大模型开源感兴趣的行业内人士、读者添加作者微信（zzjj752254），互通有无。

蔡丛兴：从语词到「故事」，AIGC 要做思想的「相机」丨GAIR 2023

Thu, 31 Aug 2023 19:29:00 +0800

编者按：2023年8月14日-15日，第七届GAIR全球人工智能与机器人大会在新加坡乌节大酒店成功举办。

论坛由GAIR研究院、雷峰网、世界科技出版社、科特勒咨询集团联合主办。大会共开设10个主题论坛，聚焦大模型时代下的AIGC、Infra、生命科学、教育，SaaS、web3、跨境电商等领域的变革创新。这是国内首个出海的AI顶级论坛，也是中国人工智能影响力的一次跨境溢出。

在「AIGC 和生成式内容」分论坛上，joinrealm.ai 创始人蔡丛兴以《 AI Generation Challenges 》为主题分享了AIGC 的历史与发展、机遇和挑战。

蔡丛兴在演讲开始即指出，当下生成式 AI 产品落地的基础难度在不断上升，同时对于生成式技术的边界认知也在逐渐提高。

蔡丛兴认为，内容生成里有三个相互 dependent 的因素，一个是 foundational model，第二个是基于 foundation model 创建出来的 fine tune，第三个是文字上的 prompt 的engineering。因此，这一相互依赖的系统在很大程度上依赖于一个社区，即在 fine tune 和 foundational model space 内找到新的、最适合的 prompt language，也就是特殊的使用语言。

由于 AIGC 技术还没像 ChatGPT 一样达到一个爆点，所以蔡丛兴判断，当下的创业者需要回归到对三个问题的思考：其一为是否能够清晰地为目标用户画像；其二为是否能够找到最适合用户的 unique 的workflow；其三为是否能够 tap into existing distribution 以实现增长。

以下为蔡丛兴的现场演讲内容，雷峰网在不改变原意的前提下进行了编辑和整理：

很荣幸今天可以在这里和大家一起交流讨论关于这AIGC 创业的一些收获，我来这里的主要目之一也是想认识更多的 AIGC 创业者，然后大家可以更深入地讨论这个问题。在接下来二十几分钟的时间，我就做一些抛砖引玉，讲一讲我们的收获。

在过去的几年里，生成式 AI 发展很快，尤其是过去的一年，其中最主要的原因可能是生成式内容的用户接受度很高，所以导致市场的发展都很迅猛。随着更多的投入，我们对于生成式技术的认知也发生了很大的变化。

今天去讨论这个问题的时候，最主要的一个感受是我们在这个过程中对于产品落地的基础难度的认识是在不断的增加的，但同时对于生成式技术可能产生的边界也在不断的成长。所以今天将会聚焦在我们所意识到的真实挑战上的一些问题，然后从这里开始展开。

做一个简单的介绍，Realm 主要是做基于 AIGC 的社交网络，待会我会介绍更多我们的工作。

目前团队主要是在美国加州。就我个人的经历而言，十几年前开始做语言模型，从研究到工程，再由工程到产品，再由产品到商业。我早期的研究工作主要是在语言模型，在摘要和 ranking 能力的应用。加入 Google 之后，我接触到的第一个项目实际上是的 YouTube 早期的视频广告，当时就发现这样的一款短视频广告能够产生非常大的效果，就是它很快就成为了 YouTube 的 revenue dominate source。

当时我就有一个很简单的假设，如果所有的内容都是由短视频代替的话，会产生什么样的效果？所以2011年左右我就找了很多好朋友去讨论，说有没有一种可能性，短视频会取代用户的内容。当时有一个很大的限制，就是在内容的制作工具上达不到这种实名制的效果。

当时有一位同学分享了国内的快手这样一款 APP，然后那款 APP 当时还是以 gif 的制作为主，就是它生成的内容已经有了一定的故事性，但是还远远达不到短视频的效果和视频广告的效果。但过了两年多之后，随着苹果推出了前置相机，包括高清视频的录制这些功能都出现，短视频的这趋势也就一发不可阻挡。我在 15 年左右的时候加入了 Snapchat ，是海外最有潜力的短视频的公司，在过去几年的时间里一直都是 Snapchat 所有的短视频的产品开发。2021 年左右，由于 TikTok 的成功，我发觉到表达式的生成式视频一定会有新突破。

所以我和我的同伴一起出来成立这家创业公司，专注在做生成式视频，这是我和我的cofounder的联系方式，大家可以加我们的 Linkedin，欢迎之后有更多的讨论。

接下来，我们来讲AIGC。我觉得 AIGC 是一个特别宽泛的概念，它实际上非常抽象。从技术的角度来看，在过去的几年里，大家已经达到了认知的共识，它指代的是由大语言模型引发的、由文字生成内容的一种生产手段。那我们去解读它的时候，我觉得有必要来讲一讲 mental model，因为它会决定我们从哪个角度去看。

从细到远，mental model 大概有三种不同的layer。最新的layer就是直接把它做一个 ATI service，比如微软、谷歌上线的一些产品会直接拿 AIGC 作为一个service，去加强现有的产品。更远一点的话，从整个软件开发模式上来看，已经从过去 50 年中微软的这一套以 API 为主的软件开发模式过渡到自然语言为界面的软件开发模式，这可能会是一个软件开发形式的变化，更多的是一些哲学上、包括产品管理上的一些讨论。

在中间地带，就是我们创业公司对于新的商业模式的一个探索。这一探索主要有三个方向，第一是摘要，摘要最主要的应用是搜索，包括 QA 都是摘要里面最主要的模式。第二是推理，推理主要集中偏智能助手应用之类的应用模式；第三是在创作，我们主要专注于内容创作这一商业模式。

为什么内容创作模式很重要？根据我过去十年对短视频的观察，很大的一个变革是因为智能相机的出现，智能相机的普及不仅仅是给了每个人一个手机，而是给了几十亿个行走在世界各地的录制设备。

如果用智能相机促成成功的创业公司也有很多，比如TikTok、Instagram、Snapchat，很多很新的 to consumer 产品都是由于智能相机的普及才产生的。

我们一开始出来创业的时候，对表达式视频的脑海中的 mental model是，如果智能相机给了几十亿人一个行走的记录设备，去记录这个真实的世界，那么有没有一种相机是可以记录人的脑海中的假象。

我这有一个博客，起初 AIGC 还没有那么成功，我们当时做了大概 10 款不同的产品，每一款产品用了不一样的技术，最后进行了聚焦。它的本质上从用户体验的角度来讲其实就是用 word 到story。这是我们最新的 APP 上的效果，你可以说 a girl、一个很恐怖的卧室、然后这个 girl 在恐怖的卧室里面睡觉、这个 girl 在这个恐怖的卧室里面睡觉的同时旁边站着两个ghost，但是到第四个的时候就已经不work，因为 ghost 的空间关系，包括它们之间的空间距离感是 lost 的。

这样一个简单的example，可以告诉大家两个点：第一点是我们还没有办法很好地做到第三步，但是这个速度发展很快，因为三个月前我们卡在了第二步，所以现在到了第三步，也有很多人觉得第四步也OK，但如果你让上百万的用户去用那就不 OK 了。

刚才分享了我们是怎样去探索这个新的商业模式的，以什么样的 mental model 去探索商业模式。最终我们选择从 text image 开始出发，选择它最主要的原因是我们觉得它是 storytelling 最核心的部分，是最后的 foundation。那这张图是我上周五在那个伦敦旁边的那个巴斯的修道院拍的。当时有个新一代的画家，会用自己新的画具体重新解释一个故事，非常 impressive，但是它本质上是说画作为人类历史里面的一个重要的 story telling的这样的一个工具，它实际上是抓住了这个故事本身最重要的部分。

另外一个原因是生成式内容可以很容易地和其他的文字组合去支持其他内容形态，比方说 me 、coffee都很容易。

第三点是由于技术本身也非常容易去 scale 到，对于音乐生成、语音的生成也都非常的简单。

如果我们最终的目的是生成视频的话，视频的维度非常多。从我们自身的角度来讲，内容本身的故事性是视频成功最关键的因素。所以说我们选择从 text image 作为我们最核心的这种 focus 的点当中，我们也做和 ChatGPT 的整合，之后如果有机会也可以一起讨论。

那么它什么地方还不行？第一个最不行的地方在于它还不能是 word to story，它实际上是 prompt to story。prompt 是一个非常 confuse 的一个概念，它实际上是一个就是这样一个过程，可以通过语言不断地用文字去描述这个你脑海中的这个细节，可以通过加定语去描述 context、加一个形容词去描述framing、加入 subject、可以加各种各样的style， vocabulary 越 rich 就越好。

这个时候你可以去画想象中的这个女神是什么样子，但如果只有一个beautiful，那肯定是不行的。你要知道美的 20 种说法，要知道关于形态、眼神的无数个单词，还有很多单词可能字典里都找不到，这是最主要的难点。

其实 prompt是一种程序语言，它比程序语言更难的地方在于它没有 structure ，所以需要很多的 try and error 才能够真正达到想要的效果。另外一点是需要对于某种方向有非常密实的词汇量的掌控，词汇量越丰富，细节就会越多。也包括在 account 里面有更多的markup，有更多的 advance target，可以做非常精确的控制。

这里也可以通过简单的文字去进行两个 concept 的mix，比方说你喜欢两个这个角色，你可以轻松用这两个词去把它拼成一个词，比如刘德华和周润发，可以拼成一个人。

还有很多数据上的操作，是 Pixel 上的一些精确的控制，比方说我们随便做一个简单的一个端口，上传一个图片，把人脸给画下来，然后换一个词mix。除了这个 Pixel 上的控制，还能有 sematic 上的控制，可以控制它的形状、结构、位置，包括后续的这些post，这些工作都是朝 Prompt 的角度进行深入。那我们今天在这个角度上就不再继续深入地聊聊，但希望大家能 take back 到的最重要的点就是 Prompt 还不是自然语言，它是非常难掌握的一种编程语言。

第二个点是 foundation model。目前所有的新闻、research 主要的关注点实都在 foundation model上。关于foundational model我想分享几个观念：

观念一是图像生成的早期 foundation model 的效果不是很好，没有什么可供参考的针对用户的数据，我们内部对数据的一个判断就是对于一个新用户来说，他愿意分享的用于生成的照片比例是大概是低于20%。

观念二是 foundation 的 model 进步得非常快，在过去六个月的时间里面， SDXL 的效果大概能提高 4 到 5 倍。所以我们内部的数据还没有完全出来，因为所有的整合还没有完全完成，我们会继续观察大概效果是多少。

观念三是，研究过 SDXL 相关结果生成的一些 example ，我个人感觉，open source 的模型已经远远超过 OpenAI 的这些 close source ，也已经超过了最新版的 Mid-Journey 。昨天很多人讲，做大模型需要很多资源，三驾马车之类的，但其实大模型还是很多机会的。如果在座的各位是创业者没有大量的机器，图像生成是一个很好的选项，只需要一台电脑就可以。

第三个点是我们有一个非常大的一个 community contribution，主要是基于 Dreambooth 的 technology 做了很多对房地产模型的优化，还有特定场景，包括二次元、人物画像等，我们对这些模型做了内部的evaluation，在特定应用场景上的效果是非常好的。

叙述想象世界的过程中，除了需要有生成的工具和好的 prompt，第三个就是需要有 concept。就是我不仅仅需要一个girl在一个恐怖的房间里，我需要一个 specific girl，我们设计出来的那个人在我想要的房间里面做一件 specific 的事情，获得一个 specific 的效果。那么，这需要大量的用户利用各种已有的 framework 去创建各种各样的 fine tune 机制。这个机制有很多的 know how、knowledge，我们对这个机制的一些体会，也会随着实践过程不断变化。

但我们可以看到一些非常好的应用，比如对人物的设计，可以设计出想象中的人物，然后也可以去设计想象中的场景和风格，甚至可以控制拍摄的视角，而且控制的方法都很简单，那就是创建出属于你的独特的单词，用词去控制故事的讲述。

讲到这里，我们解释清楚了内容生成里三个相互 dependence 的因素，一个是 foundational model，第二个是基于 foundation model 创建出来的各种 fine tune，然后是基于 fine tune 的文字上的 prompt 的engineering。这三个因素之间是相互 dependent 的，也就是当你的 foundational model change 的时候， fine tune 实际上是会对特定的 foundation model 产生特定的效果，然后特定的这一套 foundation model 实际上会对 prompt effect 产生效果。

所以这在很大程度上依赖于社区，在 fine tune 和 foundational model space 内找到新的、最适合它 prompt language，也就是特殊的使用语言，这就是他的 depending 思路。

接下来还有几点分享，由于这样的 trade off 和你可以 navigate 一个空间，所以如果你心目中有一个特定的application，比如拍写真照或拍一个二次元的东西，那么就总是可以通过某种 trade off 达到想要的效果，但同时很 complicit 就是 cost，即你会用多少的代价去实现这件事情。如果希望做出一款非常general的，那么就需要很多的 engineering 的 carefully decision。

同时，如果想做大规模的 to consumer 场景， GPU 的 cost 是一个很重要的问题。我们团队的解决方案是对所有的实践的 influence 做了一套 CPU 的 solution，然后也建立了他们的 quality，可以 compare， cost 会更低，而且效果上也可以重复。但是我们也见过其他人有别的想法和尝试，就像通过手机上的应用，用 GPU 去做这些事情。不过我们主要的 focus 在 CPU 的解决方案，而且已经得到了验证。

讲完 challenge 之后，最后回归到“真正的机会在哪”这个问题上？在过去 6 个月的时间里，大概见了上百位美国最 popular 的 AI creator，大家可以在 YouTube 上去看 AI show。我最近特别喜欢它，是用 AI 做的 movie trailer，把各种各样的角色混到一起，非常有意思。我们对于这个技术或看到这个结构，会觉得这怎么可能？这怎么做到？所以这给我最大的冲击就是creativity，大家是非常有想象力的；其次就是他们每个人都是一套独立的制作方法，没有相似的途径；第三就是他们每个人都会使用大量的工具。

而他们唯一的共同点就是 try and error，通过这个过程不断地去调试、去调节，找到一条属于自己创新的工具，这也是我们对这件事情最重要的总结。所以，最后想要达成这种生产效果，很大程度上依赖于对 workflow 的探索和对 workflow 的实验。

我们再来讲讲 Market Opportunities 。因为技术可能还没有达到像 GPT 那样的一个 break point，成为一个通用技术，每个人都觉得OK， i can get it，它实际上还没有达到这个moment。所以走到今天，创业需要回归到三个问题，第一点是你能不能够清晰地画像目标用户；第二个点是你能不能够去找到最适合用户的 unique 的workflow；第三点是能够 tap into existing distribution 去实现一个增长。这也是我这次来一个主要目的，我相信这里有很多的创业者都是以此作为努力的方向，我们有很多可以交流的地方。

其实，可以把 Realm 理解成一个 Instagram for a personal imagination。我们在做三件事情：第一件事是，把所有最新的 prompt 的 technology 集成一个非常易用的手机端的 interface ，使用它时就像用一款相机一样去描述自己的想象。第二件事是，让每个人都可以在使用、创建自己的 fine tune， share 自己的 fine tune；第三件事是，给大家一个 creator community，因为 prompt 需要很多的 education 和integration，因此可以从别人那里获得灵感和idea。

对于在做的各位来讲，如果你还没有接触 AIGC 或者内容生成，其实 Realm 是一个特别适合 get start 的地方。其一是因为它为普通用户设计，很多非常深的技术名词、技术细节都可以像学自拍管理一样去把这些东西领会到。其二是因为它很便宜，因为用的是CPU，可以用可控的方式去来 lower 它的 generation cost，大概在 mission 上要比很多 generation 便宜很多，如果是普通用户的话，基本上可以不花钱。其三是因为可以接触到最新的technology，所有的 model 都可以随时更新，也会有一个 community 去 learn from each other。

关于 startup 我们还可以有机会一起讨论，做 workflow 最难的点是发现 tradeoff，另外一个是有一个 community 去帮助探索 prompt attention。

除此之外还可以考虑能不能提供一些 besides APP 的access，让大家去 leverage 我们做的一些工作。最后一个是research，15 年前我开始做research，其实它最重要的一点是能够快速地实验，快速地分享demo， share 我的 demo 或者是 user 的demo，然后能够快速 get feedback，也就是从数据上知道你的模型怎样和现有的东西去审核，效果是什么样的。

这是我大概 brainstorm 了一下，希望可以和在座的各位有一些交流和合作，以上就是我今天的主要内容，谢谢各位。

华为、OPPO与光子实验室都加入的这个基金会，是什么来头？

Tue, 15 Nov 2022 10:11:00 +0800

过去二十年，科技对大众社会的改变有一个清晰的趋势：

从现实的物理世界走向手机与电脑中的数字世界，人与人在现实中的交流变为人与机器的线上交流。

如今，随着云计算、人工智能、大数据等前沿技术的发展，以元宇宙为代表的全息数字虚拟交流正在发生。届时，虚拟世界的互动将成为新的社会形态。

在这个新的潮流中，一个关键的技术突破是超越 2D 的 3D 内容呈现与交互，3D 技术与引擎成为多个新兴行业（如自动驾驶、AR/VR）的兵家必争之地。在下一个十年中，谁能掌握最好的 3D 技术，谁就能在新的技术进程中占据先机。

然而，以 3D 为中心的研究成果在各行各业之中存在极高壁垒。3D 是许多行业的共同基石，但目前大家更多是「闭门造车」，导致整体社区出现重复造轮子的现象。3D 技术的开源，势在必行。

基于这样的背景，2021年7月，Linux基金会成立了新的开源组织：Open 3D Foundation（开放3D基金会，简称「O3DF」)，旨在促进 3D 内容的创造与繁荣，激励更多开发者基于开源 3D 引擎（种子代码由亚马逊贡献）开发出能够有效帮助各行各业前进的应用，造就一个集体（3D技术社区）的成功。

O3DF 成立后，立即引起国内外科技巨头的关注，如今已有亚马逊、微软、华为、OPPO、光子实验室等等企业加入其中。

今年，O3DF 推出了世界上第一个用于高保真沉浸式体验的开源实时3D引擎，简称O3DE，并在5月份进行了大规模升级，以提高引擎的性能、可用性和其他功能，允许顶级游戏的3D模拟。迄今为止，O3DE社区贡献了大约200万行代码更新，以及多达100位贡献者和41个代码仓库的350-450次每月提交量。

O3DF 的成立，是全球 3D 技术进步的一个重要里程碑。雷峰网近期有幸与 O3DF 的创始成员之一兼执行董事 Royal O'Brien（下图）进行了一次对话。

以下是雷峰网与 Royal O'Brien 的对话内容整理：

雷峰网：你们为什么会成立 O3D 基金会？

Royal O'Brien：主要是出于行业需求。我自己是在游戏行业工作了二十多年，但我发现，在这个领域并没有太多开放共享的行业技术。我开始参与筹备这个基金会时，我还在亚马逊工作。他们有自己的 3D 引擎，也在上面做了很多努力，但最终这些工作没有完全得到认可或采用。所以我们就在想，我们要怎么做才能真正对行业产生影响？想了很久，最后我们想说：为什么不考虑开源呢？

如果开源，我们其实本身自己也会降低维护这个引擎所需的成本。同时，其他公司参与进来，我们也可以真正对游戏行业或其他需要用到 3D 技术的领域产生积极的影响。我们使用Apache许可权发布这个引擎，其他人都可以用。

雷峰网：与计算机科学领域的其他分支相比，3D 技术的开源项目似乎不多。

Royal O'Brien：是的。对于大部分公司来说，他们会优先选择建立与底层业务最相关的技术体系。在资金有限的情况下，你会发现技术创新也没有那么多。但开源对金钱的要求没有那么高，开源不需要你去赚钱来帮助一个项目的成长，而是依靠开发者的热情与贡献来运转。

雷峰网：你们建立 O3D 基金会后，3D 技术领域的研究者是怎么评价的？

Royal O'Brien：哈哈，因为这是亚马逊发起的，所以他们的第一反应是：世界上怎么可能会有免费午餐？但很快他们就会发现所有的源代码真的都是免费开放的。然后很多人就会有疑惑：「为什么你们会做3D开源？」因为亚马逊不缺钱，亚马逊的云服务也卖得很好，似乎没有参与开放许可引擎的动机。如果你把引擎开源，本质上就是在跟你的云服务竞争了。所以 3D 领域的人原先很疑惑。

但更多的人是赞叹的，觉得 3D 技术的开源很了不起，会给行业带来巨大的改变。跟我们合作的许多公司和社区也开始理解。理解本身就已经是 3D 领域的一个进步。我也更有动力去推这件事情了。

雷峰网：我看到有很多知名的互联网科技公司都参与到了这个基金会中，比如微软、华为、OPPO。

Royal O'Brien：是的。我在一开始跟这些公司接触的时候，他们就已经意识到 3D 技术开源对他们是有利的，可以成为他们增强自身的一个途径。开源无国界，这也是中国的企业（如华为、OPPO）愿意参与进来的原因之一。开源是所有人都能参与进来、共建共赢的事情。光子实验室也有参与其中。

雷峰网：你们在刚成立 O3DF 时就致力于将其建设为一个全球化的组织。

Royal O'Brien：是的。这是一件很有挑战的事情。不同文化的人在交流时，方式可能不一样。所以要找到大家都能感到兴奋、并愿意一起贡献的项目。幸运的是，我有一个由全球各地的聪明大脑组成的智囊团，可以帮助我一起去做这件事情。

雷峰网：你是怎么说服华为、光子实验室、OPPO这些中国公司加入的？

Royal O'Brien：我在跟他们的工程师交谈时，他们都很懂技术，不用我说，代码就已经帮我传递了这件事（3D技术开源）的价值。在开源领域，代码是最好的交流语言。所以，当一家公司真的去看这些代码，他们很快就能了解到 O3DF 的宗旨和目标。代码真实地存在那里，一看就知。

雷峰网：O3DF 是一个全球性的组织，知识产权会不会成为一个问题？

Royal O'Brien：不会，我们有 Apache 2.0 的许可证。

雷峰网：在管理这个基金的过程中，你有没有设立一些基本准则？

Royal O'Brien：我们成立这个基金会的目的之一是将不同领域的人聚集在一起，让他们各自发挥各自的所长。有些公司是专注于 3D 与图形，有些专注于网络，有些专注于动画。很多领域都可以用到 3D 引擎。3D 引擎和操作系统一样复杂。他们彼此之间也可以相互学习、弥补自己的短板。

我们要考虑的一个问题可能是：在一个开源项目中，谁是决策者？谁是决定下一个功能是什么、以及需要做什么的人。在处理这个问题上，我们的原则是「民主」，让对项目有贡献的开发者来做决策。

雷峰网：有很多不同类型与行业的公司都在关注 3D 技术。

Royal O'Brien：是的，有汽车公司，还有电影、游戏、机器人、仿真、甚至房地产行业。假如一家公司是做3D自动驾驶系统的，他们在O3DE引擎中建立了一个模拟，可以模拟自动驾驶，他们为社区做出贡献后，一个游戏开发者如果想在他们的游戏中设计自动驾驶车辆，就可以使用社区中的开源项目，而不用从头开始编写整个系统。在开源的帮助下，不同行业有机会在他们永远不会谈论的领域合作。

雷峰网：也就是说，它会促进基于 3D 技术的不同应用开发。

Royal O'Brien：对。我们已经看到这样的趋势在发生。我们之前见到一个O3DE的demo，是一个机器人模拟，其中提供了苹果树的3D图环境。有传感器的是机器人，但模拟是在 O3DE 的虚拟环境中完成的，机器人在 3D 虚拟环境中学习如何从一棵树上捡苹果，并把苹果存起来。如此训练后，机器人可以将这项技能应用在真实的物理世界上，在一个真实的果园里摘苹果。雷峰网

雷峰网：3D 技术也被认为是元宇宙的一个关键部分，你怎么看？

Royal O'Brien：嗯…元宇宙是一个很大的话题，不过 3D 技术确实很重要，因为元宇宙是环境与场景的融合，你不用带 VR 眼镜也能成为元宇宙的一部分，比如 3D 技术可以放在手机上、作为 AR 的一个组件。你可以用很多方式将 O3DE的技术应用在元宇宙中，因为 3D 技术就是可以跨越数字和物理世界，在元宇宙中拥有一个真实世界的数字化身。雷峰网

雷峰网：你们准备如何发展 O3DF？

Royal O'Brien：我们现在的重点是将 O3DE 引擎进一步模块化，它不仅是一个游戏引擎，而且真正是一个通用的 3D 引擎，可以用来构建游戏、模拟或其他任何应用。雷峰网

我这里所说的「模块化」是：假如我正在为机器人构建一个模拟环境，这本身是一个机械化的设备，那我不需要一个完整的动画系统，不需要网络模块（因为我不是在玩多人游戏），而只需要与模拟有关的组件就行。换言之，我们希望：开发者能很快找到自己想要的模块，而不需要处理与自己想解决的问题无关的元素。这是第一步。

第二步是，我们希望它非常便捷。O3DE可以在Windows上运行，也可以在Linux、Mac、Android、iOS 等等系统环境上运行。现在它也支持在多种不同硬件设备下运行。

雷峰网：华为、OPPO都是著名的手机制造厂商。你们目前在手机 3D 技术上有什么计划吗？

Royal O'Brien：是的。我们正打算成立移动设备工作组(Mobile Device SIG)，这也是为什么我们要将 3D 引擎模块化的原因。如果模块化，开发者就可以一些非常轻量级、且经过优化的引擎，在移动设备上运行。

手机跟电脑不同，如果你不做优化，那它就会把你口袋里的手机变成一座火山，非常热、也非常痛，耗电会非常快，而且还做不了什么。华为、OPPO也是专注于如何利用我们的 3D 技术、将其进行优化，从而可以在手机移动设备上很好地运行。

我很欣赏他们希望推动这个领域发展的行为，这也是我们关注的焦点之一。

雷峰网：总的来说，O3DF 的目标与愿景是什么？

Royal O'Brien：就是拥有一个模块化、对开发者友好的系统，可以让开发者构建各种各样的应用程序来满足自己的硬件与体验要求。

至于我们的使命，就是将O3DE引擎打造成一个成功的开源、功能齐全、高保真、实时的 3D 引擎，提供给各行各业。3D 技术没有边界，它不局限于任何一个行业。

只需要十分之一数据，就能通关四大视觉任务，居然还开源了！

Fri, 06 May 2022 15:04:00 +0800

家人们，你们有没有这种苦恼？

搬一次家就换一次家具，那些又贵又重的家具既不好搬运，又不好全部带走。

下一次又重新购置一遍家具，浪费钱不说，关键是来来回回都做一样的事情！家具还没用过几次，利用率不高呀！

这种搬家的苦恼，就好比AI领域，做几个任务就需要开发几个高度定制的模型，不仅所需的数据采集量非常大，每次还都得从头标注。既提不起数据的学习效率，又耗费巨大的数据获取成本。

光是AI前端研究就耗费如此巨大的精力，更别提应用场景中数以万计的长尾任务。

那怎么办？

做一款通用的深度学习模型，才是关键。

通用，才是技术根本

无论国内外，底层技术关注者都以设计出“通用模型”为己任。而打造通用模型的两个主战场，就是深度学习应用最广泛的两个方向：语言与视觉。

目前，通用语言模型（GLM）已经取得了令人瞩目的进展，比如BERT、T5和GPT-3，它们在应对广泛的语言下游任务时已经游刃有余。

相形之下，通用视觉模型（GVM）的研究迟迟未交出一份令人满意的答卷。

以往的大多数 GVM 研究主要利用一种监督信号来源，如 ViT-G/14 采用有标签监督，SEER 采用样本的不同增强之间的对比学习，CLIP采用图片文本对进行监督。如果是在单个监督信号下进行的预训练，这几种范式确实能够生成在固定场景下表现良好的模型。但如果用在场景多元、任务多样的下游场景，这些模型就难以胜任了。

比如现在最火的自动驾驶，汽车处于移动状态，既要看到路况，又要看到红绿灯，还要注意行人，甚至在智能座舱兴起后，还要和语言技术、LBS场景服务协同，这么多的感知数据与协同任务，这么多随机的新任务，无论在体量还是维度方面，都对视觉模型的要求极大提高。

这时，打造一款通用视觉模型，降低研发门槛，尤其是学术界的时间成本、资金成本，才能畅享下游的极致场景体验。

去年11月，上海人工智能实验室联合商汤科技、香港中文大学、上海交通大学发布通用视觉技术体系“书生”（INTERN），一套持续学习框架，用于系统化解决当下人工智能视觉领域中存在的任务通用、场景泛化和数据效率等一系列瓶颈问题。

前不久，上海人工智能实验室联合商汤科技发布通用视觉开源平台OpenGVLab，面向学术界和产业界开放其超高效预训练模型、超大规模公开数据集，以及业内首个针对通用视觉模型的评测基准。

这些开源技术，究竟有何魔力？

大力出奇迹，打造通用视觉模型

“书生” （INTERN），就是练就通用视觉能力的底层技术。

从技术实现上讲，“书生”技术体系由由七大模块组成，包括三个基础设施模块和四个训练阶段构成。

三个基础设施模块分别为通用视觉数据系统(GV-D)、通用视觉网络结构(GV-A)、以及通用视觉评测基准(GV-B)；

四个训练阶段分别为：上游基础模型训练（Amateur）、上游专家模型训练（Expert）、上游通才模型（Generalist）训练；以及下游的应用训练（Downstream-Adaptation）。

书生（INTERN）结构图

首先，通用视觉数据系统。

这是一个超大规模的精标数据集，拥有100亿个样本和各种监督信号，并依照四大视觉任务分别设置了四个数据子集：多模态数据GV-D- 10B分类标注的GV-Dc-36M、检测标注的GV-Dd-3M、分割标注的GV-Ds-143K。

另外，这一数据集还包含11.9万的标签系统，不仅涵盖了自然界的众多领域和目前计算机视觉研究中的几乎所有标签，还扩充了大量细粒度标签，涵盖各类图像中的属性、状态等。

而这，就是书生“大力出奇迹”的一大注脚。

其次，通用视觉模型结构。

它是由一个具有CNN和Transformer的统一搜索空间构建而成。

为何要建立这样的混合结构？要知道，多年来，卷积神经网络（CNN）一直主导着视觉表征学习，并在图像分类、目标检测和语义分割等下游任务中表现出稳定的可迁移性。但最近几年，Vision Transformer (ViT)仅使用普通的Transformer结构就能作为图像编码模型在ImageNet-1k上取得媲美 CNN 的性能，在大规模数据集上 ViT 更是展示出比 CNN 更大的潜力。

尽管ViT在性能上有优点，但纯Transformer网络相比卷积神经网络缺乏某些归纳偏置（inductive biases），因此需要更多的数据和计算资源。此外，自注意的计算成本相对于输入的数量是平方的，限制了对高输入分辨率的应用。因此，将CNN和Transformer和MLP结合起来，平衡效率和有效性两个方面，才是模型通用的关键。

这种兼具更好的泛化能力和更高的模型容量的模型结构名为MetaNet。在MetaNet网络结构族里面进行网络结构搜索，从而得到最优的一个模型训练结构。

统一搜索的MetaNet架构：Conv和Trans分别表示卷积和Transformer。C和S为每一阶输出通道数和步幅。

具体来看，MetaNet不仅基于强化学习的PPO算法提出了统一搜索架构，并且，为了避免传统的下采样模块会成为模型性能的瓶颈，“书生“结合了包含 local-global-DSM (LG_DSM) 和 global-DSM (G-DSM)的context-aware down-sampling modules (DSM)，用来代替原本的下采样模块。

因此，在浅层，模型依然使用卷积来提取特征，但在深层，模型却能将Transformer模块和LG-DSM结合使用，以便于更好地提取全局信息。

同时，书生还基于最大的MetaNet-B15蒸馏出了多达13种不同的模型结构，共24种不同的模型权重，现已全部开源。

这些模型结构基本涵盖了现有市面上大部分的主流backbone，不仅能够很轻易地迁移到所需要的算法框架作为新网络预训练的初始化，而且只需要更短的训练时间就可以达到比原来更好的训练效果。

MetaNet 模型与其他模型结构比较，结果如下：

基于卷积、Transformer和两者混合的结构，分别用C，T和H表示

可以看出，在图像分类性能上，MetaNet系列的MN-B1，MN-B4和MN-B7，和其他的SOTA模型相比，不仅有更高的精度，还有更低的FLOPS和参数量。

除了分类任务，把MetaNet做为检测和分割的backbone，在COCO数据集上使用Mask R-CNN结构训练，结果发现：

在模型参数量更小的前提下，MN-B4比Swin-T精度高出2到4个点。另外还在ADE20K数据集上进行了语义分割任务，MN-B4的mIoU指标比Swin-T高出5个点之多。

上述两个实验结果表明，MetaNet系列模型结构，在模型精度与计算量之间，都达到了新的SOTA！

最后，通用视觉评测基准。

视觉评测基准GV-B ，就像是一个「擂台」。

如下表所示，测评基准收集了 26 个下游任务数据集，囊括了 4 种视觉任务类型：分类，检测，分割和深度估计。

在设置上，该基准引入了百分比样本（percentage-shot），只需要选取整个数据集的一部分，例如 10%、20% ，对比缩小下游任务的训练数据量后的模型性能。

与传统的少样本设置相比，这种百分比样本设置可以很好地保留原始数据集的长尾分布等属性，并减轻对样本选择的敏感性。因为有一些数据集样本类别分布不平衡，比如下表中的VOC07+12，百分比数据的划分方式却会继承这种分布情况。

右侧三列avg，min和max，分别表示在10%的数据中，不同类别样本数量的平均值，最小值和最大值

结合上述数据集和任务类型，论文选取了一些具有代表性的模型来做评测对比。为了比较公平性，该对比使用了这些模型的官方预训练权重。这些模型包括：

RseNet

CLIP

ResNeXt

BiT

ViT

SwAV, DeepClusterV2和MoCo v2

Detco

有了超大精标数据集、模型结构，以及评测基准后，已经是万事俱备，只欠训练。

书生作为中国古代读书人的经典形象，代表着一个通过不断学习、不断成长进而拥有各方面才能的人格化角色：从基础的知识技能学习开始，到对多种专业知识触类旁通，进而成长为拥有通用知识的通才。借此意象，“书生”（INTERN）系统可通过持续学习，举一反三，逐步实现通用视觉领域的融会贯通，最终实现灵活高效的模型部署。

下面就来看看，这套系统是如何通过训练，一步步从生手变成专家再到多面手，最终在各种任务中大显身手。

第一阶段，训练的是基础能力，被称为“基础模型”（Amateur）。

近年来，CLIP因zero-shot recognition 能力和在下游任务的迁移能力而备受关注。

然而CLIP需要400M的图像-文本对进行前训练，囿于极大的数据量，CLIP很难进一步发展。但“书生”提出了一种新的训练范式，DeCLIP（Data efficient CLIP ），能够同时使用来自图像-文本、图像-图像和文本-文本对的监督信号进行模型预训练，从而更有效地实现通用性。

此外，为了充分利用大规模多模态数据获取基础模型的优势，这一阶段提出了Upstream-Amateur (Up-A)视觉语言预训练框架，同时挖掘模态内和跨模态知识。

这一训练框架分为两个预训练阶段：Upstream-Amateur for Global Representation (Up-A-G)和Upstream-Amateur for Local Representation (Up-A-L)。

其中，Up-A-G(左)使用群体监督功能，从更丰富的监督中学习。Up-A-L(右)采用局部自我监督学习方法，对训练好的视觉-语言模型进行调整，从而提高自身在密集预测CV任务中的表现。

Upstream-Amateur的框架

得益于这些内在的监督，DeCLIP-ResNet50可以在ImageNet上实现60.4%的zero-shot 精度第一。这比CLIP-ResNet50高出0.8%，数据使用量少了81%。当迁移到下游任务时，DeCLIP-ResNet50在11个视觉数据集中有8个优于CLIP。

更关键的是，训练完成的Upstream-Amateur为后续的训练阶段提供了一个很高的起点。

第二阶段，训练的是专业能力，被称为“专家模型”（Expert）。

Up-A阶段得到的基础模型，在一般的视觉识别问题上显示出优异的性能。但要完全掌握检测、分割等更具体的任务，还需要在每个任务中进行更专业的预训练，这就促成了第二个阶段的到来，专家模型。

对于每个专家，“书生”采用了一种简单的多头设计，每个头是一个特定数据集的子网络，从一个公共的、共享的“主干”分支出来。比如Up-E (C)、Up-E (D)和Up-E (S)，分别用于图像分类、对象检测和语义分割。

第三阶段，训练的是组合能力，被称为“通才模型”（Generalist）。

上述的多任务是指不同数据集(如ImageNet和CIFAR)的一个视觉问题(如分类)，或一个数据集的多个视觉问题(如分类和检测)。但关键是，如何将专家整合到一个统一的模型中，获得一个更加通用的视觉模型。因此，在预训练“专家”阶段之后，又将“通才”作为第三个预训练阶段，以进一步统一特征表示。

“书生”提出了一个新的范式，名为“混合参数共享”，从而开发一个名为“多面手”的通才模型。

具体来说，由于专家捕获的知识是相互关联的，当专家的特征融合为一个共享的表示形式时，再利用基于软共享的跨任务知识转移和基于硬共享的通用表示学习的方法，在不引入任务冲突的情况下在专家之间传递信息（特征转移），从而进一步提高了多任务训练的模型(专家)性能，即“通才”能力。

在结构上，通才模型是所有专家的一个相互关联的版本，因此可以把每个“专家主干”称为“通才分支”。此外，我们还可以根据训练相应专家的任务将通才中的每个分支分为图像、补丁和像素。但无论是软共享还是硬共享，都意味着从专家模型到通才模型的一次跃升。

在经历了前三个训练阶段模块后，终于来到最后的任务迁移阶段（Adaptation）。

这个阶段属于技术链条的下游，用来解决各式各样不同类型的任务，而这也是最考验“书生”举一反三能力的时刻。它需要在这个阶段把之前学到的通用知识，融会贯通地应用到不同特定任务中。

在此之前，很多迁移学习方法确实取得了很多进步，但问题是，这些方法既没有利用上游预训练中的隐含信息，也没有考虑到下游数据在少镜头场景中的不足。

因此，“书生”提出了一种Multi-stage Fine-tuning (MF)方法，缓解在数据较少的情况下传输的困难，再通过将上游数据编码成生成模型，即VQ-GAN，可以将预训练的模型转移到多个任务和领域，而无需每次都使用上游数据，而这也使得“书生”更具通用性和可扩展性。

多级微调(MF)概述：VQ-GAN模型首先在第一阶段使用上游数据进行训练，然后在第二阶段由它重构下游数据。在此之后，第三阶段只对新增任务的特定参数进行重新表示的图像训练，第四阶段则通过下游数据对整个模型进行微调。

至此，一个具有持续学习能力的通用视觉模型终于出世。

而具体有哪些提升，不如看一下更直观的实验数据对比！

一网打尽视觉领域四大任务

视觉领域，任务繁多，主流任务包含分类、目标检测、语义分割、深度估计四大类型。

在这四大任务中，最强大的视觉模型还是去年OpenAI发布的CLIP模型。但相比较而言，“书生”则在准确率和数据使用效率上都有所提升。

1、精度表现

通过对“书生”训练出的模型在GV-B上的评测对比，发现经过多阶段预训练的MetaNet精度表现优异。

在ImageNet等26个最具代表性的下游场景中， “书生”在分类、目标检测、语义分割及深度估计等四大任务上，平均错误率分别降低了40.2%、47.3%、34.8%和9.4%。

书生（INTERN）与CLIP-R50x16在不同样本量上的性能对比，正确率展示

2、数据使用效率

“书生”在数据效率方面的提升尤为瞩目：只需要1/10的下游数据，就能超过CLIP基于完整下游数据训练的准确度。

以CLIP-R50x16和Up-G MN-B15在GV-B的评测对比为例，分别在分类、目标检测、语义分割、深度估计四大类型的26个下游任务数据集上进行了评测，仅使用了10%数据进行训练的Up-G MN-B15模型，在绝大部分数据集上都能比使用了全部训练数据的CLIP-R50有更好的精度表现。这表明，经过多阶段预训练的MetaNet具有极强的泛化能力，能够在仅有少量的训练样本情况下，达到SOTA的精度表现。

在下游视觉场景中，小样本训练带来的是极高的训练速度，以及极低的训练成本。

例如在花卉种类识别任务上，“书生“只需要每一类型的花卉提供两个训练样本，就能实现99.7%的准确率。

这个花卉数据集由102种英国常见的花组成，每个类别有40至258张图片。其中包含有很大的比例、姿势和光线变化。

102个类别的花卉数据集：https://www.robots.ox.ac.uk/~vgg/data/flowers/102/index.html

通用视觉平台，已正式开源

如此强大的通用视觉训练模型已经正式开源！

更关键的是，连同上述讲到的标签数据集、网络结构以及评测基准，均在OpenGVLab被统一打包开源。

其中的网络结构除了MetaNet，还包含大家普遍使用的ResNet， MobileNet， ViT， EfficientNet等，以满足不同场景的应用，赋能计算机视觉。

然而，「书生」的布局不止于此。

OpenGVLab将与上海人工智能实验室此前发布的OpenMMLab、OpenDILab一道，共同构筑开源体系OpenXLab，持续推进通用人工智能的技术突破和生态构建。

一位已经使用过此次开源平台的自动驾驶算法研究员表示：“书生系列模型充分覆盖了从移动可部署的小模型，到超大规模自研结构，为行业带来了希望，尤其是它的收敛速度，大幅节省了训练开销，是技术落地的一大助推器。“

不仅是自动驾驶领域，智慧城市、智慧医疗、智慧交通，以及千千万万其他的智能化领域，都将获得通用视觉模型带来的技术红利。

一位腾讯研究员大赞OpenGVLab：“能把这么大的工作开源出来真的是业界良心。简单用了一下，确实比CLIP要更fine-grained（细粒度更高）。”

而来自学界的师生也对此感慨有加：“OpenGVLab集成了大量各种量级的state-of-the-art（先进）模型，使用起来更得心应手，省去了对不同codebase、不同模型繁琐调研的烦恼。”

换句话说，当那些代码和公式脱去了枯燥乏味的外衣，人们才发现了真正的创造力。而这，也是技术创新与平台开源的魅力所在。

往近了说，用这款通用视觉模型打比赛，怕不是奖金多到飞起！在技术生产力的道路上，又诞生了一个致富小妙招！

目前，“书生”技术报告《INTERN: A New Learning Paradigm Towards General Vision》已在arXiv平台发布。

论文地址：arxiv.org/abs/2111.08687

欢迎大家亲自挖宝！

雷峰网雷峰网

科大讯飞研究院，用「做企业」去理解「做研究」

Thu, 06 Jan 2022 20:48:00 +0800

从企业和AI长期发展的意义而言，企业AI研究院代表着一种企业文化的类型。

企业有其自身独特的品格和历史，也有其适于其成长以及生存的空间，因此有其自身的存在边界和图景。也恰是因为这种长久积淀下来的企业调性，而有了其最具独特性的创新价值。

但难题也接踵而至。如何实现技术与业务同频共振？如何将新技术转化成现实生产力，投入市场完成真正的商业化闭环？

在MIT科技评论发布的《2021年人工智能创新研究院(AI Labs) 报告》中，列出了国内10 家具有技术创新力和引领力的企业 AI 研究院，深究发现，这十大AI Labs，或许提供了解决这些问题三种方案：

一、以底层技术为基石，探索无界垂直赛道的企业研究院，以讯飞，商汤，腾讯，阿里为代表。它们拥抱城市、生活、汽车、教育、医疗、消费品、工业等各种细分场景，属于智能化浪潮中善走蛮地、敢挤大路的一批企业。它们既互通共享，又一人成伍，在系统性技术创新中解决社会重大命题。

二、关注底层技术，专注某一垂直领域，以微软、华为、百度为代表。它们在AI赋能大潮中迅速找准自己方向，形成微软面向计算革命、华为面向通信智联、百度面向智能汽车的独特版图。

三、面向场景化AI的研究院，以京东、字节、小米为代表，分别面向零售、娱乐和家居场景，挖掘企业多年深耕场景的内在基因，以AI赋能形成技术长板。

道同而术不同，在智能新时代中探索新价值，与社会、行业、市场紧密结合中，一批企业向着垂直赛道纷至沓去，究竟有何独到心法？

其中，科大讯飞研究院以「以系统性创新，解决社会刚需」上榜。遴选理由为：

22年来始终坚持「顶天立地」的理念和追求，通过源头技术创新，在人工智能发展史上树立了语音合成、语音识别、认知智能等多个里程碑，推动智能语音及人工智能走在世界前列。引领推动人工智能技术在教育、医疗、城市、消费品、工业等场景的规模化应用。

究其根本，科大讯飞研究院何以成为？

讯飞研究院：一步一步上台阶

讯飞研究院于2005年正式成立，坚持“用正确的方法、做有用的研究”，研发领域包括智能语音、自然语言处理、计算机视觉、人工智能基础理论等，研发规模达1000余人。

讯飞研究院成立时间早，自科大讯飞在1999年成立，也就有了相应的研究团队，随后在2005年正式成立。

在17年的发展中，科大讯飞研究院主导承建了语音及语言信息处理国家工程实验室、认知智能国家重点实验室等国家级平台，在语音、NLP、CV等领域拥有丰硕的技术成果。

语音领域，主导制定了全球首个智能语音交互 ISO/IEC 国际标准，连续多次获得 CHiME 、Blizzard Challenge、IWSLT等国际评测冠军，业界率先实现口语自动评测达到人工专家水平，2021年获OpenASR多语种语音识别挑战赛冠军；

NLP领域，2017年研发的医考机器人全球首次通过国家临床执业医师资格考试，近5年获得20余项国际评测冠军，2021年获吴文俊人工智能科技进步奖一等奖，开源多项前沿NLP模型并被广泛使用；

CV领域，在图文分析、虚拟形象等方向提出十余项原创成果。2021年，科大讯飞发布虚拟人交互平台1.0，推动多模态技术的融合创新。

目前，科大讯飞已获得中国知识产权领域最高奖项“中国专利金奖”，在全球拥有3800+专利，授权专利1800+件，并在 2021年获得中国知识产权领域最高奖项「中国专利金奖」，推动我国智能语音及人工智能技术走在世界前列。

科大讯飞技术聚点成面驱动源头技术突破，既在树立人工智能发展中的「里程碑」，也在成为人工智能突破中的「国家队」。

从单点技术突破到系统性创新

2010年，讯飞率先发布讯飞语音云平台，2017年升级成为智能语音国家新一代开放创新平台，在今年第五届全球1024开发者节上，讯飞又推出开放平台2.0战略、企业讯飞数字化平台、《1024计划》等一系列技术成果。

基于讯飞开放平台的2.0战略，讯飞将联合行业中最有资源和平台能力的行业龙头共同来搭建行业的基线底座，在此之后，将众多场景开放给开发者。

目前，讯飞开放平台2.0战略面向18条赛道重点发力行业低代码、零代码开发。讯飞在端到端建模、无监督训练、多模态融合、外部知识融入四个主要领域带来了众多技术创新，截至2021年12月31日，讯飞开放平台已开放449项AI产品及能力，聚集超过 293万开发者团队。而全新《1024计划》在源头创新、场景共创、共享生态、践行公益四个方面重点发力。

独行快，众行远。这句颠扑不破的老话，在智能化时代中削减了几分“不是、而是”的意味，演变成一种“既要、又要”的生存之术。

科大讯飞高级副总裁，研究院院长胡国平

“我们会有一些自己专注的赛道，但我们更多的还是把我们的核心的AI能力，能够用开放平台的方式去开放给更多的开发者和合作伙伴，由他们去找他们自己擅长或熟悉的行业和场景，去实现AI的赋能和落地。”科大讯飞公司联合创始人兼研究院院长胡国平说到，这就是科大讯飞的打法和战略。

科大讯飞董事长刘庆峰

同样，科大讯飞董事长刘庆峰曾说到，“当前，人工智能的发展正面临着场景驱动、数据支撑、技术驱动、资本助推四大机遇。我们一直坚定不移地认为，只有企业愿意开放出自己的资源和能力，形成产业链与生态体系，才能够生生不息地发展。”

讯飞希望让各个领域的开发者在开发各个行业的应用时，几乎不用了解核心技术，可以通过自由编排、可视化的逻辑处理来解决行业关键问题。

技术更好用，一是打造开源通用平台，与合作伙伴和开发者一起搭建人工智能时代的新基建，推动人工智能落地。二是当硬科技产业成熟以后，机会肯定会转移到各种应用创新层。

这就是科大讯飞秉持的“平台+赛道”的市场战略。科大讯飞研究院，在寻找更多的可能。

从技术中来，到产品中去

胡国平院长多次提到，“从技术中来，到产品中去。”

落地产品，多条赛道摆在面前。现在，讯飞研究院正在推进AI落地在教育、医疗、城市、生活、工业等场景的规模化应用。

以教育领域举例，科大讯飞早先关注到“规模化教育与个性化培养”的教育变革，适逢2021年教育双减的政策推出，顺势推出全新力作，关注中小学生教育的AI学习机。

刘庆峰表示，“我们一直在思考和探索人工智能的技术进步到底能给孩子带来什么？如何真正实现我们一直期待的因材施教、减负增效，实现教育的优质均衡？”

今天，我们有更多的教育大数据来帮助分析。

科大讯飞承担了中国教育部和国家发改委联合启动的教育大数据专项，统计了35亿次孩子的作业，走访了16个城市、5500名用户，汇聚了1万多条客户建议，最后合并同类项、确定权重，发现60%的作业练习是无效的、低效的、重复的。

普惠制教育下，不同的孩子做的是同样的练习题，老师和孩子不知道彼此的学业能力和提升方案。

如何做到教育平等地面向每个人、适合每个人、伴随每个人的教育？

科大讯飞将这个问题落脚于两点：AI学情诊断，AI成长守护。

进一步说，AI学情诊断功能一方面可以帮助教师减负增效，通过智能扫描批改试卷，快速找到学生快薄弱环节，进而有针对性地帮助孩子学习和巩固。另一方面，AI学习机创造了学生自主学习的技术条件，比如在1对1口语辅导，作文批改等难以定量的学习内容上，讯飞借助语义理解和推理技术，将个性化学习功能引入日常生活，为每个孩子规划出最优的提升路径。

另外，在孩子的学习成长中，学习机围绕家长关心的视力、坐姿、学习兴趣做了大量细节工作，比如在这款AI学习机中，搭载了一体式升降1600万双目前摄和内置的多颗传感器，推出跟随环境光源自动调节为护眼的低蓝光屏幕、防眩光的纸质书写膜、通过AI作答笔预测学习体态。

这背后，是讯飞研究院持之以恒的技术沉淀和应用决心。

从上世纪语音合成达到可用水平，到本世纪第一个十年启动语音评测、语音识别；第二个十年推动语音交互、语义理解、脑科学研究；第三个十年大力启动多语种研究和多模态融合交互技术，科大讯飞正在走一条“嘴巴唤醒大脑”、“大脑调动四肢”的进化道路。

同样，科大讯飞也希望用更智慧的AI，释放人类更大的创造力。

回过头看，“我在讯飞做了20多年的技术，我们讯飞研究院在干什么事情？”胡国平院长向自己求索，也向企业求索。

“第一，我们不是做语音的，我们是做深度学习算法的。

第二，我们不只是做技术的，更关键的是去预测未来两三年什么样的技术可以从不可用的状态或者说从实验状态变成可用好用，跨过使用门槛。”

科大讯飞研究院执行院长刘聪谈道，“十七年来，有幸经历了从几个人到1000多人的发展历程，亲自见证了讯飞研究院的探索、成长、突破、重构、革新等不同时期的关键阶段。

新的一年，新的时代，讯飞研究院将责无旁贷继续前行，用系统性创新解决重大社会刚需，立志于代表中国成为世界一流的研究院。”

未来，讯飞研究院依然会坚持深耕，「用正确的方法、做有用的研究」，继续推动推动智能语音及人工智能走在世界前列！

雷峰网雷峰网

实现开源商业化的「拦路虎」，是企业对待开源的错误态度

Fri, 24 Dec 2021 10:00:00 +0800

「国内企业必须认识到开源的价值，重视开源。」堵俊平谈道。

所谓「开源的价值」，包含两个层面的意思：一是开源软件对企业发展的助益，二是企业对形成良好开源生态的反哺。

前者的例证不胜枚举，国内大多互联网公司的蓬勃发展离不开「LAMP」（Linux、Apache、MySQL、PHP）的支持，也有越来越多企业拥抱开源。然而，国内开源发展至今，仍没有形成较好的商业闭环，大多企业对开源的态度是「能蹭则蹭」，为开源付费以及贡献的意愿普遍较低。

对此现象，最直接的佐证是：相比欧美，目前中国仍没有一家类似Databricks、Redhat这样估值高达几百亿美元的开源创业公司。Databricks成立于2013年，是一家顶级高校走出来的创业公司，目前已创建了一系列蓬勃发展的开源项目，比如Apache Spark以及Delta Lake等。

堵俊平是开源领域的资深人士，目前在华为担任云与计算开源业务总经理，同时担任开放原子开源基金会技术监督委员会主席、LF AI & Data 基金会主席，早年间曾是国内第一位在Hadoop项目中入选Committer的开发者。

结合在开源领域的多年耕耘与观察，堵俊平与AI科技评论探讨了他对国内企业参与开源发展的现状。他指出，目前很多企业仍是奉行「拿来主义」与「免费主义」，对开源软件采取「只使用不维护」的态度，这既没有发挥好开源的价值，也没有做好开源。最终，企业要背负越来越多的「技术债」。

要打破这种局面，企业必须学会「买票进场」，对开源进行合规管理。

1、国内企业普遍缺乏「为开源贡献」的意识

如今，开源已经渗入各行各业，成为企业技术创业的源动力之一。

除了TensorFlow与PyTorch等人工智能框架开源，全球企业在其他软硬件设施上的开源也发展地如火如荼：针对云计算管理的OpenStack、面向大数据的Hadoop与Spark、云原生Kubernetes……

近年来，我国企业也积极参与开源，在开源项目与开源社区上做了许多工作，比如华为昇思与欧拉、百度飞浆、旷视天元……不久前（12月22日），由腾讯、浪潮、OPPO等20余家厂商成立的操作系统开源社区OpenCloudOS又成立。这些都昭示着，中国企业的角色逐渐从开源的受益者向开源的贡献者、甚至推动者转变。

随着近几年国内的头部IT企业的管理者对开源越发重视，但据堵俊平观察，国内开源仍然面临着「叫好不叫座」的尴尬处境：一方面，同质化项目不断增加，造成特定场景用户的分流，比较难形成资源的积聚效应；另一方面，成功的商业开源项目凤毛麟角，国内在探索出有效的开源商业模式之路上仍有较长的路要走。

InfoQ曾总结国内企业对开源存在的两大误解：

免费：开源软件都是免费的，企业无需为开源软件付费，导致商业发行版市场空间降低。
合规：开源软件可以随意使用和 fork，导致企业技术债和安全漏洞频发、挤压商业发行版市场空间。

在IT产品逐渐云服务化的过程中，要想紧跟业务的需求，就必须将基础设施进行快速迭代，以适应业务的市场竞争。开源便是其中的一个重要推手。

向外输出IT服务的大公司，如华为、腾讯、阿里等，必然要参与开源，因为当开源成为大势所趋，如果对开源缺乏了解，那么很难向客户销售服务。而对于不向外销售IT类产品的公司，即使只做上层应用，下层仍需要使用大量软件。

从表面看，开源是免费的，但随着IT系统的技术越来越复杂，使用软件的隐性成本也在逐渐增加，对开源的后期维护便是其中之一。

「我们做软件的都知道，不存在没有bug的软件，开源软件亦然。无论是安全性还是功能性的漏洞，都是无法避免的。」堵俊平说道。

据美国网络安全公司Snyk发布的《2019年开源安全现状调查报告》显示，78％的漏洞存在于间接依赖关系中；37％的开源开发者在持续集成(CI)期间没有实施任何类型的安全测试，54％的开发者没有对 Docker 镜像进行任何安全测试；两年内应用程序的漏洞数量增长了 88％。

链接：http://www.199it.com/archives/839573.html

鉴于上述情况，业界在使用开源软件时，必须进行维护更新。途径无非两个：要么投入力量参与开源、贡献开源，与上游社区紧密结合，上游有bug、立刻修复；要么直接购买第三方企业的专业服务——这个需求也孵化了一批开源初创公司。

然而，当前国内企业对开源软件的维护更新意识并不强。在利害严峻的领域，比如金融行业，软件（无论是否开源）漏洞所造成的损失会非常巨大。而这样的损失往往与从发现漏洞到修复漏洞的时间成正比。

如果这样的开源关键技术，例如数据库，应用在关键的业务上，却没有投入专业人才进行维护，也没有购满专业团队的技术服务来进行维护，一旦漏洞引发上层应用出现问题，却不能及时得到解决，出现的损失则是天文数字。「这不得不引发我们对当前现状深深的担忧。」堵俊平谈到。

如果将开源软件比喻为「自来水」，开源商业公司是「自来水厂」，那么国内开源的短板就在于没有形成一个「使用开源需要付水费」的机制：

「大家拧开水龙头，有水就用，但没有维护。后来自来水厂破产了，破产后，水龙头流出来的水还会是过去有人精心维护、净化过的水吗？自然不是了。」堵俊平谈道，「目前我国千行百业都还没有深入认识到这个问题，只有几个头部IT大厂在重点推动。」

今年10月，为了提升金融企业对开源管理的意识，中国人民银行等五部门发表了关于规范金融业开源技术应用与发展的意见，指明了在使用开源软件中投入维护的利害性。

相较而言，欧美在开源的商业闭环上做得较为成功，在开源中，厂商、开发者、开源公司等均能通过自己的贡献来获得商业回报，但中国在开源商业化一块仍是乱象丛生。

「中国没有Databricks这类成功的开源商业公司，是因为中国的开发者笨吗？不是的。是因为大家觉得能免费用就用，能蹭就蹭，在用户价值一环没有完成闭环。」堵俊平总结。

2、开源应像「热带雨林」

堵俊平认为，将开源比喻成一片亚马逊原始森林。在开源的世界里，有大公司、小公司，也有新创立的公司：

「亚马逊的原始森林发展地这么好，正是因为它蓬勃、有生机，其实开源也是这样。开源当中需要大树、河流，也需要各种各样的小树、蘑菇、菌菇等等，形成一种共生的关系。我认为开源的好处就是，大家可以在一种充满各种可能的环境中蓬勃生长。」

为了提高企业对开源价值的意识，华为在今年9月发起「开源雨林」计划。

一般来说，开源工作都是从供给侧讨论开发者或厂商对开源社区的贡献，而「开源雨林」是希望从消费侧引导企业正确认识开源、理解开源，从而完成较好的开源循环。

具体而言，华为将联合第三方机构把相关的理论和案例总结为若干门开源专业课程，以授课的方式让企业快速具备实战基础。同时，华为也会选择和部分伙伴与客户共建开源能力中心，或者采用联合创新项目的方式完成企业开源相关的组织和流程搭建，让这些企业具备开源实战能力。

作为开源社区的贡献者、同时又是厂商的开源策略决策者，堵俊平表示：「开源供给侧与消费侧的工作我都有在做。在开放原子基金会与 LF AI & Data 基金会，我是推动更多好项目去开源。在应用侧，我希望做的事是引导国内的企业理解开源的价值，投入到开源的创新中。」

从某种意义上来说，开源的合作性质与商业的竞争性质是相互矛盾的。为了平衡企业在开源中的竞争关系，建立公平、开放、透明的开源社区氛围是必要的；同时，发展具有中立性的基金会也是必要的，如开放原子开源基金会、LF AI & Data基金会。

此外，企业参与开源的形式也有许多。堵俊平介绍，在国外，有些企业长期不直接参与项目的开源，而是将开源项目云服务化，进而从中获取利润。「虽然这不是传统观念中的开源贡献，开源领域对这种方式也褒贬不一，但至少它成功促进了开源项目的推广，也证明开源项目具备商业价值，具备产业化的能力。」

根据信通院发布的 2020 开源生态白皮书显示，2019 年，超半数企业使用开源软件应用于数据库方向，云计算领域已普遍应用云计算开源技术，超七成的企业应用开源容器技术，超六成的企业已经应用或正在测试微服务框架。

云计算是近年最火热的商业模式之一。堵俊平认为，在云时代，开源会对各个行业产生巨大影响。

云的核心是将IT产品互联网服务化，这就意味着为了提高效率以及简化使用，需要有一些标准，将云厂商之间的相似服务合并，在数千种服务中形成数十个颗粒度大的标准服务，从而覆盖所有的用户需求，而开源能很好地解决这个问题。雷峰网

「因为开源的本质是通过大家开放合作与竞争，最终形成对行业或领域的事实标准。对于用户而言，他可以免费获得，用起来，好的东西就不会被垄断。大家都愿意去形成一个趋势。所以开源是一个『能让好用的软件产品能够成为一个事实标准』的好手段。」堵俊平评论。

而与此同时，云对开源来说又意味着什么？

从上世纪六七十年代至今，开源已走过半个多世纪，经历了「个人英雄主义」到「企业成为开源主力」的鲜明转变。企业要持续进行开源，不去商业化是不可能的。

开源商业化有许多变现途径，云服务化是越来越普遍的方式。虽然开源是免费的，但将开源软件搬到云上、与基础设施进行深度融合以后，开源软件便成为「所见即所得」，开箱即用，完成商业闭环，真正产生应用价值。雷峰网

换言之，开源能够持续发展，也需要云计算这样的创新商业模式。

3、结语

有数据显示，中国的 500 强企业中，有超过90%的企业没有真正了解开源，参与开源贡献的仅十几家。相比而言，全球500 强企业中有 79.2% 了解开源，并且 22% 参与了开源贡献。

如果将开源比作一座戏院，看戏的人不买门票进场，而是千方百计找后门，终有一天，戏院也会倒闭。国内开源要走出「叫好不叫座」的尴尬处境，除了头部厂商的引领，最终还是要依仗各大中小企业的实际参与。雷峰网

开源界有一句流行语：「开源不是零和游戏，你在帮助别人的同时也在帮助你自己。」

「拿来主义」在开源领域的诟病由来已久。随着开源生态的愈趋完善，企业将越来越多地受到开源的影响，时代也在呼唤「贡献者文化」。这时，如果只是伸手、而对回报缄口不言，将是逆潮流而行。而我们都知道，违背事物发展规律是要受罚的。

与其他日遭受血泪教训，不如尽早未雨绸缪罢。

参考链接：

1、https://segmentfault.com/a/1190000039079846

2、http://www.cac.gov.cn/2021-10/27/c_1636928705274546.htm

3、http://www.199it.com/archives/839573.html

4、https://xw.qq.com/cmsid/20211008A05VSZ00

4K葫芦娃重生的秘密，藏在火山引擎里

Thu, 21 Oct 2021 18:53:00 +0800

很快，远处的一个黑点变成了清晰的火车头，形形色色的旅客们涌了上来。

火车减速，沿月台缓缓停下，车厢门打开，奥古斯特·卢米埃尔夫人领着两个穿白衣服的孩子走进了车厢......紧接着，一个穿洁白冬装的少女走了过来，无意间看到了摄像机，她流露出害羞的表情，悄悄的躲过了镜头......

没有复杂的拍摄技巧，没有丰富的电影语言，一个简单的火车进站的纵深镜头，真实呈现了19世纪90年代法国旅客候车时的情景。

这部《火车进站》是由卢米埃尔兄弟执导的世界上第一部电影，只有50s的黑白无声影片在当时那个年代给人们带来了极强的新鲜感，如今经过4K修复仍有一种浓厚的历史韵味。

电影修复技术经过20年的发展，使大量经典、重要且珍贵的胶片电影摆脱了蒙尘的命运。《海上钢琴师》《永不消失的电波》《英雄本色》《阿飞正传》等影史经典以全新的面貌重映银屏，带回了一代人的青春记忆，也展现了老电影独特的魅力。

《永不消失的电波》4k修复剧照

4K修复既能保留胶片电影特有的质感，又能适应电影的数字化，可以说是胶片时代过渡到数字时代的良好选择。然而，这些经典电影“旧貌换新颜”的背后却是巨额的成本投入，电影修复一直都是一门大产业。

一部影片要想完成4K修复起码需要两三个月、甚至半年之久。而“周期长”意味着“成本高”，影片《决胜时刻》从修复、投资到上映大概花了上千万，詹姆斯.卡梅隆的传世之作3D版《泰坦尼克号》更是耗资6千多万元。

除了高额资金成本，人力短缺也是4K修复的一大桎梏。《开国大典》中一段10分钟的镜头片段动用了600个人，而且这些人不仅要对电影艺术有很深的了解，更要知晓胶片的物理性质、化学性质、软件修复技术以及电影特效等专业知识。

对于浩如烟海的胶片电影而言，修复工作是一项与时间赛跑的“抢救工作”。

近日，西瓜视频与火山引擎共同发布了“经典中视频4k修复计划”，表示在未来一年内，将与央视动漫和上海美术电影制片厂合作，共同利用4K技术修复《舒克与贝塔》《西游记》等 100 部家喻户晓的经典动画。

哪吒传奇（2003）、围棋少年（2005）、围棋少年（2）、大头儿子和小头爸爸（1995）、小鲤鱼历险记（2007）、我为歌狂（2001）、葫芦兄弟（1986）、三个和尚、小蝌蚪找妈妈、黑猫警长1-5集、九色鹿、舒克和贝塔1-13集、没头脑和不高兴1-26集、邋遢大王奇遇记1-13集、西游记、魔方大厦1-10集、猴子捞月、大盗贼1-8集、葫芦小金刚1-6集、南郭先生、曹冲称象、大耳朵图图（第一季）、人参娃娃、镜花缘1-4集、小鲤鱼跳龙门、东郭先生、鹬蚌相争、老狼请客、咕咚来了、崂山道士、半夜鸡叫、十二生肖1-13集、小虎还乡、骄傲的将军、超级肥皂、济公斗蟋蟀、人参王国、阿凡提的故事1-13集、过猴山、大英雄狄青1-52集、狼来了等100部影片。（修复后的内容，用户可免费在西瓜视频观看）

发布会上，针对当前4K电影修复成本高、周期长、人力短缺等缺点，火山引擎多媒体实验室研究员赵世杰给出了火山引擎“智能处理”解决方案。他表示，通过超分辨率、智能插帧、色彩增强、降噪等自研算法，AI能够大幅提升老片的修复效率和质量。

4k修复，还原艺术本色

发布会上，哪吒、葫芦娃、黑猫警长，一个个经典形象以超高分辨率出现在大屏幕上，每个画面细节都被完美呈现，光影层次也变得流畅，给现场观众带来了不一样的童年感受。

所谓电影修复，其实就是将年代久远的胶片电影重新拷贝到数字载体上，通过修复、降噪、补光、调色等技术处理，还原和优化影片原貌的过程。

2k技术是早期电影修复的主要手段，用于清除影片杂质、噪音，让画面恢复最初的视觉质感；4k技术在分辨率上要求更高、更精细，除了清晰度和流畅度外，注重影片的原始色调和光影层次，为观众打造身临其境的感觉。

2014年上映的《舞台姐妹》是国内首部4K修复电影，这部4K扫描、4K输出的全彩修复影片令当时的观众耳目一新。后来随着修复技术的日臻完善，2019年上映的修复版《那人那山那狗》《滑铁卢战役》《决胜时刻》接连成为电影市场的现象级作品。从这一年开始，4K修复版电影开始走进大众的观影生活，电影修复技术也正式由“2K时代”迈入“4K时代”。

尽管有了AI，4k电影修复仍是一项艰难且繁重的任务。赵世杰介绍，受到拍摄条件和胶片保存、使用过程中的损伤等因素影响，老电影普遍清晰度低、流畅度低、色彩失真、有瑕疵等不同程度的画质问题。

在过去，老电影主要采用胶片作为拍摄和存储的介质。早期胶片的材料是一种比纸更易燃的硝酸片基，后来发展出醋酸片基、涤纶片基取而代之，但不管是哪种片基，在常温状态下都很难保存，温度、湿度以及搬运移动、使用播映外部因素很容易造成胶片损伤。

图源：北京商报

目前中国电影资料馆保存了近3万部胶片影片资料，这些胶片由于年代久远，保存条件不够理想或者转印、播放次数过多等原因，普遍存在着灰尘、污垢、霉斑、掉色、图像抖动、划痕、闪烁、噪声、变色、模糊等各种问题。

而胶片质量直接影响着人工修复的难度和时间成本。正常情况下，一位熟练的修复师一天最多可以修复200帧画面，但如果胶片保存不佳，脏污、裂痕、变色等问题严重，修复师一天可能只能修复一秒（24帧），再者，如果画面涉及夜戏、雨戏、烟雾戏、特效戏等复杂场景，修复周期更是成倍增加。在2019年上映的4K修复版《开国大典》中，一段拍摄于1945年和1945年之前的片段，全长只有10分钟，占用了整个修复团队70%的时间。

由于胶片质量和所用时间不同，修复的花费也不尽相同，但一部90分钟标准时长的4K影片修复通常需要百万人民币以上，且从物理修补，数字化转换，再到声画合成、调色，整个修复过程难度不亚于制作一部新片。

其实抛开成本问题，电影修复最大的难题是如何保留影片艺术风格和美感，4K修复版电影曾一度因为颠覆胶片的美感而引发争议。一部老电影，经过漫长的岁月侵蚀，早已变得暗淡模糊，通过AI技术把它修复得光鲜漂亮并不是难，难的是如何还原原来老电影的感觉。因此，如何赋予AI以“艺术修养”，是火山引擎所要攻克的核心问题。

四大智能算法，用“实力”让情怀落地

“不管是修复动画片，还是修复老电影，归根到底，都不只是为了提高它的清晰度，而是修复这些内容背后的记忆，通过这些记忆在几代人之间产生共鸣和火花，才是修复的价值所在。”西瓜视频总裁任利锋表示，经典作品凝结了老艺术家的智慧与精神，需要我们真实地去还原和呈现。

在首批修复的动画作品中，经典水墨剪纸动画《葫芦兄弟》也在其中，这部根据民间文学《十兄弟》改编的极具神话色彩的动画片，是70、80后的共同回忆。为了保留水墨和剪纸独有的艺术感，赵世杰坦言，他们修复《葫芦兄弟》时多次与制片方讨论方案，经过反复测试和调优才达到理想效果。

在算法方面，为了防止“误伤”水墨朦胧的艺术效果，他们在消除瑕疵算法上没有设置很高的强度，而是“故意”漏掉一部分瑕疵交由人工辅助处理。对损伤严重的老片来说，彻底消除瑕疵需要投入大量人力。火山引擎修复数据显示，算法能够直接消除95%以上的瑕疵，余下的经过人工标注后再调整算法做二次优化。

据了解，此次4K修复使用了火山引擎智能处理产品中的部分技术能力，通过超分辨率、智能插帧、智能降噪、色彩增强等算法增强视频画质。其修复过程大致为，先利用视频降噪算法做前期处理，再进一步通过几类不同的超分辨率算法增强将画幅扩大到4K分辨率，并生成更精细的细节，最后再通过插帧算法网络和HDR重制算法，将一个原本充斥着噪声和压缩损伤问题的视频增强为一个主观画质舒适的4K 60帧HDR节目。以下为各项功能及优势的简单介绍：

智能超分：根据已有的图像、视频信息重构缺失的细节，解决老片普遍存在的模糊、清晰度差、分辨率低的问题。

超分辨率 (Super-Resolution，简称超分）在视觉处理方面的广泛应用，使其有了非常成熟的解决方案。火山引擎的技术创新主要体现在时域建模和自适应处理。前者可自动生成恢复出额外的细节，后者可对视频或图像进行“区域分片”处理，以确保不同视频/图像区域的风格和美感。

智能插帧：使用深度学习算法，将低帧率视频通过插帧的方式变为高帧率视频，让视频变得更顺滑流畅。

老动画片容易出现卡顿、流畅度不佳的现象，主要是因为影片绘画帧数少。智能插帧技术的功效就是通过分析前后帧的动态和内容，生成中间帧，进而提升视频帧率和流畅度。关于动画纹理少的问题，现阶段的解决方案难以判断前后帧对应的运动块，针对这个问题，火山引擎采用块光流进行优化，提高了插帧的精准度。

视频降噪：消除胶片存放以及转录过程中带来的各种噪点以及闪烁等缺陷。

常见的视频降噪算法在消除噪声的同时，容易对纹理区域有破坏，火山引擎方案通过对纹理、噪声的智能分析，在去噪的同时尽可能地保留视频原有纹理不受影响。

划痕修复：对视频中胶片的划痕损伤进行识别和修复。

对于常见的胶片划痕，考虑到修复难度和效果，火山引擎采用了“算法+人工”相结合的解决方案。从现有研究来看，如果使用纯AI技术进行修复，密集且微小的划痕很难被全部发现，也容易出现“误伤”的情况；相对来说，人工修复的效果会更好，但它需要更多的时间和资金，效率反而降低了。火山引擎的方案是先使用算法初步修复小划痕，人工标注算法再“查漏补缺”，修补大的划痕，实验证明，算法对通过人工标注的结果进行再修复，所达到的效率和效果都是最优的，而这一点也恰好体现了火山引擎“虽有先进音视频技术，却不唯技术”的理念。

锯齿修复：针对影片下采样时出现的锯齿线条和频谱混淆，有针对性设计了一个独立算法。

锯齿修复所要解决的关键问题是锯齿定位。与划痕不同，并不是每一张图像都会出现锯齿线条。火山引擎多媒体实验室团队经过多次尝试和实验，发现锯齿效应通常是由数字化扫描不精准引入的，目前业界的修复算法和工具都没有相对应的解决方案。所以火山引擎针对性地设计了一套优化算法，使锯齿的修复效果得到了很大的改善。

SDR To HDR：针对质量较低的视频，从色彩、对比度、细节及画面层次等维度进行分析，对低质问题进行自适应处理，提高源视频的质量和转码后视频质量。

无论是产业界，还是学术界，从现有的SDR视频中恢复更高动态范围和色彩广度的HDR视频的需求一直在持续增长。一般来讲，如果标准动态范围没有太大提升，很可能就会出现画面像素过多，质量不高，且无法呈现更丰富的层次和细节等影响。与SDR相比，高动态范围（High Dynamic Range，HDR）可以提供更丰富的细节，更宽广的色域和更自然的色彩过渡，呈现更高品质的的图像。

火山引擎，与生俱来的视频能力

火山引擎是字节跳动旗下的企业级技术服务平台，围绕音视频技术搭建了视频点播、veImageX、企业直播、视频直播、实时音视频、云编辑、智能处理于一体的视频云产品矩阵。视频云属于火山引擎中台层面的服务，其最大的优势是拥有抖音、西瓜视频、今日头条等实战场地，能够在丰富的场景下不断迭代、打磨音视频能力。

火山引擎视频云产品负责人Keith此前在接受媒体采访时表示，“我们会在抖音和西瓜场景中，不断去探索视频播放体验的极致，同时解决这个过程中出现的大规模问题。而这些问题的解决方案，我们会把它沉淀成方法论，然后融合到火山引擎视频云的产品中去。”

所有音视频产品发展到一定规模后，其突破点一定是“细节”的处理，早在2016年，字节跳动就上线了大规模测试平台A/B测试，为字节跳动算法和产品提供检验和优化的平台。A/B测试连接抖音、西瓜视频等全线业务后，每天开展上万场测试，单日新增实验数量最高超过了1500个，覆盖500多个大大小小的业务。此次4K修复技术用到的智能插帧、智能超分、智能降噪等算法已经过了A/B测试及多平台多场景的千锤百炼。

标准被誉为高科技产业王冠上的宝石。谁在标准中拥有更多专利，在产业中就拥有更大的话语权与主动权。正因为如此，各大科技巨头都高度重视标准制定，将相关专利技术视为核心资产。

在国际标准H.266/VVC贡献者排行榜上，字节跳动排名第三，仅次于高通和华为。

作为一家没有参与上一代视频编解码标准开发的互联网公司，字节跳动实现了从标准跟随者到制定者的跨越。而在新一代视频编解码标准制定过程中，字节跳动发起的100多项技术提案获得H.266/VVC标准采纳，形成一系列原创性技术。

除了标准化工作的重要贡献之外，火山引擎多媒体实验室团队在H.266/VVC商业化落地方向也做出了积极的贡献。

早在2019年6月，火山引擎已经完成满足点播场景应用的自研编码器BVC第一个版本，该版本与x265编码器相比，在相同计算资源下，针对大量的1080p高清视频，BVC编码器可以将平均码率下降33%。之后，BVC经过不断迭代，性能又有大幅提升。除了自研编码器，自研解码器也已经配套完成，在高端手机上可以做到实时流畅播放高清和超高清视频。

H.266标准之后，火山引擎对视频编码技术仍在进一步探索，目前侧重的两个方向，一个是基于新兴深度学习的视频压缩（也包括深度学习和传统混合视频编码框架的结合），另外一个是基于传统混合视频编码框架技术的继续挖掘。尽管还只是刚刚开始，但已经取得了突破性的进展：

基于深度学习的自适应滤波器DAM算法，获取15%以上的性能增益；
基于混合视频编码框架融合多项技术，获得超过13%以上的性能增益。

其中，自适应滤波器(DAM)算法，主干是基于残差单元堆叠的深度卷积网络，辅以自适应模型选择以最大程度适应特性复杂的自然视频。所谓残差单元是指通过引入跳层连接，允许网络把注意力放在变化的残差上，这与视频图像帧之间的残差有异曲同工之妙，比如武林高手决斗，“剑光一闪”，每一帧图像绝大部分内容是相同的，闪动的剑光形成残差，这也是视频编码压缩的重点关注对象。

实验结果显示，相比H.266/VVC最新标准，字节跳动的DAM解决方案能够为视频编码性能带来显著提升，亮度信号Y可实现10.28%的性能增益，两个色度信号U和V，性能增益也分别达到28.22%和27.97%，在视频质量有所优化的同时，至少还可缩小13%的数据体积。

火山引擎多媒体实验室的各项研究成果，也将通过BVC编码器的升级换代投入应用，包括抖音、西瓜视频、今日头条等 App的视频类内容处理，以及云计算、云游戏等基础架构领域，为用户带来更高清画质、更流畅的视频体验。

小结

火山引擎定位为字节跳动对外提供技术服务的窗口，从统一的基础服务、技术中台、智能应用和行业解决方案四个方向面对B端提供技术支撑。在过去九年，字节跳动沉淀了大量增长方法、工具和技术能力，这些能力在火山引擎上有机地组合成为了 60 多款单品，被统称为『智能增长技术』。如今数字化转型和企业服务行业迅猛发展，火山引擎『智能增长技术』亟需走向市场，接受打磨和考验。

火山引擎启动大规模修复经典4k中视频，扩大了其音视频能力的应用范围，同时也为推动中国文化遗产保护做出了贡献。老电影修复是一项与时间赛跑的“抢救工作”，很多珍贵、重要的经典影片遗产再不修复就毁了。 2006年，中国电影资料馆牵头启动“电影档案影片数字化修护工程”项目，率先开始了发现、收集、拯救、保存中国胶片电影的工作，截止目前已经修复了500多部2K以上的国产电影，但要想赢得这场“竞赛”，提升AI技术能力终究是根本解决之道。

雷锋网雷锋网雷锋网

百度吴甜：首席AI架构师培养计划持续为行业输送高端复合型AI人才

Fri, 15 Oct 2021 18:52:00 +0800

10月15日，深度学习技术及应用国家工程实验室与百度联合发起创办的AICA首席AI架构师培养计划第五期在京迎来开学典礼，来自能源、制造、金融、互联网、零售等13个行业领域的66位企业CTO及技术高管学员正式开启首席AI架构师成长之旅。

以人工智能为代表的新一代信息技术，将成为我国“十四五”期间推动经济高质量发展、建设创新型国家，实现产业智能化的重要技术保障和核心驱动力之一。加速产业科技创新，需要产业生态链多角色协同，既需要建设基础共性平台持续降低技术应用门槛，让更广泛的使用者可以便捷应用，还需要培养新一代复合型AI人才。基于此，AICA首席AI架构师培养计划统筹了百度及飞桨的顶级技术专家、产业应用经验和生态赋能资源，推动树立产业AI人才培养标准，助力产业解决高端AI人才培养的难题。

百度集团副总裁、深度学习技术及应用国家工程实验室副主任吴甜在AICA五期开学典礼致辞

开学典礼现场，百度集团副总裁、深度学习技术及应用国家工程实验室副主任吴甜谈到，各行各业拥抱AI，人才建设需先行，产业亟需培养集业务理解、技术理解和工程实践为一体的复合型AI人才。AICA自2019年启动以来，经过四期，已向业界培养了190名AI架构师，遍布数十个行业。本期学员所属的行业与场景呈现出更多元和前沿的特点，所关注的AI与业务的融合问题更加具体且深入。吴甜表示，希望学员学习理解技术的本质和能力边界，将其用于解决真实场景中的真实问题，在实践过程中积累经验和提升能力。

AICA首席AI架构师培养计划第五期通过层层选拔，最终录取了包括中国石油、国家电网、中国石化、霍尼韦尔、中国海油、法国电信、光大银行、东方航空等企业的66名学员，企业首席技术官与科学家等高级技术管理者占比91%，500强企业学员占比较往期提高一倍，学员的背景经验和能力模型向着更AI专业化、工程化方向的交叉融合扩展。

AICA首席AI架构师培养计划第五期开学典礼现场

百度深度学习技术平台部高级总监马艳军对人工智能时代下的AI架构师进行了深入解读。AI架构师是AI产业化落地催生的新型复合人才，需要具备对AI技术和开发应用流程的整体掌握能力、对业务问题进行技术抽象的能力和设计并实现高效合理的AI落地方案的能力。此外，AI架构师还要具备综合素质，即对技术团队有很强的AI技术影响力，也能从整体上构建以AI为核心的技术体系，充分发挥AI技术对业务的助力作用。

AICA首席AI架构师培养计划首批飞行助教

据介绍，AICA首席AI架构师培养计划的教学方案包含4次线下闭门核心课程、若干选修课程及活动，学员将通过开题报告、专家授课、项目研讨、毕业答辩全流程，积极推动企业AI项目落地应用。本期课程设置在保留以往核心课程、内部助教全程常驻等设置下，还重磅推出引入“飞行助教”。飞行助教是从往期毕业的190名AI架构师中，结合专业技术、产业落地等综合能力，邀请的10位优秀AI架构师，他们将在之后的四个月时间里，为学员不间断地进行产业落地咨询和技术指导。

现场，浙江能源集团技术研究院朱凌风、中国资源卫星应用中心应用服务部副部长李俊杰分别作为AICA往期优秀学员和新学员企业领导代表进行发言。朱凌风表示，在课程中，学员可以与百度技术专家、架构师深度交流，能够结识各行各业的优秀同学、技术大牛，并得到授课老师、指导专家、助教“三师制”的全程指导，这些帮助使他更有信心也更高效率地完成了电厂设备故障智能预判项目，收获颇丰。李俊杰从遥感行业的智能化升级谈及AI落地，认为深度学习在遥感图像超分辨率、目标检测、语义分割、变化检测等方面都取得了较大进展，并看好AI+遥感的大规模应用。

随后，学员们正式开始了本期培养计划的第一课《深度学习的再认识》，重新认识AI架构师与深度学习技术的关系，并从传统AI技术、业务应用落地和AI的未来发展三个角度了解深度学习的价值。

为了让AI架构师的成长有迹可循，AICA首席AI架构师培养计划为业界指引方向，沉淀出《深度学习工程师技能图谱》提供技术方面的学习指南，《AI架构师》白皮书更是集百度最资深架构师经验为一体，阐明AI产业落地方法论。《AI架构师》从多维度、多角度描述新时代“业务+算法+架构”三位一体的AI架构师转型路径，带业界AI人才一同预见AI 产业落地前瞻变量。

产业数字化转型与智能化升级的速度与成效，归根到底是相关人才的转型与升级。越来越多的企业将面临从应用AI技术跨入AI工业大生产的升级阶段，AICA首席AI架构师培养计划也将持续为企业学员提供强有力的知识、经验与资源支撑，助力高端复合型AI人才培养，一起为国家科技创新和产业智能化升级贡献自己的力量！

雷锋网雷锋网雷锋网

机器人学国家重点实验室副主任刘连庆：为什么要开发基于生物细胞和细菌的微纳机器人？

Thu, 30 Sep 2021 11:55:00 +0800

2021年9月10-13日，2021世界机器人大会（WRC）在京召开。

在12日全天的未来峰会上，中国科学院沈阳自动化研究室主任、机器人学国家重点实验室副主任刘连庆，主持召开了人机共融未来时代的 “新前景”、“新风向”两项论坛，并重点分享了微纳机器人和类生命机器人的研究进展与发展趋势。

刘连庆主任负责机器人学国家重点实验室微纳机器人和类生命系统课题组，从事微纳尺度下机器人的感知、驱动和控制方法研究，推动生物医学应用；以及生命系统和机电系统的融合方法、类生命体的建模和控制技术，推动新一代机器人系统创新突破。

在我们所处的宏观世界中有多种机器人，比如各种工业机器人、服务机器人、特种机器人等。而在微观世界中进行探索和操作则需要一类“小”机器人，它们能在微米尺度甚至纳米尺度进行操作，这就是微纳米机器人。

由于微型机器人尺寸小，所以它可以进入比较狭小的空间，比如微流控管道，生物芯片，甚至生物体血管内。通过控制微型机器人的运动，可指定它到一个位置进行探测。

在对话中，刘连庆主任讲到，现在的微纳机器人面临的主要问题是如何找到合适的材料和驱动能源。大的趋势是逐渐向活性、完全生物兼容性、生物可降解的方向发展，比如人体寄生细菌、心肌细胞或者骨骼肌细胞。现在刘老师团队正在研究用趋光性藻类细菌做机器人，也在考虑通过人体自然腔道的路径推动高效治疗。

交谈中，刘连庆主任流露出一个真切的态度：科技工程要有抓手。类生命器件“抓”来了物种进化亿万年的生存能力，微纳机器人“抓”来了依附人体的寄生细菌。生命课题不仅要虚远处遥望，也要向实处探寻。生命体丰富，人体奥秘自有章法，要在创新中发现并发挥其价值，催动现代效能。

本次世界机器人大会上，雷锋网（雷锋网）有机会与刘连庆老师亲面对话，以下为对话实录。

Q：老师，您是长期从事微纳机器人学（微型机器人和纳米机器人）和类生命器件方向的研究，在研究领域，纳米机器人有多大?

刘连庆：纳米机器人的尺寸，学术界并没有严格定义，通常指机器人至少在一个维度达到了纳米尺度。这里说的纳米尺度并不是要求在1纳米(10的负9次方米)以下，可以在10纳米到100纳米之间。比如一个纳米机器很长，但很细，直径不到100纳米，也可以称为纳米机器人。也有学者认为纳米机器人只要本体尺寸小于1um(微米)就行，所以学术界通常用微纳机器人来泛指自身尺寸很小、能够注射进入人体的机器人。

Q：微纳机器人学和类生命机器人现在成熟度如何，达到了什么精度？

刘连庆：微纳机器人已经在实验室阶段了，类生命机器人程度更低一点。具体来说，微纳机器人已经在老鼠身上做实验了，类生命机器人现在还处在实验室探索阶段。

我举个例子，现在我们能够对微纳机器人进行群体控制，从而进行靶向药物的传递。现阶段能够在老鼠身上做实验，证明了在活体小动物上，纳米机器人可以被集群控制。同时，纳米机器人集群对实体瘤定向性杀伤作用效果显著。

不过必须要指出的是，学界并没有对这些老鼠进行长期的跟踪。如果在人身上使用时，纳米机器人不仅能够杀伤癌细胞，还要对人体尽可能没有副作用。但生物学实验上，目前几乎所有已发表的论文只关注主要指标，就是能不能把肿瘤消除，对老鼠其他生理状态观测比较少。所以，不能轻易下结论说微纳机器人比现有放疗、化疗好很多，只能说在“药物传递效率”这一指标上比传统方法要好。

类生命机器人跟动物和人体实验比较远。我们总是说仿生，仿生更侧重形态模仿和功能模仿，比如比较流行的四足机器人、仿蝙蝠机器人，都是比对着动物结构和功能发展而来，整个机器人的本体都是基于非生命体材料构建的。但类生命机器人不是仿生的概念，它是把生物进化的功能直接拿出来，集成在机器人上来用。

核心是将生命系统与机电系统在分子、细胞和组织尺度上进行深度有机的物理和信息融合，形成一种新型的基于生命功能机制的机器人系统，从而使机器人能够兼具生命系统的优势和传统机电系统的优点。

我举个例子，响尾蛇能感受红外线，它能感受红外线并不是依靠眼睛，它是有一个叫TRPA1的离子通道，我们就把离子通道拿出来，脱离响尾蛇而转染到一个模式细胞上，从而用这个细胞去感受红外线。

狗也一样，它有很好的嗅觉，我们搞清楚它的嗅觉的离子通道和基本原理，再把这些分子机理转染到我们的模式里，相当于我们做了一个人工的类生命器件，把狗的嗅觉能力在人工器件上得到复现。

我们做出了一个红外可见光的感知的器件，能感受红外线，灵敏度比响尾蛇还差很多，但这是走出的第一步。

Q：您之前说到人机共融这方面，第一步先是人机协同、第二步组织融合、第三步是细胞融合，这就是刚才您讲到的的类生命器件吧？

刘连庆：对，人机共融分三块。一个是独立个体的互助共融，比如有个工业协作机器人，机器和我是完全分开的物理体；还有一种是穿在身上的外骨骼机器人，它是身机同体的互补共融。比如我力量没那么大，但是外部骨骼给我一个力量，我就能举起来重物了。

还有一个是同生共体，简单的例子，比如说我想让这些电子器件跟身体长在一起，我一进屋，只要我就这么一想，灯就亮了。还比如说一个色盲的人，他做了一个传感器，上面带个相机，相机一拍照，他就能把这些颜色信息跟脑子连起来，直接传到大脑里，这样他就能“看”到紫外线了，说是看到，其实是探测到了。

Q：在昨天高小榕教授谈到，他现在对有创的脑机接口还是很谨慎的，您刚才谈到同生共体，这算是一种侵入式的机器人研究吗，现在的研究程度如何？

刘连庆：我刚才说的半人半机器那是更长远的事了，比如什么时候能做出一个机器人，让它像响尾蛇一样感受到红外，这太难了。我们可以先在人体外做测试，直接把生物在大自然亿万年中进化的功能在体外得以复现，这是一条路。

Q：目前国内外微纳机器人的研究进展如何?

刘连庆：从发表文章的数量、质量和实验进展来看，在微纳机器人方向上，我国跟国际领先水平是同步的。

从实验进展来看，也基本与国外持平，国内已将微纳机器人应用到小动物身上做实验了，比如老鼠等。现在大家都在争着往大动物上做，从大动物到灵长类再到人。但是能做灵长类实验需要经过严格的审批，全国有资质的单位并不多。“十四五”期间，我国科学家的目标是在大动物身上开展实验，比如家猪、狗等。

Q：那就是说微纳机器人主要往医学方向发展吧？

刘连庆：对，微纳机器人现在最重要的就是医学方向。今年上海交通大学携手《科学》杂志发布的“全世界最前沿的125个科学问题”中，人工智能领域有一个问题：“可注射的抗病纳米机器人会成为现实吗？”实际上，医学肿瘤治疗是现在大家最感兴趣的方向。

Q：微纳机器人真正落实到就是说到临床上，您觉得可能还要多少年？

刘连庆：这个挺难估计的，但是我觉得在大动物身上做实验5年之内肯定可以。目前，用大动物做实验准入门槛相对比较低，学校和有资格的医院可以联合做。如果想做猴子等灵长类动物的实验，需要进行严格审批。尽管技术是相通的，但从动物保护、伦理等方面考虑，想做灵长类动物或者人体实验，还需要一个相对较长的过程

Q：现在科学家研究纳米机器人用于医学上的癌症治疗，纳米机器人可以理解为靶向药吗?

刘连庆：我觉得还不全面。研究纳米机器人的一个目的是把它变成靶向药的载体，使其定向输送药，但是纳米机器人还有别的作用。举个例子，比如患者做了一个手术，在体内留下创伤。纳米机器人可以自己组织起来形成一个平面，类似于创可贴，贴在伤口上。此时它的作用就不是输送药，而是进行伤口的愈合。

随着今后的发展，科幻电影中的场景可能成真。比如纳米机器人有了执行能力，人体心脑血管有阻塞的地方，它可能相当于挖掘工或者搬运工，有手有爪，能抓住和杀死细胞，把阻塞部位疏通，所以把纳米机器人理解为靶向药并不全面。

虽然目前纳米机器人主要应用于医疗卫生、癌症治疗，但未来，它也可以像纳米灰尘一样，携带传感装置收集信号，可能对国防、环境监测发挥作用。

Q：老师您认为，在整个微纳机器人领域，难题是什么？

刘连庆：现在的纳米机器人各式各样的材料都有，但大的趋势是逐渐向生物可降解、完全生物兼容性的材料方向发展。因为要进入人体的纳米机器人，其材料一定要有生物兼容性。

目前使用最多的是磁性材料，但其生物兼容性稍微差一点儿。现在被研究的具有生物兼容性的材料很多，比较有代表性的是可降解的水凝胶或者多肽。但具有生物兼容性的材料也存在一个问题。举例来说，使用磁性材料，纳米机器人进到人体之后，人们可以通过外磁场对其进行控制。如果换成生物兼容性材料，能源从哪儿来、怎么控制它就变成了新的问题。

Q：老师您现在的一些课题项目都有哪些突破口？

刘连庆：我们现在在研究基于生物细胞和细菌的这种微纳机器人。人身上与很多种寄生的细菌，一是它毒性不大，而且是生物兼容的；二它能养活自己，从血液或者体液里等吸取能量。

比如我们用藻类细菌做机器人，因为它有趋光性，就可以通过导进光的方式实现它的控制。当然我们还会用细胞做机器人，比如从人身上取他自己的心肌细胞或者骨骼肌细胞，因为这个细胞和人体本来就是生物兼容的，还能代谢掉或者自己分泌成人体可以吸收的物质。

但是我现在在想，如果微纳机器人进入血液里治疗肿瘤比较难，走自然腔道可能会更快一点，就像一个超小胶囊。

所以我们刚才说到类生命机器人，指的就是要用活性材料来做机器人，而不是用无机材料，不是用铁、磁粉。那些都是死材料，我们要用活材料，用细胞、用细菌做微纳机器人的本体，我想这可能是生物兼容性的一个非常好的解决方案，第二对能源的供给也可能是一个比较好的解决方案。

Q：在微纳机器人领域，接下来这几年，您会有一个什么样的长远目标，或者是想要实现什么样的一个应用效率？

刘连庆：第一个就是大动物实验，这个是要做的。第二个我们想和国内外的一些医药企业合作，比如医药管理局。因为我们不能只看微纳机器人这一个综合指标，它进入人体把肿瘤杀伤，但它有没有副作用？现在的实验老鼠、猪、狗也不能显示准确的生理反应，但是从药物开发的角度仍然有很长的路要走，所以微纳机器人领域还要建立一个系统性的评价体系。

现在微纳机器人的主要指标是药物输送效率，治愈率，但是副作用和周边影响如何评价，我觉得这不仅是临床医生和我们搞工程的人就能做的，而是要和药学，甚至是药物审批管理结合起来，建立一个综合治疗体系。现在都是跟医生合作，还在一个初始阶段。

Q：您是第几次参加世界机器人大会，感觉怎么样，大会对您的研究领域有没有推进作用？

刘连庆：每次都来。我觉得世界机器人像机器人领域的奥林匹克竞赛，它不是一个纯学术会议。这是一个扩宽知识面的地方，方便大家了解整个机器人领域的前沿动态、最新产品。

我觉得世界机器人大会的定位挺不错的，因为学术上有ICRA、中国机器人学术年会那种纯学术的会议，还缺少一个能够面向公众，既有教育目的，又有信息传播能力，还能了解国内外学术及产业发展趋势的会议。这个大会不仅有论坛、大赛，还有企业展览，方便大家交很多朋友，这一点意义挺重要的。

雷锋网雷锋网雷锋网

最新研究：声音和词语在大脑中并行处理

Thu, 26 Aug 2021 09:55:00 +0800

受到生物神经网络的启发，目前深度神经网络已经被证实效果很好。如今，深度神经网络和深度学习在计算机视觉、语音识别和自然语言处理等许多重要问题上有着出色的表现。

神经网络本身是一般的函数逼近，这就是为什么它们几乎可以应用于任何从输入到输出空间复杂映射的机器学习问题。

然而深度神经网络更多的是关心所谓的端到端学习，内部发生什么事情它并不关心。这在认知科学里面叫“弱等价”，也就是说人和机器可以干同一件事，但是它们的内部过程并不是一样的。

或者和生物智能类似，深度神经网络要在增加内部的认知过程中，也应该和生物系统类似。此时，站在生物神经学的参照系下，或许能赋予AI语言处理更精细的洞察。

经过多年研究，神经科学家发现了人类大脑中处理语言声音的运行规则

8月18日，美国加州大学旧金山分校的研究人员在《细胞》杂志上发表论文称，听觉处理和语言处理是并行进行的。这与长期以来认为大脑先处理听觉信息，然后将其转化为语言信息的理论相矛盾。

最新研究表明：当含有语意的声音传到耳中，耳蜗将其转换成电信号，然后发送到位于颞叶的听觉皮层。

人脑左半球听觉皮层的位置和分区示意图

几十年来，科学家们一直认为，听觉皮层在处理语音时像工厂流水线一样有先后工序：首先，初级听觉皮层处理简单的声音信息，比如声音频率。然后，颞上回（superior temporal gyrus，STG）提取更重要的特征，如辅音和元音，将声音转换为有含义的单词。

但一直以来，这一理论缺乏直接证据的支持，因为它需要整个听觉皮层极高时空分辨率的详细神经生理学记录。这是一个挑战，原因是初级听觉皮层位于大脑额叶和颞叶的裂口深处。

美国加州大学旧金山分校神经科学家和神经外科医生Edward Chang说："所以，我们进行了这项研究，希望找到声音等低级表征转化为词汇等高级表征的证据。"

Edward Chang

这项研究的开展离不开一些患者的支持。几年时间里，有9名患者参与了实验。因为需要切除脑部肿瘤或定位引发癫痫的病灶，这些患者接受了神经外科手术。与此同时，他们同意让医生在手术过程中将微电极阵列放置在他们的听觉皮层，收集神经信号，用于分析语言功能和定位癫痫，以及研究听觉皮层如何处理语音信息。

"这是我们第一次可以直接从大脑表面同时覆盖听觉皮层的所有区域，研究声音到字词的转换。"Chang教授说。相比过去只能在有限的几个点记录神经活动的电信号，无疑是巨大的进步。

接着，在实验中，研究人员开始向参与者播放词组和短句，试图寻找信息从初级听觉皮层流向颞上回的迹象。按照原来的假设，这两个脑区应该会先后被激活。

然而，事实并非如此。他们观察到，播放句子时，颞上回某些区域的反应速度与初级听觉皮层一样快，也就是说，这两个区域同时开始处理声音信息。

在另一项实验中，研究人员用微弱的电流刺激患者的听觉皮层。按照原来的假设，刺激初级听觉皮层，很可能会扭曲患者对言语的感知。然而，这些患者表示，尽管刺激引起了某些声音的幻听，但他们仍能清楚地听到并重复对他们播放的字词。

相反，当研究人员用电流刺激患者的颞上回，患者报告说他们能听到有人在讲话，"但分辨不出字词"。"事实上，有一名患者说，听起来就像单词的音节发生了互换。"Chang教授说道。

综合这些证据，研究小组认为，大脑听觉皮层对声音和语音的信息处理是并行的，而不是传统模型所认为的串行处理。

传统语音处理模型过于简化，甚至很可能是错误的。研究人员推测，颞上回可能独立于初级听觉皮层而发挥作用，而不是作为初级听觉皮层处理的下一步。

语言处理的并行性可能会给医生提供治疗诵读困难症等病症的新思路。患有这些疾病的儿童在识别语音方面存在困难。

"虽然这是向前迈出的重要一步，但我们还不了解这个平行听觉系统。这些发现表明，声音信息的传递可能与我们想象的非常不同。这无疑带来了更多问题。"Chang说。

站在生物神经学的参照系下，AI语言处理被赋予更精细的洞察

生物神经元构成一层一层的网络，一层一层进行特征提取，这是深度学习已经模拟的，其实大脑还有一个根本不同，我们识别物体的时候不是像深度学习网络一样由简单到复杂的特征提取，而是有多条通路：

我们看到一个物体的时候，第一步会快速的从皮层下通路，对物体的整体的性质进行识别，这些信息到了高级脑区，和记忆、先验知识等进行融合，先猜测出来是什么东西，通过神经反馈再和深度学习模拟的那个慢速的腹侧通路进行动态交互，这个过程可能会经过几个回合，整个识别的过程都是输入和大脑内部的先验知识不断的相互比较印证的过程，而这个过程在目前是深度学习没有包含的，也是图像理解这个数学上不适定问题（ill-posed problem）的一个解决方案。

那为什么我们好像深度学习网络用的很好，我们没有包含动态的过程，由粗到细、由global到local的过程，也能做的挺好。或许是因为现在我们的任务太简单了，如果只是做静态图像的识别根本不需要这个，但是如果真的要做一个能够与环境动态交互、很自主的机器人，这样的计算需求就会出现，那个时候就需要动态交互的过程了。

而深度学习一般认为是黑盒子，每个人的模型得到大致相同的结果，但是也不完全一样，那么这里的一致性和不一致性到底体现在哪里。如果生物神经在语言处理方面搞的很清楚的话，实际上对深度神经网络的架构也会很有帮助。

资料来源：

https://mp.weixin.qq.com/s/agDJMUtJZf7XccdR6yzqlQ

https://mp.weixin.qq.com/s/h5C9s7nqsGBUTfITnjG8pQ

雷锋网雷锋网雷锋网

人工智能的民主化：低代码和无代码解决方案的兴起

Tue, 17 Aug 2021 11:15:00 +0800

今年早些时候，全球创新、研究与孵化总监René Schulte（雷内舒尔特）预测：2021年，人工智能的民主化和低代码/无代码解决方案将成为商界领袖应该关注的顶级技术趋势之一。

在他最近的文章《智能边缘AI视频分析》(Intelligent Edge AI Video Analytics)中，分享了一些证据和关键指标，表明人工智能民主化的预测是正确的，它正在通过现代人工智能工具使任何人都成为数据科学家。

低代码人工智能解决方案的增长

Gartner 等研究公司的分析师对人工智能的民主化进行了各种各样的描述，但都具有变革的特征，这是Gartner的最高效益评级。

例如，在公民数据科学中，领域专家可以利用易于使用的数据科学工具，而无需事先掌握数据科学知识。这是非常有用的，因为某一领域的专家，拥有多年的经验和领域专业知识，可以创建有价值的人工智能解决方案，速度可以媲美该领域的任何数据科学家。所有这些都没有数据科学的陡峭学习曲线。这种预先存在的专业知识不仅提高了解决方案的可行性、上市速度和ROI，而且还允许组织利用稀有的数据科学家资源来解决更复杂的问题，如优化模型。

其他越来越受欢迎的领域是 AI 增强设计（ AI-Augmented Design），其他越来越受欢迎的领域是人工智能增强设计，AI工具帮助自动创建或增强视觉设计、故事板、用户流程和表示层代码。此外，人工智能增强开发，一般使用机器学习和人工智能技术来加强应用程序开发，以更快、更一致、更高质量地交付软件。这对于低代码开发来说也特别有趣，因为副驾驶员AI助理甚至可以帮助完成代码片段。

对开发人员和其他技术相关工作的需求，特别是在人工智能和数据科学领域，正在持续增长。LinkedIn的新兴就业报告指出，未来5年，全球将新增不少于1.5亿个技术相关岗位。《2020年美国新兴就业报告》还估计，数据科学家和数据工程师职位每年将增长35%。最近的数据表明，需求还在进一步增长。以这样的速度增长，将很难找到足够的具备必要技能的专家来满足需求。低代码和无代码的人工智能工具为组织提供了机会，在公民数据科学家的帮助下缩小差距，他们不需要人工智能专家为许多场景构建AI解决方案。

商业领袖应该紧跟这些趋势，鼓励他们的领域专家、设计和开发团队评估和适应各种人工智能工具，以增强他们的能力，优化他们的工作流程。领导者还应该制定计划，教育员工如何负责任地使用这些工具，以及偏见数据的道德影响等。

以低代码应用平台为中心的Gartner 新兴技术趋势影响雷达图

Microsoft 的低代码和无代码 AI 解决方案

与大多数大型科技公司一样，微软也在公民开发人员、公民数据科学家领域进行了大量投资。他们的业务应用程序平台提供了各种引人注目的解决方案，从无代码或低代码到全代码开发。

Microsoft PowerPoint: 微软PPT中的人工智能增强设计已经集成在一些Office 365产品中，即PPT Designer。这一功能为幻灯片布局提供了建议，并有助于迅速将枯燥的幻灯片变成精心设计的幻灯片。它可以提供完全主题化的模板，或者某些改进建议，比如更好的文本可读性。为了便于访问，用户可以在演示期间利用自动替代文本、字幕和实时字幕。

这意味着AI完全集成在PowerPoint中，并在演示的所有阶段提供帮助，包括演示彩排，由虚拟演示者教练提供指导。

Microsoft Word： AI 增强写作也已集成到 Office 365 中，例如微软Word提供了一个带有文本预测功能的人工智能自动完成功能。这一功能不同于其他人工智能实验，它可以从一个简短的段落完成整个文本文件，而且为即将到来的单词组提供了加快打字速度的建议。Word还配备了AI工具，通过半自动替代文本生成和可访问性检查器，使文本更容易访问。

GitHub：人工智能增强开发最近由微软拥有的开源社区 GitHub 推出。GitHub 的Co-Pilot文本补全比一般的文本补全更优化，可以直接在 Visual Studio Code 编辑器中为代码行甚至整个函数和方法提供建议。Co-Pilot 利用了 OpenAI 的新 Codex AI 系统，该系统经过来自 GitHub 公共源代码存储库及其多种编程语言的数十亿行代码的训练。Co-Pilot 目前正处于私人预览计划中，但已经非常有希望通过自动化处理日常任务使开发人员的生活更轻松。

Azure Cognitive Services: 人工智能除了应用于 GitHub Co-Pilot，还有提供了一些服务可供开发人员轻松地将 AI 添加到他们的应用程序中。例如，Azure认知服务(Azure Cognitive Services)提供了广泛的服务，让每个开发人员都能接触到人工智能，而无需任何机器学习的专业知识。

认知服务允许用户通过简单的 REST API 调用或专门的 SDK 将看、听、说、搜索、理解和加速决策的能力嵌入到任何应用程序中。认知服务利用预先训练的 AI 模型，甚至可以根据特定需求定制，如定制视觉，以创建定制的人工智能计算机视觉解决方案。许多认知服务也可在边缘使用，并且可以在边缘设备上现场运行工作。

Azure Machine Learning Studio：这是微软另一个出色工具，无需编写任何代码即可构建 AI 模型。Azure ML Studio支持不同技能的用户，在包容性数据科学平台中结合了无代码和代码优先体验。它甚至具有AutoML功能，该技术将自动确定给定问题陈述和数据域的最佳机器学习模型架构。

Azure Machine Learning MLOps: Azure机器学习的另一个很好的特性是使用内置的机器学习操作来处理DevOps周期。MLOps提高了处理AI模型的效率，以更快地开发、部署和质量保证生命周期。

不要将MLOps与AIOps混淆，AIOps使用人工智能，通过自动解决问题和提高洞察力来简化IT运营管理。云计算时代，企业客户很少在本地运行他们的工作，而选择具有更多优势的云计算。一个小的缺点是不再看到实际的硬件。因此，洞察、故障排除等成为一个抽象的过程。

IT管理员去服务器室拉网线或排除错误故障的日子已经一去不复返了。此外，收集到的大量遥测和应用分析数据很难让人类自己消化，这就是AIOps可以提供帮助的地方，微软正在这一领域进行大量投资。

Azure已经有了一些内置的东西，比如Azure Monitor AIOps带有动态阈值的警报，无需以耗时的方式手动设置和调整阈值。相反，阈值是由机器学习基于历史行为自动设置的。通常，AIOps将使分析数据变得更有用，这些数据通常根本不被利用，或者仅以响应式的方式用于故障诊断。AIOps提供了一个机会，以一种前瞻性的方式利用分析数据，利用机器学习进行预测智能，并可以自动识别即将到来的问题。如果操作正确，可以在问题发生之前自动进行更改和调整，以增加正常运行时间和服务质量。因此，AIOps有潜力为云计算提供预测性维护，而无需编写任何代码。

Microsoft Power Platform： Microsoft 的低代码/无代码 (LC/NC) Power Platform允许用户轻松创建自定义应用程序，即使是非开发人员，也支持注入 AI 来创建智能应用程序，例如聊天机器人虚拟代理和自动化工具。

最近在 Build 开发者大会上，微软推出了一个新的令人兴奋的 Power Platform 附加产品，它利用了世界上最大的语言转换器模型之一，OpenAI 的 GPT-3。对于 Power Apps，它被用于各种用途，例如将自然语言转换为Power Fx公式（Power Apps 中使用的低代码机制）。因此，这是一种人工智能增强开发，用于定制应用的低代码创建。此外，它还支持示例编程，并将示例转换为 AI 生成的代码输出。所有这些都直接集成到 Power Apps Studio 中，以支持每个用户快速构建应用程序，同时在此过程中学习高级概念。

Power BI：这是 Microsoft Power Platform 的另一个非常强大的部分，提供数据驱动的见解。Valorem Reply 的数据驱动型企业团队拥有深厚的Power BI 专业知识，并定期提供免费培训机会，例如日间分析研讨会、日间仪表板研讨会和我们全新的全包式 Power Platform 研讨会。用户可以报名参加我们的免费活动，甚至可以在这里和这里为团队申请一个私人研讨会。此外，Valorem Reply 可以在托管服务模型中提供 Power BI 和 Power Platform 专业知识，允许组织在完全不需要专业技术知识的情况下体验这些工具的强大功能，或者在其内部团队加快速度时作为临时解决方案。

Azure Percept：这是一款端到端智能边缘解决方案，以 Azure 服务、工具和名为Azure Percept DK的开发工具包的形式出现，其中包含一系列预构建的 AI 模型。不过也可以使用无代码构建自定义模型，并通过 Azure Percept Studio 应用程序进行简化，包括半自动生成深度学习训练数据和自动触发的相机捕捉。

Lobe.ai：微软拥有多样化的产品组合，并为各种场景提供多种解决方案。在创建无代码 AI 模型的情况下，还有微软在 2018 年收购的Lobe.ai。Lobe的目标是通过易于使用的桌面应用程序真正实现机器学习的民主化，它提供了一个易于使用的桌面应用程序，可以免费在Windows或Mac电脑上预览。Lobe 利用开源 AI 模型架构和迁移学，习在用户自己的机器上训练自定义机器学习模型。这意味着所有数据都保存在本地，不需要互联网连接或登录。

用Lobe创建的低编码工作场所安全边缘AI

Lobe可用来为一种叫做图像分类的人工智能计算机视觉任务创建各种解决方案，利用视频分析的工作场所安全场景引入了自定义 Edge AI 独立解决方案。

Adafruit ML Kit for Lobe允许快速创建自定义低成本Edge AI解决方案，直接运行在树莓派4。结合微软的低代码人工智能平台，自定义人工智能视觉模型可以创建和部署在树莓派上，以快速和迭代的方法来开发边缘人工智能。

使用几百几千个手动标记的图像来训练模型听起来很费力，但实际上并没有那么难。Lobe 不仅允许导入图像，还可以使用网络摄像头快速捕捉照片并分配标签。Lobe 的 UX（用户体验）和 UI（用户界面）通过评估和微调的实时反馈使该任务变得非常简单和高效。

Lobe 基本上允许任何人，无论以前的数据科学经验如何，都可以导入图像并轻松标记它们以创建深度学习数据集。Lobe 将自动选择正确的 AI 模型架构并在后台开始训练，无需任何设置或配置。训练完成后，用户可以通过实时视觉反馈评估模型的准确性，然后对定制模型进行试验并通过提供评估结果的实时反馈来提高性能。随后可以将完成的模型导出为各种行业标准格式并嵌入到应用程序、网站或 Edge IoT 设备中。

编译来源：https://www.valoremreply.com/post/democratizationofai/

雷锋网雷锋网雷锋网

DeepMind的智能体成精了，还学会“发脾气”了？

Tue, 10 Aug 2021 16:01:00 +0800

DeepMind又造“小人”了！

这群小人就是英国人工智能实验室造出的“智能体”，不过只可以在游戏中看到。之前以4：1力挫世界围棋冠军李世石的阿尔法狗，就是这家实验室训练的智能体。

但你可能不知道的是，DeepMind”还训练过“象棋棋手”、“足球球员”、”电竞玩家“，甚至提出“人工生命"的言论。

最近的这群智能体，竟然能直接跳过数据填食，在开放式的任务环境中自我进化。

此前的阿尔法狗和阿尔法star，能力再强，也只能在各自的游戏里释放大招，超出自己的游戏范围立马“歇菜”。而这批小人却能在不同的游戏里游刃有余地完成任务，展现出超强的泛化能力。难道人工智能要迈出泛化“顽疾”了吗？

在一个抢夺高地金字塔的任务里，两个不同颜色的小人能力值相当。都没有跳跃功能的它们，开始“发脾气"乱扔东西。混乱中，竟把其中一块板子”扔“成了楼梯，长驱直入，任务完成！

多次实验发现，这些小人可以复现这种方法，难道这群智能体有了记忆？

不仅如此，小人还学会了“相对运动”--我上不去，你下来--借助板子直接把目标扒拉下来了! 甚至为了赢得比赛，多个小人学会了打配合，团体成长力刷刷上涨。

这种在虚拟游戏中自我进化的智能体，仅仅需要人为搭建一个任务环境，设计大量的任务目标，利用加强深度学习的方法，一步一步打通关，最终成为一个“十八般武艺”的智能体。

没有样本，没有经验，这些智能体究竟如何进化，零样本学习方式是否意味着这些智能体已经具备了基本的“自学意识”？

社会达尔文主义的训练场

相比之前做出的Ai足球场，这批智能体的训练场更像一个游戏“社会”，里面有无数个游戏房间，每个房间的游戏按照竞争性、平衡性、可选性、探索难度四个纬度进行区分。

不管是哪种任务，这批智能体都只能从最简单的开始，一步步解锁更复杂的游戏，这也导致整个游戏更像一个虚拟社会。

这些无需大数据集训练出来的智能体，每玩一次游戏就成长一次，在与各种环境的互动和“奖励”中，成长为一个更通用的智能体，也更类似于人工“生命”。

能让智能体自我进化的关键在于正确设计初始智能和进化规则。一开始是非常简单的，所有的复杂结构都是进化而来。就像婴儿做不了生孩子的事，布置任务的核心是不要超出智能体自身的改进能力。

根据 DeepMind的说法，每个AI智能体会在4000 个游戏房间中玩了大约 70万个独特的游戏，并在 340 万个任务中经历了 2000 亿个训练步骤。1 亿个步骤相当于大约 30 分钟的训练。按照这种训练方法，41天就能训练出一群“成年”智能体。

它还是不会思考

DeepMind表示，“单个AI智能体可以开发智能来实现多个目标，而不仅仅是一个目标。”

AI智能体新科技公司Pathmind 的CEO Chris Nicholson 也说到，“它学到的技能可以举一反三。例如，智能体学习抓取和操纵物体，就能完成敲锤子或者铺床的任务。而DeepMind 正在用编程为AI智能体在这个世界上设定目标，而这些AI智能体正在学习如何一一掌握它们。”

但是南加州大学计算机科学副教授 Sathyanaraya Raghavachary表示，这些智能体并不能定义为“生命”，尤其是关于智能体拥有身体感觉、时间意识以及理解目标的几个结论。

“即使是我们人类也没有完全意识到我们的身体，更不用说那些人工智能了。”

他讲到，一个活跃的身体对于大脑不可或缺，大脑要放在合适的身体意识和空间位置里进化。如果AI智能体能够理解它们的任务，何必需要 2000 亿步的模拟训练来达到最佳结果。总体而言，这个虚拟环境训练出来的AI智能体只是和以往的“大同小异”。

从理论到现实的路还很长

狭义的人工智能是“复制人类行为的元素”，在计算机中执行某种任务。例如实现对图像进行分类、定位照片中的对象、定义对象之间的边界等等。

这些系统旨在执行特定任务，而不具有解决问题的一般能力。

相比之下，Deepmind使用的“通用人工智能”有时也被称为人类级别的人工智能，因为它可以理解上下文、潜台词和社会线索，甚至被认为可能完全超过人类。

但是正如行为主义和认知主义之间的对抗，智能体是否具有解决问题的能力，并不能单纯地考虑统计的结果。善于“事后解释”任何观察到的行为，在实验室之外，都无法“预测”哪些行动即将发生。

编译来源：

https://bdtechtalks.com/2021/08/02/deepmind-xland-deep-reinforcement-learning/

雷锋网雷锋网雷锋网

像人类一样会“类比”的AI，才是真正的AI

Sat, 07 Aug 2021 09:11:00 +0800

最近，从事圣达菲研究所(Santa Fe Institute)的戴维斯复杂性研究的米切尔教授接受采访时谈到，“机器人要变得更像人，首先要学会类比思维。”一句话道出目前人工智能的困境。

让机器更像人，这并不是白日做梦。如今AI正在学习各种认知，包括最难突破的时间认知、经验认知、感性认知。

长期以来，思维是人类独有的本领。在人工智能训练上，科学家们更专注逻辑和行为规则的编程。但这样训练出来的AI，前期需要大量的数据学习，也并没有思维，所会的技能几乎全被打碎。

目前，米切尔领导着SFI的自然和人工系统智能基础项目，"AI类比"研究要比以往任何时候都更加突出。该项目将在明年召开一系列跨学科研讨会，研究生物进化、集体行为(如蚂蚁等群居昆虫的行为)和如何利用身体促进智力的发展。

半路出家，高中数学老师做起人工智能

1979 年获得普利策奖的著作《哥德尔、艾舍尔、巴赫》激发了大批计算机科学家的灵感，但很少有人像梅兰妮·米切尔( Melanie Mitchell)那样改变了人生轨迹。

在阅读了这本 777 页的大部头书后，纽约的高中数学老师米切尔决定：我"需要"从事人工智能的工作。

她很快找到了这本书的作者、人工智能研究员道格拉斯·霍夫斯塔德（Douglas Hofstadter），并说服他给自己一个实习机会。

虽然当时她只学了几门计算机科学课程，但霍夫斯塔德似乎对她的胆量印象深刻，并不关心她的学历。

米切尔赶上了“最后一刻”的研究生申请，并加入了霍夫斯塔德在密歇根大学安娜堡分校的新实验室。在接下来的六年里，两人密切合作，开发了一个名为“Copycat"的电脑程序。用他们的话来说，这个程序的目的是"发现创新性的类比，并做出具备这样思想的智能体"。

此后的科研路上，米切尔便一直和“AI数字思维”维系在一起。

类比到底是什么

这是一种抽象的能力，比如你告诉我一个故事，然后我说，“哦，我懂你”，实际上这种事并没有发生在我身上，但我可以做一个假设。

然而，机器人知道“理解”是什么吗，知道“意义”是什么吗，以数字形式存在的它们，计算过自己的生命长短吗？当人工智能遇上“认知”障碍，能否自主解决？

滑稽的是，要明白人类意义时，它们却在忙着处理数据。

他们永远也学不会类比吗?

在探索AI“认知”的问题上，不少科学家正在做相关的实验。上个月DeepMind实验室发博文称，“正在训练开放式学习的智能体。” 这些无需监督和数据喂养的智能体，能以很少的例子在游戏任务里自主进化，并且表现出不俗的泛化能力。

这暗示了AI学会类比的可能性，但实际情况是，智能体在游戏中运行得很好，如何将其扩展到我们真正关心的领域? 假如能够证明AI具备类比能力，如何在拥有认知之后再学习和推理？

更重要的是，这是否意味着人工智能也需要像我们一样，拥有一个身体呢？

因为认知和智力活动不仅仅是大脑孤立的计算，而是大脑、身体和环境的相互作用。因此，电影《东成西就》里的段王爷，只有漂浮的脑袋就能飞升成仙，在人工智能这并不现实。

编译来源：https://www.quantamagazine.org/melanie-mitchell-trains-ai-to-think-with-analogies-20210714/

雷锋网雷锋网雷锋网

1.2毫秒！英伟达TensorRT 8运行BERT-Large推理创纪录

Wed, 21 Jul 2021 15:41:00 +0800

自今年5月份TensorRT 8-EA版（Early Access，尝鲜版）发布之后，英伟达终于在本周二发布了TensorRT 8的正式版。

作为支持英伟达GPU平台的深度学习推理框架，TensorRT 8正式版与以往的版本相比，能够在在1.2毫秒内运行全球最广为采用的基于transforemer模型之一——BERT-Large，即将语言查询推理时间缩短至上一个版本的一半，创下最新记录，为搜索引擎、广告推荐和聊天机器人的AI模型提供支持。

英伟达官方声称，TensorRT8不仅针对transformer作出突破性优化，还新增其他两项关键特性，实现AI推理方面的突破。

推理时间缩短至1.2毫秒，速度提升1倍

“AI模型以指数级的速度增长，很多公司不得不缩减模型大小以追求响应速度。英伟达2016年推出的TensorRT可以帮助这些企业扩大规模，提升精度。” 英伟达AI软件部的产品管理总监Kari Briski回顾TensorRT推出的背景时说道。

TensorRT是英伟达自家的深度学习推理框架，在模型推理的过程中，可以将Pytorch、TensorFlow等其他框架训练好的模型转化为TensorRT格式，再使用TensorRT推理引擎运行，从而提升这一模型在GPU上的运行速度。

因此，支持更多的模型和进一步缩短推理时间，提高推理速度是广大AI软件开发者对TensorRT升级的普遍期望。

2019年，黄仁勋在GTC China上发布TensorRT 7。相比于只支持30多种模型的TensorRT 5，TensorRT 7能够支持各种类型的RNN、Transformer和CNN，支持多达1000多种不同类型的计算变换和优化，还能让推理时间缩短至0.3秒，为此黄仁勋将其称之为“我们实现的最大飞跃”。

这次更新的TensorRT 8版本，虽然升级“飞跃”程度比不上从5.0版本到7.0版本的升级，但也有一定程度的更新。

英伟达宣称，TensorRT 8的各项优化为语言带来了创纪录的速度，能够在1.2毫秒内运行全球最广为采用的基于transforemer模型之一——BERT-Large，帮助企业将模型扩大一倍或两倍，从而提高精度。

落实到具体的应用上，这种推理速度的提升能够让对话式AI更加智能，交互应用程序的性能也能够得以提升。

新增两项核心技术，是推理速度提升的关键

在此之前，之所以能够凭借TensorRT提升模型在英伟达GPU上的运行速度，主要得益于TensorRT的一系列优化，这些优化包括：

权重与激活精度校准：通过将模型量化为INT8 来更大限度提升吞吐量，同时保持高精度，力求精度和吞吐量的最大平衡；
层与张量融合：通过融合内核中的节点，优化GPU显存和带宽的使用；
内核自动调整：基于目标GPU选择最佳的数据层和算法；
动态张量显存：更大限度减少显存占用，并高效地为张量重复利用内存；
多流执行：并行处理多个输入流的可扩展设计；

简单而言，就是在力求以低混合精度提升吞吐量的同时，减少计算和内存访问，合并网络层。

而在TensorRT 8版本中，英伟达又新加入两个关键特性，以实现AI推理方面的突破。

其一是稀疏性。TensorRT 8中使用稀疏性技术，在保证精度推理的同时，降低深度学习模型中的部分权重，减小模型所需要的带宽和内存，在提升效率的同时使开发者能够通过减少计算操作来加速神经网络。

这项技术能够帮助NVIDIA Ampere架构GPU得到性能上的提升。

其二是量化感知训练。开发者能够使用训练好的模型，以 INT8 精度运行推理，且不会造成精度损失，大大减少计算和存储成本，在Tensor Core核心上实现高效推理。

TensorRT诞生第五年，下载次数近250万次

推理模型上的速度优势让TensorRT广受欢迎。五年来，已有来自医疗、汽车、金融和零售等各个领域的27500家企业，超过25万名开发者下载使用TensorRT，累计次数近250万次。

GE医疗是TensorRT的使用者之一，他们用TensorRT助力加速早期检测疾病的关键工具——超声波计算机视觉创新，使临床医生能够通过其职能医疗解决方案提供方最高质量的护理。

GE医疗心血管超声首席工程师Erik Steen表示:“临床医生需要花费宝贵的时间来选择和评估超声图像。在Vivid Patient Care Elevated Release项目的研发过程中，我们希望通过在Vivid E95扫描仪上实施自动心脏视图检测，使这一过程变得更加高效。心脏视图识别算法将选择合适的图像来分析心壁运动。TensorRT凭借其实时推理能力，提高了视图检测算法的性能，同时缩短了我们研发项目的产品上市时间。”

开源AI技术的领导者Hugging Face也在同英伟达展开密切合作，其产品总监Jeff Boudier表示，通过TensorRT 8，Hugging Face在BERT上实现了1毫秒的推理延迟，十分期待能在今年晚些时候为客户提供这一性能。

目前，TensorRT 8已经全面上市，且面向英伟达计划开发者成员免费提供，用户能够从TensoRT GitHub库中获得最新版本插件、解析器和样本开放源代码。

雷锋网雷锋网雷锋网

玄点智能——世界人工智能创新大赛跑出的一匹黑马

Tue, 20 Jul 2021 16:25:00 +0800

7月10日下午，锣鼓喧天，英雄齐聚。2021世界人工智能创新大赛AIWIN盛典即将召开，哪些企业能从激烈的竞争中脱颖而出获得佳绩？谁能摘得应用创新赛和技术算法赛的桂冠？

在上海世博会议中心世界人工智能大会（WAIC）的现场，来自全球各地的大咖们一边热烈的讨论着AI如何赋能数字化创新，一边热情的期待着奖项的揭晓。世界人工智能创新大赛（AIWIN），是世界人工智能大会的重要组成部分，为人工智能生态输送最佳的人工智能企业。

今年的AIWIN赛事分剑道风云录（应用创新赛）和气道群侠传（技术算法赛），将评选出“数字底座”、“数字赋能”、“数字未来”三大领域的12强企业和四大秘境的前三选手。终评产生的优秀算法、基建、平台和应用将一同打造数字化下的AIWIN江湖，见证新一代的AI未来生态。

在这一盛典时刻，有一家仅仅成立8个多月的初创企业从全国264家参赛队伍中脱颖而出，在两个奖项中都获得了好成绩。

玄点智能--一家名不见经传的新公司不仅摘得了 AIWIN 应用创新赛数字赋能 7强和算法技术赛第三的双奖，而且还代表AIWIN获奖企业在世界人工智能大会的闭幕式上发表了获奖感言：“感谢大赛提供的舞台，玄点智能首次提出APA（AI Process Automation）的概念，是轻量级AI流程自动化的倡导者。我们希望用APA实现企业AI的敏捷运营，用云的基因激活企业的数字神经，为客户的数字化转型提供源源不断的澎湃动力。”

APA是什么？玄点智能又是什么来头？

一家成立才八个多月的公司营收就已经做到了八位数，不仅入围“数字赋能”的全国7强还在“文化传媒数字资产的自动编目竞赛“中以略落后于腾讯的得分获得第三名的好成绩。

可以说这是玄点智能的一个高光时刻！

玄点智能所做何事？

相较于不断革新的人工智能技术，如何突破瓶颈推动提升AI应用段位和产业规模化推广成为第四届世界人工智能大会中技术平台与产业均重点关注的问题。而玄点智能在大会上首次提出APA（AI Process Automation)的理念，是轻量级AI流程自动化的倡导者。经过和公司创始人的沟通，笔者了解到和其他强调算法领先性的公司不同，玄点更强调的是 AI 项目流程的简化，乃至自动化。希望用 APA 来简化准备AI的流程，降低研发 AI 的成本，提高构建 AI 的效率，以此来实现企业AI的敏捷运营。

目前已经成型的一个产品“媒体翻译字幕”就是一个鲜明的例子。产品本身需要的AI能力并不复杂，但是从达到客户预期到真正落地运营，中间有很多细枝末节需要考虑。而这真是玄点团队的优势所在，从获取客户需求，概念验证到设计方案和真正落地，前后只用了两周的时间，同时该产品也经过了 WAIC 和 IJCAI学术精英大会的考验。在会议前夜彩排的时候才发现来自 IJCAI 理事长的致辞没有字幕，现场使用了协办单位玄点的“媒体翻译字幕”的产品，5分钟就快速完成了翻译和字幕合成的工作，省去了专业翻译人员和字幕合成人员的工作量，节约了时间，快速完成了任务。

而玄点这次参赛的“AI体育大脑”更是创业8个多月的重要收获。接触了不同体育大项的业务场景，通过一系列的技术论证和尝试，玄点的团队发现体育赛事虽有场地大小和规则上的不同，但是从收录画面到呈现效果，AI所能带来的帮助和价值确是触类旁通的。由此，玄点借助前沿的科学研究自主研发了针对视觉类数据的自动标注模型，从而大大简化了不同体育赛事数据标注的工作。只需要对同类赛事少量数据进行人工标注，即可实现大批量同类赛事数据的自动标注。而自动标注的数据结合了AI流程自动化，同时又使得AI模型自动训练变成了可能。不同的赛事，通过数据自动标注和流程自动化的加持，AI变成了体育真正的大脑。

玄点还通过和上海交通大学人工智能研究院成立联合实验室，通过产学研结合的模式，从真实世界技术挑战中凝练科学问题，从而将关键技术应用于真实产业系统实践。

玄点智能背后的团队

为何玄点智能可以在8个多月的时间里取得如此多的成绩？

这是和背后的团队密不可分的。在采访中 AI 科技评论了解到，玄点智能的创始成员来自于亚马逊AWS，所以天生具有“云”的基因和创新的思维逻辑，这是一家拥有成熟团队的创业公司，无论是专业度还是经验值都非一般的初创企业可比。他们分工虽有左右，但伙伴不分上下，团队目标统一，笔者在玄点感受到了满满的创业活力和高效的工作节奏。

构建大规模AI自动化流水线、让企业 “AI”上AI，这是玄点智能的团队一直秉持的愿景。在笔者看来，在企业数字化转型的过程中AI是配角，需要的是与行业、数据、算力等产生“化学反应”，这样的AI企业，才算是真正接地气的、有价值的AI企业。

雷锋网雷锋网雷锋网

旷视天元背后的追风少年

Fri, 26 Mar 2021 11:52:00 +0800

在大多数人的眼里，程序员的生活是刻板的：996的工作时间、长期熬夜、掉发严重、万年格子衫…

然而，旷视天元的开源研发团队，却以多元化的面貌展示了这个群体少为人知的浪漫与执着：

有人痴迷明史，选择北漂就是为了故宫；有人是职业旅行家，探访过三十多个国家；有人钟爱二次元，动漫就是他的全世界；有人是Dota 2信仰粉，也有人是强大的Dota 3号选手；还有猫奴、影迷、德州扑克爱好者……

他们唯一的共同点，也许就是写程序这个“业余爱好”。

但正是这样一群个性不一的年轻人，让旷视成为了国内第一个将深度学习框架开源的AI独角兽。2020年3月25日，旷视正式将在内部使用多年的深度学习框架开源，并命名为天元MegEngine。

开源的背后，是数不清日夜的付出，以及一往无前的勇气。在天元开源的征程上，旷视的“程序员”做了什么？对于中国开源，他们扮演了怎样的角色？

旷视决定开源

自2020年3月25日正式发布天元 Alpha 版本之后，旷视天元打出“深度学习，简单开发”的口号，在开发者社区引起火热关注。

深度学习框架堪称AI时代的核心软件支柱，下接芯片，上承应用。

“为什么要开源一个深度学习框架，真的不是在重复造轮子吗？”

天元开源后，团队成员经常收到这样的提问。毕竟，在旷视将天元开源前，市场上已经有Google所开发的TensorFlow和Facebook所开发的Pytorch等主流深度学习框架。

那么，旷视为什么还要坚持开源？

自2012年起，尽管深度学习尚未引起广泛关注，但已陆续有研究者开发出第一代深度学习框架，比如Theano。然而，在实践过程中，旷视的技术人员发现，这类早期开源框架使用手工的方式编写每层配置文件，非常不灵活，根本无法满足对算法训练效率的需求。雷锋网

于是，旷视研究院决定自己开发一款框架，通过计算图的方式设计模型并求导。2014年初，旷视研究院的 3 名实习生从第一行代码写起，用了不到半年的时间，成功开发出深度学习框架天元（MegEngine）的初始版本MegBrain。雷锋网

2019 年年底，公司决定将 MegBrain 开源，开源版产品进行了重新整合，更名为MegEngine，中文名为“天元”。其中，“Meg”对应旷视“Megvii”，而"Engine"指"引擎"。旷视将天元开源，是希望它能成为人工智能技术发展的“引擎”。雷锋网

首先，饮水不忘挖井人。

在技术进步层面，旷视团队在开源社区中受益颇多，因此，当旷视的框架技术有了些积累后，他们也希望把技术拿出来，回馈给开源社区。

其次，旷视渴望向世界发声。雷锋网

自2011年成立以来，旷视在各种行业顶级期刊与会议上发表了大量优秀的论文，在人工智能领域积累了丰富的研究成果。如同一个初窥门径的武林少侠，它渴望与江湖高手对话、切磋，实现共同进步。

如果天元是开源的，那么旷视的许多内部研究成果就可以直接拿出来供大家使用，而不需要改写到其他的框架上，对话会更容易；此外，天元框架对企业级应用（尤其是部署推理）做过深度优化，大家可以开箱即用，这对旷视乃至整个行业在研究落地上均有帮助。

天元的研发负责人许思然认为：“我们是工程师，我们用代码沟通。开源代码，实际上就是旷视所有技术人员与开发者交流的一种方式，这是工程师自然而然的追求。”

他认真而又不失乐观的表示：“开源这件事，对于我们整个团队乃至整个旷视都是一个激励和鼓舞，因为我们的代码将能够产生更大的影响，服务更多人。”

因此，尽管困难重重，旷视毅然决定将天元框架开源。众人拾柴火焰高。这句中国俗语亦可用于形容现代开源事业的核心：多元，团结，贡献。在背景各异的团员驱动下，天元开源，拉开了帷幕。

开源：过五关、斩六将

确定开源后，许思然与团队对天元框架进行了全面升级：

首先，旷视团队重新设计了天元的Python前端，让它更加易用，让有机器学习相关使用经历的开发者上手更容易。

接着，审查开源代码许可证，保证整个流程遵循开源社区的规范。在这一方面，许思然与团队花了大量时间，与内外部的法务专家合作，一行一行代码地检查，对整个代码库进行了十多次人工分析和回顾。

经过多次反复审查，许思然笑称：“现在我们团队人人都是“法律高手”，什么 License（许可证）的代码能用、什么不能用，啥叫"分发源代码"，啥叫“分发产物”，用了要怎么写声明，我们现在都一清二楚…… ”

其次，团队在用户环境适配方面下了大功夫。

在旷视内部，所有人统一使用旷视自研的Brain++平台（一个融合了算法、算力和数据的AI生产力平台），很容易做到“开箱即用”。但是，在开源版本，用户所使用的机器各种各样，各种配置都不太一样，比如系统版本、各种软件版本、机器的型号、显卡的类型等等。为此，他们通过天元开发者群的交流与 GitHub 上所提交的信息，不断改进，让代码可以适配各种各样的机器和型号。

除此之外，天元团队还在原有内部版本的基础中增加了中文API文档。一位开发者在和许思然闲聊时反馈：“有一种莫名的亲切感，可能因为它是中文的。”

在加入天元项目之前，团队的许多成员都对开源有一定了解。程聪宇接触过 Linux Kernel、Chromium与LLVM等开源项目；张风在美国读博期间也直接或间接参与了一些科学计算相关的开源项目；文洁此前的经历则是持续推进已经开源的项目，直到加入旷视才开始从准备工作跟到项目正式开源、完善。

与其余同学相比，通过校招进入旷视的王波此前对开源几乎一无所知，因此，在刚被通知天元要开源时，“整个人有点懵，不知道该干啥。”后来，他参与到代码审核工作，在审查过程中慢慢跟上大部队的节奏：“去年2月26日完成审核工作、确定代码无法律风险后，在会议室里深深地舒了一口气。”

在开源前，程聪宇和团队的主要任务是保证x86的性能就绪，优化卷积实现，最终达到对标 OpenVINO 的水平。令程聪宇印象最深刻的是：x86 nchw88 的 winograd 没有就绪前，他们的 x86 在 ResNet50 的性能一直比OpenVINO 低一点。后来，他与组员在 winograd conv 上进行了各种调优，性能终于超过 OpenVINO。那一刻，“大家真的是如释重负！”

文洁记得，除了正常的代码开发工作外，开源发布会的各种准备工作非常多。正式发布的前一天才发现直播供应商出了些问题，开发团队临阵磨枪研究了一晚直播转发功能，非常累。但看到直播的那一刻，她非常激动，觉得一切辛苦都是值得的：“因为我们做到了！”

终于，2020年3月25日，旷视在北京发布了国产深度学习框架天元的 Alpha 版本，正式面向全球开发者开源！

开源：正在进行时

发布会当天，团队定了蛋糕，大家一边吃着蛋糕一边看天元开源的线上发布会，既兴奋又忐忑。

除了激动、自豪，天元团队的成员也感到压力：天元在开发者社区引起了很多关注，自己写的代码将接受整个行业的检测，不确定能否得到大家的认可；Alpha 版本之后，还有许多工作要完善。

开源后，许思然特地跑去社区看关于天元的反馈，有真诚的赞许，也有很多细节改进的建议：“作为一个新的开源项目，天元可能存在很多问题，我们都愿意承认这一点。但是我们在不断地改进它，这也是大家现在工作的一个非常重要的部分。”

天元是一个由企业主导、社区共建的开源项目，因此参与的人员更广泛，来自科研、教学、生产等各个领域。这也意味着，天元将收到不同的反馈意见。

继3月开源后，旷视团队又在2020年6月发布了 Beta 版本。大约90天内，他们收到了330多个来自使用者的反馈意见，大多是关于修bug方面的改进和速度方面的提升。

根据反馈，许思然与队员一一作了改进，在中文 API 文档的流程中补充了大量针对中高阶开发者的进阶使用部分，提供了在安卓上从训练到完成产品一整套的教程，还提供了相关的支撑程序设施，使大家能更好体验训练推理一体的完整流程。

Beta 版本的进步是肉眼可见的：天元开源了ARM系列CPU支持、完善量化训练和推理功能、推理功能优化等3项功能升级，并与小米的MACE深度学习推理框架、OPEN AI LAB 的Tengine框架实现深度集成。

随后，2020年9月，团队发布了天元1.0预览版，新增5大技术特性：全新的Imperative Runtime、自动代码裁剪功能、更多的国产硬件支持、10余项推理侧性能优化、基于MLIR的静态子图优化引擎；2020年10月发布 1.0 正式版；2021年1月又发布了 1.2 版本，2021年3月24号，天元1.3版本上线……

密集的发版节奏也让团队工作异常忙碌。最忙的时候，为了赶工，团队在周末也会赶到公司加班。“不过大家一边讨论，一边吃好吃的外卖，也是非常有意思的体验。”负责模型量化的刘希宇谈道。

在高强度的工作状态下，每个人逐渐养成了自己的“护肝”秘诀。张风在压力大时，会通过跑步与健身出汗，让自己冷静下来；刘希宇会偶尔做一下办公室桌椅健身操，改善颈椎职业病。

开源让团队度过了很多不眠之夜：在2020年的四次版本发布中，许思然分别熬到了凌晨3点、4点、5点和6点。发版前需要确保开源版本一切正常，由于在同步过程中往往会出现裁剪错误或依赖内部的文件，总是在对外发布之前突然发现各种小问题导致编译不了，于是通宵达旦的调查到底哪里裁剪出现了差错。

但如今，团队已经开发出许多小工具，可以让各种开源版测试自动完成，不用工程师再熬夜盯。

对于程聪宇来说，忙碌只是小case，最大的困难是开源后继续做 Arm 优化。天元希望可以实现比其他深度学习框架更快的速度，这给优化带来了巨大挑战。当时，他们几乎用了所有能用的方法来进行优化，但都没有取得效果，一度非常绝望。

后来，他们通过profile发现存在的问题是访存瓶颈。在开会讨论解决方法时，有组员提出对不同卷积 case 进行不同的优化，配合 layout 来进行优化。实验证明，这个方法非常有效。程聪宇很自豪：“虽然很难，但我们做到了。”

天元的开源与迭代，最终使性能达到了团队目标吗？

根据以往的开源经历，程聪宇深知做一个好用的“训练+推理”的框架非常不容易，既要保证性能，又要保证易用性，且不同硬件平台差异也大。开心的是，天元在高性能方面做得不错 (算子优化、多平台支持)，典型模型的预测和推理性能在 x86/Arm/CUDA 平台上不弱于主流框架；遗憾的是，易用性还需要继续打磨。

对张风与王波来说，天元在静态图的性能和显存占用方面达到了预期目标，但Alpha版本发布时，动态训练的能力刚刚起步，在架构设计、显存和性能上都表现一般。但经过团队的努力，在2020年结束之际，天元的动态训练能力也达到了一个成熟的状态。

“这是令大家最有成就感的事。”张风如是说。

从开源到开放

回顾过去的一年，旷视团队的各成员均被开源文化深深吸引：在工作中，他们既为中国的开源事业奉献了自己的力量，收获了友谊与自我成长，还遇到了很多志同道合的朋友。

尽管开源的工作无比繁重，但程聪宇觉得，在天元团队工作还是非常快乐的：“和有趣的人一起工作，是1+1>2的效果。”

有一次，他们特地挑了一个“良辰吉日”去开卡丁车，去之前还积极制定了缜密详细的比赛规则。

张风对这次赛事印象深刻，“戴上头盔，耳朵里就只有发动机的轰鸣声，轮胎和跑道摩擦声和自己的心跳声，大家好像一下子就从电脑前的程序员变身为职业赛车手，非常解压！”

那一次，王波因为有事没参加，事后既羡慕又庆幸，“据说开太猛了有点累。”

开源，让团队成员不再感觉自己是“打工人”，有了更多的主人翁意识。许思然认为，开源有一个重要的点，就是用户第一。“你自己就是用户，你最懂你自己的诉求，知道怎么改。在开源的逻辑之下，人人都要为最终使用者的体验去负责。”

在这个过程中，天元团队有一个明显的变化，就是心态变得更加开放。

刚开源的那段时间，运营的小伙伴督促天元的研发同学做线上直播，和开发者做一些技术分享的talk，大家都不敢去。如今，天元的Meetup活动内部讲师征集，大家却十分踊跃，令活动进行非常顺利。

比如，刚开始对开源几乎毫无经验的王波，最近成功晋升为小组组长，成为了2021年天元首期Meetup的讲师。直播前，王波预讲了3-4次。“现场效果还不错，意外收获了很多开发者的反馈，还是挺开心的。”王波事后总结道。

文洁也有同样的感受：“在之前的开源工作中，我们更多是宣传代码的心态。但在天元开源中，我们知道我们的不完美，也很诚实地告知大家，欢迎大家一起来讨论、改进。”

与开发者的日常

程聪宇认为，“一个软件之所以能取得成功，很大程度上要归功于开源本身，因为有更多人参与到这个软件的开发，有更多使用者发现问题，从而解决问题。这些开源软件的贡献者非常厉害，值得尊敬。”

有些贡献者“来无影、去无踪”。天元有一个编译工具，里面有一千多行代码。“开源之后，真的有开发者跑过来，帮我们仔仔细细地检查一遍，挑出几个错误，改过来。咦，果然合适！” 这件出乎许思然意料的事情，令他至今记忆犹新。

天元开源后，来自社区开发者的反馈帮助天元团队成长了很多。

许思然回忆，刚开源的那段时间，几乎天天被身边几位热情的开发者怼，说这个做的不对，那个也不对。后来，大家在互怼的过程中找到了一个相对平衡和彼此理解的状态。曾经的主怼人之一W同学让许思然印象深刻：“他是喷天元最厉害的开发者之一，但也是天元每次版本更新后最先试用的人。”

W同学将自己的行为归结为“爱之深、责之切”。在W同学眼中，天元经过一年的迭代，现在的量化框架非常优雅，能使得量化训练更容易正确初始化，兼容各种算法，“虽然还有点慢，但是真香！”如今，W同学已成为天元的“推广大使”，在自己的社交平台积极安利天元，繁忙的工作之余还常常为天元贡献教程文档。

天元的开发者社区中还有一个微信群，叫做“MegEngine和喝奶茶的好盆友们”。群里有旷视的员工，也有很多外部开发者，大家因为天元开源而结识。

2020年结束的跨年夜，大家在群里相约，通过云聚会写模型的方式一起庆祝跨年。开发者“落月星辰”在12月31号当晚就写了好多个经典模型。

“落月星辰”评价天元：虽然天元目前也存在一些缺陷，比如缺少预训练权重文档。但相比其他框架，天元提供的 API 在计算机视觉一块提供了更多支持，文档更齐全，对用户提问秒回；而且天元的后端静态推理很强，内存优化做到了极致。”

展望

2020年被称为国产深度学习框架开源的元年。除了旷视的天元MegEngine，清华的Jittor、华为的MindSpore等国产框架也都纷纷开源，市场似乎变得拥挤起来。

然而，挑战与机遇总是并存。旷视的野心不是垄断，而是成全。布局天元，意味着不计较一角一地的得失，跳出局部，从全局看问题。

正如“天元”的命名启示，“天元”在围棋中，是棋盘的正中心。旷视将天元开源，是希望自研的深度学习框架成为中国人工智能领域发展的基石，动力，以及信心。

开源本身，往往是“后来居上”：将自家的独门绝技分解成一招一式，慷慨对外，既是开诚布公的交流，也是明枪暗箭的较量。将天元开源之后，旷视不再独享其优势性能，天元的代码随时被修改、被借鉴、被创新，但在天元团队看来，这正是开源的魅力所在：“促进交流，共同成长！”

许思然相信：“一个领域越火，发展的速度就越快。深度学习是一个技术主导的领域。技术做得好，能够被其他人借鉴；做得差的，方案就没人用。开源的深度学习框架变多，最大的好处是大家可以相互学习对方的长处。”

一年的奋战过后，旷视团队继续走在开源的路上。

当被问及何时会觉得天元开源成功了，许思然想起电影Soul（《心灵奇旅》）中的一个片段：“没有一个明确的时间点，说到那个时间点，突然就成功了，进入到下一个阶段了。”他认为，开源也是如此，也许有一些标志性的阶段，但没有尽头。

问及接下来的工作期待，许思然的回答是：“多做几个强大的 feature，让更多人来用 MegEngine 。”张风等人则希望，能够从开发者社区的交流中获得更多助力。

尽管越来越多国人意识到开源的价值，但必须承认的是，中国的开源生态仍待完善，我们仍有一段漫长的道路要走。

路漫漫其修远兮，吾将上下而求索。旷视天元开源团队的身上，有着新一代青年人对技术创新一往无前的勇气、热情与执着。作为中国开源队伍中的一分子，他们让我们看到天元框架的潜力，以及中国开源生态发展的更多可能性。

致敬天元少年，致敬中国开源事业！（举杯）

（天元团队成员觉得所取得的成绩都是团队贡献，请求化名，感谢读者理解）

刷arxiv有哪些技巧？5个问题快速理解机器学习论文

Wed, 03 Feb 2021 15:37:00 +0800

译者：AI研习社（听风1996）

双语原文链接：How to Understand ML Papers Quickly

我所指导的ML学员经常会问我一些不同的问题："你如何从每天大量充斥在Arxiv网址上的出版资料中选择阅读哪些论文？"

阅读大多数ML论文的好处是，你只需提出五个简单的问题就能跨越（忽略）一些专业术语。当我浏览论文时，我会尽可能快地回答这些问题。

1）函数近似器的输入是什么？

如：一张224x224x3的RGB图像，其中单个物体大致位于视图中心。

2）函数近似器的输出是什么？

如：一个对应输入图像的类维度为1000的向量。

请借助与具体（论文中的）方法无关的方式考虑整个系统的输入和输出，可以让你从算法术语本身中脱身，并考虑其他领域是否已经开发出使用不同方法（算法）在这里可能会有效的方法。我发现这种方法在阅读Meta-Learning论文时非常有用。

通过首先将ML问题视为一组输入和期望的输出，可以推断输入是否足以预测输出。如果没有这种推断练习，你可能会意外得到一个ML问题，其中输出不可能由输入决定。结果可能会是一个ML系统进行预测的方式是社会所认为有问题的方式（译者注：这里可能是想表达不符合人类常识与逻辑的执行方式）。

3）什么样的损失在监督输出预测（译者注：关注损失函数）？这个目标函数在什么样的背景假设下设立的？

ML模型是通过组合偏差和数据而形成的。有时偏差很强，有时偏差很弱。为了使模型具有更好的泛化能力，你需要添加更多的偏差或添加更多的无偏数据。天下没有免费的午餐。

举一个例子：许多最优控制算法都会假设一个固定的数据偶发过程，这个过程就是马尔科夫决策过程（MDP）。在MDP中，"状态 "和 "决策"通过环境的动态转换来确定映射到 "下一个状态、奖励以及事件是否结束"。这种结构虽然很笼统，但也是可以用来构造一个损失，让学习Q值遵循Bellman方程。

4）一旦模型被训练后，对于以前没见过的输入/输出对，模型能够泛化到什么程度？

归功于所捕获的数据信息或模型架构，ML系统可能会相当好地泛化到它以前从未见过的输入。近年来，我们看到越来越多和更高等次的泛化能力，所以在阅读论文时，我注意观察那些在论文中惊人的泛化能力以及它的泛化能力来自哪里（数据、偏差或两者都有）。

对于这个领域来说，更好的归纳偏差意味着存在更多的噪音，例如因果推理或符号方法或以对象为中心的表示。这些是构建稳健可靠的ML系统的重要工具，我发现将结构化数据与模型偏差分开的界限可能是模糊的。话虽如此，但让我感到困惑的是，有许多的研究人员认为推动ML前进的方式是减少学习量（译者注：训练轮次）并增加编写硬编码的量。

我们之所以进行ML研究，恰恰是因为有些东西我们不知道如何编写硬编码。作为机器学习的研究者，我们应该把工作重点放在改进学习方法上，把编写硬编码和符号方法留给那些研究编写硬编码的研究者。

5）论文中的说法是否可以证伪？

那些声称不能证伪的论文是不属于科学范畴的。

AI研习社是AI学术青年和AI开发者技术交流的在线社区。我们与高校、学术机构和产业界合作，通过提供学习、实战和求职服务，为AI学术青年和开发者的交流互助和职业发展打造一站式平台，致力成为中国最大的科技创新人才聚集地。

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

图解 | NumPy可视化指南

Thu, 28 Jan 2021 14:20:00 +0800

译者：AI研习社（季一帆）

双语原文链接：NumPy Illustrated: The Visual Guide to NumPy

NumPy是一个广泛适用的Python数据处理库，pandas, OpenCV等库都基于numpy。同时，在PyTorch、TensorFlow、Keras等深度许欸小框架中，了解numpy将显著提高数据共享和处理能力，甚至无需过多更改就可以在GPU运行计算。

n维数组是NumPy的核心概念，这样的好处，尽管一维和而为数组的处理方式有些差异，但多数不同维数组的操作是一样的。本文将对以下三个部分展开介绍：

向量——一维数组
矩阵——二维数组
3维及更高维数组

本文受JayAlammar的文章“ A Visual Intro to NumPy”的启发，并对其做了更详细丰富的介绍。

numpy数组 vs. Python列表

乍看上去，NumPy数组与Python列表极其相似。它们都用来装载数据，都能够快速添加或获取元素，插入和移除元素则比较慢。

当然相比python列表，numpy数组可以直接进行算术运算：

除此之外，numpy数组还具有以下特点：

更紧凑，高维时尤为明显
向量化后运算速度比列表更快
在末尾添加元素时不如列表高效
元素类型一般比较固定

其中，O(N)表示完成操作所需的时间与数组大小成正比（请见Big-O Cheat Sheet），O(1)表示操作时间与数组大小无关（详见Time Complexity）。

1.向量与1维数组

向量初始化

通过Python列表可以创建NumPy数组，如下将列表元素转化为一维数组：

注意，确保列表元素类型相同，否则dtype=’object'，将影响运算甚至产生语法错误。

由于在数组末尾没有预留空间以快速添加新元素，NumPy数组无法像Python列表那样增长，因此，通常的做法是在变长Python列表中准备好数据，然后将其转换为NumPy数组，或是使用np.zeros或np.empty预先分配必要的空间：

通过以下方法可以创建一个与某一变量形状一致的空数组：

不止是空数组，通过上述方法还可以将数组填充为特定值：

在NumPy中，还可以通过单调序列初始化数组：

如果您需要[0., 1., 2.]这样的浮点数组，可以更改arange输出的类型，即arange(3).astype(float)，但有更好的方法：由于arange函数对类型敏感，因此参数为整数类型，它生成的也是整数类型，如果输入float类型arange(3.），则会生成浮点数。

arange浮点类型数据不是非常友好：

上图中，0.1对我们来说是一个有限的十进制数，但对计算机而言，它是一个二进制无穷小数，必须四舍五入为一个近似值。因此，将小数作为arange的步长可能导致一些错误。可以通过以下两种方式避免如上错误：一是使间隔末尾落入非整数步数，但这会降低可读性和可维护性；二是使用linspace，这样可以避免四舍五入的错误影响，并始终生成要求数量的元素。但使用linspace时尤其需要注意最后一个的数量参数设置，由于它计算点数量，而不是间隔数量，因此上图中数量参数是11，而不是10。

随机数组的生成如下：

向量索引

对于数组数据的访问，numpy提供了便捷的访问方式：

上图中，除“fancy indexing”外，其他所有索引方法本质上都是`views`：它们并不存储数据，如果原数组在被索引后发生更改，则会反映出原始数组中的更改。

上述所有这些方法都可以改变原始数组，即允许通过分配新值改变原数组的内容。这导致无法通过切片来复制数组：

此外，还可以通过布尔索引从NumPy数组中获取数据，这意味着可以使用各种逻辑运算符：

any和all与其他Python使用类似

注意，不可以使用`3 <= a <= 5`这样的Python“三元”比较。

如上所述，布尔索引是可写的。如下图np.where和np.clip两个专有函数。

向量操作

NumPy的计算速度是其亮点之一，其向量运算操作接近C++级别，避免了Python循环耗时较多的问题。NumPy允许像普通数字一样操作整个数组：

在python中，a//b表示a div b（除法的商），x**n表示 xⁿ

浮点数的计算也是如此，numpy能够将标量广播到数组：

numpy提供了许多数学函数来处理矢量：

向量点乘（内积）和叉乘（外积、向量积）如下：

numpy也提供了如下三角函数运算：

数组整体进行四舍五入：

floor向上取整，ceil向下取整，round四舍五入

np.around与np.round是等效的，这样做只是为了避免 from numpy import *时与Python aroun的冲突（但一般的使用方式是import numpy as np）。当然，你也可以使用a.round()。

numpy还可以实现以下功能：

以上功能都存在相应的nan-resistant变体：例如nansum，nanmax等

在numpy中，排序函数功能有所阉割：

对于一维数组，可以通过反转结果来解决reversed函数缺失的不足，但在2维数组中该问题变得棘手。

查找向量中的元素

不同于Python列表，NumPy数组没有索引方法。

index()中的方括号表示j或i&j可以省略

可以通过np.where(a==x)[0] [0]查找元素，但这种方法很不pythonic，哪怕需要查找的项在数组开头，该方法也需要遍历整个数组。
使用Numba实现加速查找，next((i[0] for i, v in np.ndenumerate(a) if v==x), -1)，在最坏的情况下，它的速度要比where慢。
如果数组是排好序的，使用v = np.searchsorted(a, x); return v if a[v]==x else -1时间复杂度为O(log N)，但在这之前，排序的时间复杂度为O(N log N)。

实际上，通过C实现加速搜索并不是困难，问题是浮点数据比较。

浮点数比较

np.allclose(a, b)用于容忍误差之内的浮点数比较。

np.allclose假定所有比较数字的尺度为1。如果在纳秒级别上，则需要将默认atol参数除以1e9：np.allclose(1e-9,2e-9, atol=1e-17)==False。
math.isclose不对要比较的数字做任何假设，而是需要用户提供一个合理的abs_tol值（np.allclose默认的atol值1e-8足以满足小数位数为1的浮点数比较，即math.isclose(0.1+0.2–0.3, abs_tol=1e-8)==True。

此外，对于绝队偏差和相对偏差，np.allclose依然存在一些问题。例如，对于某些值a、b， allclose(a,b)!=allclose(b,a)，而在math.isclose中则不存在这些问题。查看GitHub上的浮点数据指南和相应的NumPy问题了解更多信息。

2.矩阵和二维数组

过去，NumPy中曾有一个专用的matrix类，但现在已被弃用，因此在下文中矩阵和2维数组表示同一含义。

矩阵的初始化语法与向量类似：

如上要使用双括号，因为第二个位置参数（可选）是为dtype（也接受整数）保留的。

随机矩阵的生成也与向量类似：

二维数组的索引语法要比嵌套列表更方便：

“view”表示数组切片时并未进行任何复制，在修改数组后，相应更改也将反映在切片中。

轴参数

在求和等操作中，NumPy可以实现跨行或跨列的操作。为了适用任意维数的数组，NumPy引入了axis的概念。axis参数的值实际上就是维度数量，如第一个维是axis=0 ，第二维是axis=1，依此类推。因此，在2维数组中，axis=0指列方向，axis=1指行方向。

矩阵运算

除了+，-，*，/，//和**等数组元素的运算符外，numpy提供了@运算符计算矩阵乘积：

类似前文介绍的标量广播机制，numpy同样可以通过广播机制实现向量与矩阵，或两个向量之间的混合运算：

注意，上图最后一个示例是对称的逐元素乘法。使用矩阵乘法@可以计算非对称线性代数外积，两个矩阵互换位置后计算内积：

行向量与列向量

根据前文可知，在2维数组中，行向量和列向量被区别对待。通常NumPy会尽可能使用单一类型的1维数组（例如，2维数组a的第j列a[:, j]是1维数组）。默认情况下，一维数组在2维操作中被视为行向量，因此，将矩阵乘行向量时，使用形状(n,)或(1,n)的向量结果一致。有多种方法可以从一维数组中得到列向量，但并不包括transpose：

使用newaxis更新数组形状和索引可以将1维数组转化为2维列向量：

其中，-1表示在reshape是该维度自动决定，方括号中的None等同于np.newaxis，表示在指定位置添加一个空轴。

因此，NumPy中共有三种类型的向量：1维数组，2维行向量和2维列向量。以下是两两类型转换图：

根据广播规则，一维数组被隐式解释为二维行向量，因此通常不必在这两个数组之间进行转换，对应图中阴影化区域。

严格来说，除一维外的所有数组的大小都是一个向量（如a.shape == [1,1,1,5,1,1]），因此numpy的输入类型是任意的，但上述三种最为常用。可以使用np.reshape将一维矢量转换为这种形式，使用np.squeeze可将其恢复。这两个功能都通过view发挥作用。

矩阵操作

矩阵的拼接有以下两种方式：

图示操作仅适用于矩阵堆叠或向量堆叠，而一维数组和矩阵的混合堆叠只有通过vstack才可实现，hstack会导致维度不匹配错误。因为前文提到将一维数组作为行向量，而不是列向量。为此，可以将其转换为行向量，或使用专门的column_stack函数执行此操作：

与stack对应的是split：

矩阵复制有两种方式：tile类似粘贴复制；repeat相当于分页打印。

delete可以删除特定的行或列：

相应插入操作为insert：

与hstack一样，append函数无法自动转置1D数组，因此需要重新调整向量形状或添加维数，或者使用column_stack：

如果仅仅是向数组的边界添加常量值，pad函数是足够的：

Meshgrids

广播机制使得meshgrids变得容易。例如需要下图所示（但尺寸大得多）的矩阵：

上述两种方法由于使用了循环，因此都比较慢。MATLAB通过构建meshgrid处理这种问题。

meshgrid函数接受任意一组索引，通过mgrid切片和indices索引生成完整的索引范围，然后，fromfunction函数根据I和J实现运算。

在NumPy中有一种更好的方法，无需在内存中存储整个I和J矩阵（虽然meshgrid已足够优秀，仅存储对原始向量的引用），仅存储形状矢量，然后通过广播规实现其余内容的处理：

如果没有indexing ='ij'参数，那么meshgrid将更改参数的顺序，即J,I=np.meshgrid(j,i)——一种用于可视化3D绘图的“ xy”模式（祥见该文档）。

除了在二维或三维网格上初始化函数外，网格还可以用于索引数组：

以上方法在稀疏网格中同样适用。

矩阵统计

就像sum函数，numpy提供了矩阵不同轴上的min/max, argmin/argmax, mean/median/percentile, std/var等函数。

np.amin等同于np.min，这样做同样是为了避免from numpy import *可能的歧义。

2维及更高维中的argmin和argmax函数分别返回最小和最大值的索引，通过unravel_index函数可以将其转换为二维坐标：

all和any同样也可作用于特定维度：

矩阵排序

虽然在前文中，axis参数适用于不同函数，但在二维数组排序中影响较小：

你通常不需要上述这样的排序矩阵，axis不是key参数的替代。但好在NumPy提供了其他功能，这些功能允许按一列或几列进行排序：

1、a[a [:,0] .argsort()]表示按第一列对数组进行排序：

其中，argsort返回排序后的原始数组的索引数组。

可以重复使用该方法，但千万不要搞混：

a = a[a[:,2].argsort()]

a = a[a[:,1].argsort(kind='stable')]

a = a[a[:,0].argsort(kind='stable')]

2、函数lexsort可以像上述这样对所有列进行排序，但是它总是按行执行，并且排序的行是颠倒的（即从下到上），其用法如下：

a[np.lexsort(np.flipud(a[2,5].T))]，首先按第2列排序，然后按第5列排序；a[np.lexsort(np.flipud(a.T))]，从左到右依次排序各列。

其中，flipud沿上下方向翻转矩阵（沿axis = 0方向，与a [::-1，...]等效，其中...表示“其他所有维度”），注意区分它与fliplr，fliplr用于1维数组。

3、sort函数还有一个order参数，但该方法极不友好，不推荐学习。

4、在pandas中排序也是不错的选择，因为在pandas中操作位置确定，可读性好且不易出错：

- pd.DataFrame(a).sort_values(by=[2,5]).to_numpy()，先按第2列排序，再按第5列排序。

-pd.DataFrame(a).sort_values().to_numpy()，按从左到右的顺序对所有列进行排序。

3、3维及更高维数组

通过重塑1维向量或转换嵌套Python列表来创建3维数组时，索引分别对应(z,y,x)。索引z是平面编号，(y,x)坐标在该平面上移动：

通过上述索引顺序，可以方便的保留灰度图像，a[i]表示第i个图像。

但这样的索引顺序并不具有广泛性，例如在处理RGB图像时，通常使用(y,x,z)顺序：首先是两个像素坐标，然后才是颜色坐标（Matplotlib中的RGB，OpenCV中的BGR）：

这样可以方便地定位特定像素，如a[i,j]给出像素(i,j)的RGB元组。

因此，几何形状的创建实际取决于你对域的约定：

显然，hstack，vstack或dstack之类的NumPy函数并不一定满足这些约定，其默认的索引顺序是(y,x,z)，RGB图像顺序如下：

如果数据不是这样的布局，使用concatenate命令可以方便的堆叠图像，并通过axis参数提供索引号：

如果不考虑轴数，可以将数组转换hstack和相应形式：

这种转换非常方便，该过程只是混合索引的顺序重排，并没有实际的复制操作。

通过混合索引顺序可实现数组转置，掌握该方法将加深你对3维数据的了解。根据确定的轴顺序，转置数组平面的命令有所不同：对于通用数组，交换索引1和2，对于RGB图像交换0和1：

注意，transpose（a.T）的默认轴参数会颠倒索引顺序，这不同于上述述两种索引顺序。

广播机制同样适用多维数组，更多详细信息可参阅笔记“ NumPy中的广播”。

最后介绍einsum(Einstein summation)函数，这将使你在处理多维数组时避免很多Python循环，代码更为简洁：

该函数对重复索引的数组求和。在一般情况下，使用np.tensordot(a,b,axis=1)就可以，但在更复杂的情况下，einsum速度更快，读写更容易。

如果你想看看自己的NumPy水平到底如何，可以在GitHub上进行练习——例如100个NumPy练习。

对于本文未介绍到的NumPy常用功能，欢迎各位读者通过reddi、hackernews给我留言，我将进一步完善本文！

参考

Scott Sievert, NumPy GPU acceleration
Jay Alammar, A Visual Intro to NumPy and Data Representation
Big-O Cheat Sheet site
Python Time Complexity wiki page
NumPy Issue #14989, Reverse param in ordering functions
NumPy Issue #2269, First nonzero element
Numba library homepage
The Floating-Point Guide, Comparison
NumPy Issue #10161, numpy.isclose vs math.isclose
100 NumPy exercises on GitHub

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

关于 A*、Dijkstra、BFS 寻路算法的可视化解释

Wed, 27 Jan 2021 16:20:00 +0800

译者：AI研习社（季一帆）

双语原文链接：Interactive pathfinding

点此链接进入交互演示页面：https://interactive-pathfinding.netlify.com/

广度优先搜索、Dijkstra和A*是图上的三种典型路径规划算法。它们都可用于图搜索，不同之处在于队列和启发式函数两个参数。

本项目探索并可视化不同算法如何根据选择参数进行图搜索。

算法的一般性原理如下：

将边界初始化为包含起始节点的队列。

当边界队列不为空时，从队列中“访问”并删除一个“当前”节点，同时将访问节点的每个邻居节点添加到队列，其成本是到达当前节点的成本加上从当前节点访问邻居的成本再加上邻居节点和目标节点的启发式函数值。其中，启发式函数是对两个节点的路径成本的估计。

存储访问路径（通常存储在cameFrom图中），以便后续重建路径。如果邻居节点已经在列表中，同时新路径的成本较低，那么更改其成本。

找到目标路径（提前退出）或列表为空时，停止算法。

BFS

使用先进先出队列实现BFS。这种队列会忽略路径中链接的开销，并根据跳数进行扩展，因此可以确保找到最短路径的跳数，而跳数相关的成本。启发式函数的选择是任意的，因为在这个过程中其并不起作用。

使用数组可实现先进先出，即将元素附加到末尾并从头删除。

BFS演示动图。注意边界节点（黄色）是如何在网格中扩展为正方形的。在这里，正方形是相同“跳距”的节点集。

Dijkstra

在图上使用优先级队列和始终返回0的启发式函数，便得到Dijkstra算法。

相比于BFS，Dijkstra最大的不同在于考虑了成本。通过该算法，可以根据节点到节点的成本找到最短路径。

优先级队列使用数组实现，在每次插入新节点后对该数组进行排序。尽管实现优先级队列还有其他更高效的方式，但在我们的场景中，数组是足够快的，而且实现起来也简单。

Dijkstra展示动画，注意此时的边界是一个圆。

A*

为实现A*算法，需要传递一个实际启发式函数，例如两个节点之间的欧式距离。通过“节点成本”+“节点到目标节点的估算成本”对节点进行加权，通过优先搜索更大可能的节点加快搜索速度。

借助启发式方法，A*可以比Dijkstra或BFS更快地找到正确路径。

非允许的启发式函数

只有应用可允许启发式函数，A*才能找到最短路径，这也意味着算法永远不会高估实际路径长度。由于欧氏距离是两点之间的最短距离/路径，因此欧氏距离绝不会超出。

但如果将其乘以常数k>0会怎样呢？这样会高估距离，成为非允许的启发式函数。

k值越大，算法越容易到达目标，但同时准确性降低，导致生成的路径并非总是最短的。

算法实现

本项目通过Javascript实现，以便读者在Web上进行访问。另外，我使用react渲染UI，使用react-konva渲染图形。

路径发现是指接受队列类型和启发式函数，并返回另一个函数，即真实路径发现（称为currying）。

这样，用户每次更改设置后，都会使用确定参数创建一个新的路径发现函数，并将之用于图搜索。

为可视化路径发现的步骤，我使用javascript生成器，这意味着函数返回一个迭代器，而不仅仅是一个值。因此，访客在每一步都可以生成算法的整个状态，并将其保存到数组，然后通过页面顶部的滑块显示特定状态。

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

PyTorch 指南：17个技巧让你的深度学习模型训练变得飞快！

Tue, 26 Jan 2021 11:27:00 +0800

译者：AI研习社（季一帆、abceefdda）

双语原文链接：Faster Deep Learning Training with PyTorch – a 2021 Guide

如果你正在 pytorch 中训练深度学习模型，那么如何能够加快模型训练速度呢？

在本文中，我会介绍一些改动最小、影响最大的在pytorch中加速深度学习模型的方法。对于每种方法，我会对其思路进行简要介绍，然后预估提升速度并讨论其限制。我会把我认为重要的部分强调介绍，并在每个部分展示一些实例。接下来我将假设你正在使用GPU训练模型，这些方法基本不需要导入其他的库，只需要再pytorch内进行更改即可。

以下是我根据预估的加速效果对不同方法的排序：

考虑使用其他的学习率调整计划
在DataLoader中使用多个辅助进程并页锁定内存
最大化batch大小
使用自动混合精度AMP
考虑不同的优化器
打开cudNN基准
当心CPU与GPU之间的数据传输
使用梯度/激活检查点
使用梯度累积
多GPU分布式训练
将梯度设置为None而不是0
使用.as_tensor()而不是.tensor()
只在需要的时候打开debugging模式
使用梯度裁剪
在BatchNorm之前忽略偏差
验证时关闭梯度计算
规范化输入和批处理

1. 考虑使用其他的学习率调整计划

在训练中使用的学习率调整计划会极大影响收敛速率以及模型泛化能力。

Leslie N. Smith 提出了循环学习率和1Cycle 学习率方法，然后由 fast.ai 的 Jeremy Howard 和 Sylvain Gugger 推广了。总的来说，1Cycle 学习速率方法如下图所示：

在最好的情况下，与传统的学习率策略相比，这种策略可以实现巨大的加速—— Smith称之为“超级收敛”。例如，使用1Cycle策略，在ImageNet上减少了ResNet-56训练迭代数的10倍，就可以匹配原始论文的性能。该策略似乎在通用架构和优化器之间运行得很好。

PyTorch提供了 torch.optim.lr_scheduler.CyclicLR 和 torch.optim.lr_scheduler.OneCycleLR 两种方法实现该操作，请参阅相关文档。

这两个方法的一个缺点是引入了许多额外的超参数。这篇文章和仓库对如何查找好的超参数（包括上文提及的学习率）提供了详细概述和实现。

至于为什么要这样做？现今并不完全清楚，但一个可能的解释是：定期提高学习率有助于更快越过损失鞍点。

2. 在DataLoader中使用多个辅助进程并页锁定内存

在使用 torch.utils.data.DataLoader时，令 num_workers > 0，而不是默认值 0，同时设置 pin_memory=True，而不是默认值 False。至于为什么这么做，这篇文章会给你答案。

根据上述方法，Szymon Micacz 在四个 worker 和页锁定内存的情况下，在单个epoch中实现了 2 倍加速。

根据经验，一般将进程数量设置为可用 GPU 数量的四倍，大于或小于这个值都会降低训练速度。但是要注意，增加num_workers会增加 CPU 内存消耗。

3.最大化batch大小

一直以来，人们对于调大batch没有定论。一般来说，在GPU内存允许的情况下增大batch将会增快训练速度，但同时还需要调整学习率等其他超参数。根据经验，batch大小加倍时，学习率也相应加倍。

OpenAI 的论文表明不同的batch大小收敛周期不同。Daniel Huynh用不同的batch大小进行了一些实验（使用上述1Cycle 策略），实验中他将 batch大小由64增加到512，实现了4倍加速。

然而也要注意，较大的batch会降低模型泛化能力，反之亦然。

4. 使用自动混合精度AMP

PyTorch1.6支持本地自动混合精度训练。与单精度 (FP32) 相比，一些运算在不损失准确率的情况下，使用半精度 (FP16)速度更快。AMP能够自动决定应该以哪种精度执行哪种运算，这样既可以加快训练速度，又减少了内存占用。

AMP的使用如下所示：

import torch# Creates once at the beginning of trainingscaler = torch.cuda.amp.GradScaler()for data, label in data_iter:
optimizer.zero_grad()
# Casts operations to mixed precision
with torch.cuda.amp.autocast():
loss = model(data)
# Scales the loss, and calls backward()
# to create scaled gradients
scaler.scale(loss).backward()
# Unscales gradients and calls
# or skips optimizer.step()
scaler.step(optimizer)
# Updates the scale for next iteration
scaler.update()

Huang及其同事在NVIDIA V100 GPU上对一些常用语言和视觉模型进行了基准测试，发现在FP32训练中使用AMP提高约2倍的训练速度，最高甚至达到5.5倍。

目前，只有CUDA支持上述方式，查看本文档了解更多信息。

5. 考虑不同的优化器

AdamW是由fast.ai提出的具有权重衰减（而非 L2 正则化）的Adam， PyTorch中通过torch.optim.AdamW实现。在误差和训练时间上，AdamW都优于Adam。查看此文章了解为什么权重衰减使得Adam产生更好效果。

Adam和AdamW都很适合前文提到的1Cycle策略。

此外，LARS和LAMB等其他优化器也收到广泛关注。

NVIDA的APEX对Adam等常见优化器进行优化融合，相比PyTorch中的原始Adam，由于避免了GPU内存之间的多次传递，训练速度提升约 5%。

6. 打开cudNN基准

如果你的模型架构时固定的，同时输入大小保持不变，那么设置torch.backends.cudnn.benchmark = True可能会提升模型速度（帮助文档）。通过启用cudNN自动调节器，可以在cudNN中对多种计算卷积的方法进行基准测试，然后选择最快的方法。

至于提速效果，Szymon Migacz在前向卷积时提速70％，在同时向前和后向卷积时提升了27％。

注意，如果你想要根据上述方法最大化批大小，该自动调整可能会非常耗时。

7. 当心CPU与GPU之间的数据传输

通过tensor.cpu()可以将张量从GPU传输到CPU，反之使用tensor.cuda()，但这样的数据转化代价较高。 .item()和.numpy()的使用也是如此，建议使用.detach（）。

如果要创建新的张量，使用关键字参数device=torch.device（'cuda：0'）将其直接分配给GPU。

最好使用.to(non_blocking=True)传输数据，确保传输后没有任何同步点即可。

另外Santosh Gupta的SpeedTorch也值得一试，尽管其加速与否尚不完全清除。

8.使用梯度/激活检查点

检查点通过将计算保存到内存来工作。检查点在反向传播算法过程中并不保存计算图的中间激活，而是在反向传播时重新计算，其可用于模型的任何部分。
具体来说，在前向传播中，function以torch.no_grad()方式运行，不存储任何中间激活。相反，前向传递将保存输入元组和function参数。在反向传播时，检索保存的输入和function，并再次对function进行正向传播，记录中间激活，并使用这些激活值计算梯度。

因此，对于特定的批处理大小，这可能会稍微增加运行时间，但会显着减少内存消耗。反过来，你可以进一步增加批处理大小，从而更好地利用GPU。

虽然检查点可以通过torch.utils.checkpoint方便实现，但仍需要里哦阿姐其思想与本质。Priya Goyal的教程很清晰的演示了检查点的一些关键思想，推荐阅读。

9.使用梯度累积

增加批处理大小的另一种方法是在调用Optimizer.step()之对多个.backward()传递梯度进行累积。

根据Hugging Face的Thomas Wolf发表的文章，可以按以下方式实现梯度累积：

model.zero_grad()                                   # Reset gradients tensors    for i, (inputs, labels) in enumerate(training_set):
predictions = model(inputs)                     # Forward pass
loss = loss_function(predictions, labels)       # Compute loss function
loss = loss / accumulation_steps                # Normalize our loss (if averaged)
loss.backward()                                 # Backward pass
if (i+1) % accumulation_steps == 0:             # Wait for several backward steps
optimizer.step()                            # Now we can do an optimizer step
model.zero_grad()                           # Reset gradients tensors
if (i+1) % evaluation_steps == 0:           # Evaluate the model when we...
evaluate_model()                        # ...have no gradients accumulated

该方法主要是为了规避GPU内存的限制，但对其他.backward()循环之间的取舍我并不清楚。fastai论坛上的讨论似乎表明它实际上是可以加速训练的，因此值得一试。详情查看GitHub托管的rawgradient_accumulation.py。

10.多GPU分布式训练

通过分布式训练加快模型速度的一种简单的方法是使用torch.nn.DistributedDataParallel而不是torch.nn.DataParallel。这样，每个GPU将由专用的CPU内核驱动，从而避免了DataParallel的GIL问题。

强烈推荐阅读分布式训练相关文档了解更多信息：

PyTorch Distributed Overview — PyTorch Tutorials 1.7.0 documentation

11.将梯度设置为None而不是0

设置.zero_grad(set_to_none=True)而不是.zero_grad()。

这样内存分配器处理梯度而不是主动将其设置为0，这会产生该文档所示的适度加速，但不要抱有过大期望。

注意，这样做不会有任何副作用！阅读文档查看更多信息。

12.使用.as_tensor()而不是.tensor()

torch.tensor()本质是复制数据，因此，如果要转换numpy数组，使用torch.as_tensor()或torch.from_numpy()可以避免复制数据。

13.只在需要的时候打开debugging模式

Pytorch提供了许多调试工具，例如autograd.profiler, autograd.grad_check和autograd.anomaly_detection。使用时一定要谨慎，这些调试工具显然会影响训练速度，因此在不需要时将其关闭。

14.使用梯度裁剪

为了避免RNN中的梯度爆炸，使用梯度裁剪gradient = min(gradient, threshold)可以起到加速收敛作用，这一方法已得到理论和实验的支持。

Hugging Face的Transformer提供了将梯度裁剪和AMP等其他方法有效结合的清晰示例。

在PyTorch中，也可使用torch.nn.utils.clip_grad_norm_（文档查阅）完成此操作。

虽然我尚不完全清楚哪种模型可以从梯度裁剪中受益，但毫无疑问的是，对于RNN、基于Transformer和ResNets结构的一系列优化器来说，该方法显然是起到一定作用的。

15.在BatchNorm之前忽略偏差

在BatchNormalization层之前关闭之前层的偏差时一种简单有效的方法。对于二维卷积层，可以通过将bias关键字设置为False实现，即torch.nn.Conv2d(..., bias=False, ...)。阅读该文档了解其原理。

与其他方法相比，该方法的速度提升是有的。

16. 验证时关闭梯度计算

在模型验证时令torch.no_grad()

17. 规范化输入和批处理

也许你已经在这样做了，但还是要仔细检查，反复确认：

是否规范化输入？
是否规范化批处理？

点击查看这样做的原因。

其他技巧：使用JIT实现逐点融合

如果要执行相邻逐点操作，可以使用PyTorch JIT将它们组合成一个FusionGroup，然后在单内核上启动，而不是像默认情况那样在多个内核上启动，同时还可以保存一些内存进行读写。

Szymon Migacz展示了如何使用@torch.jit.script装饰器融合GELU操作融合，如下：

@torch.jit.scriptdef fused_gelu(x): return x * 0.5 * (1.0 + torch.erf(x / 1.41421))

相比于未融合版本，融合这些操作可以使fused_gelu的执行速度提高5倍。

查阅此文章获取更多使用Torchscript加速RNN的示例。

当然，你还可以在Reddit上与u/Patient_Atmosphere45交流讨论。

参考及其他资源

本文许多技巧参考自Szymon Migacz的演讲及PyTorch文档。

PyTorch Lightning的作者William Falcon在这两篇文章种介绍了关于加快训练的内容。同时，PyTorch Lightning已集成以上一些技巧与方法。

Hugging Face的作者Thomas Wolf也写了一系列文章介绍深度学习的加速-尤其是语言模型。

Sylvain Gugger和Jeremy Howard写了很多关于学习率和AdamW的文章。

感谢Ben Hahn，Kevin Klein和Robin Vaaler对本文撰写提供的帮助！

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

准备好了吗？GNN 图神经网络 2021 年的5大应用热点

Mon, 25 Jan 2021 16:15:00 +0800

译者：AI研习社（季一帆）

双语原文链接：Top Applications of Graph Neural Networks 2021

今年开始。图神经网络（Graph Neural Networks）成为研究者讨论的焦点，作为该领域的研究人员，我甚是欣慰。记得大概三年前，图神经网络那时还受到冷落，当我和研究GAN和Transformers的同行交流时，他们认为我的研究方向极其小众。到了现在，这个领域终于守得云开见月明。因此，我将在本文向大家介绍最近的GNNs应用热点。

组合优化

金融、物流、能源、生命科学和硬件设计等多个领域都面临组合优化（CO）问题。这些问题多数可以通过图结构进行建模，因此，过去近一个世纪的研究工作都致力于从算法层面解决CO问题。然而，机器学习的发展为CO问题的解决提供了另外一种可能性。

Google Brain 团队将GNN成功用于硬件设计，如对Google TPU芯片块的功耗、面积和性能的优化。可以将计算机芯片视为由内存和逻辑部件组成的图，每个图由其部件的坐标和类型表示。电气工程师的工作就是，在遵守密度和布线拥塞限制的同时，确定每个组件的位置。Google Brain团队结合GNN和策略/值RL实现对电路芯片布局的设计与优化，其表现优于人工设计的硬件布局。

芯片布局与国际象棋、围棋的复杂度对比（图源）

此外，还可以将机器学习（ML）模型集成到现有求解器中。Gasse et al. 提出了一种用于学习分支定界变量选择策略（混合整数线性程序MILP求解器的关键）的图网，通过该方式能够最小化求解器的运行时间。同时论文表明，该方法既能保证推理时间，又能保证决策质量。

在DeepMind和Google的最新工作中，图网被用于MILP求解器的两个关键子任务：联合变量分配和目标值定界。在Google生产包和规划系统大规模数据集上，他们的神经网络方法比现有求解器快2–10倍。更多内容请查阅相关综述。

计算机视觉

由于世界上所有物体都是密切联系的，因此可以将GNN用于物体图像。通过场景图可以感知图像，即一组物体出现在同一场景中，那么它们之间存在联系。场景图已用在图像检，理解和推理，字幕生成，视觉问答以及图像生成等任务，从而大大提高模型的性能。

Facebook的一项研究表明，根据经典CV数据集COCO中的物体形状、位置和大小创建场景图，然后使用GNN对图中物体进行嵌入，进而结合CNN生成物体的遮罩，边框和外。最终，通过GNN / CNN可以在用户指定节点（确定节点的相对位置和大小）生成物体图像。

使用场景图生成图像。用户可以将物体放置在画布的任何位置，图像也会产生相应变动（如将红色的“河流”从中间移到右下角，那么图像中生成的河流也移到右下角）

对于CV的经典任务——两个相关图像的匹配，之前的方法仅能通过人工实现。但现在，3D图形公司Magic Leap开发出名为SuperGlue的GNN架构，该架构可在实时视频中执行图形匹配，以完成3D重建、位置识别、本地化和制图（SLAM）等任务。SuperGlue由一个基于注意力的GNN组成，GNN学习图像关键点的表示，然后在最佳传输层对这些关键点表示进行匹配。模型可以在GPU上实现实时匹配，还能方便地集成到现有SLAM系统中。关于图形与计算机视觉的更多研究和应用，参见以下综述文章。

物理/化学

根据粒子或分子之间的相互作用构建图，然后使用GNN预测系统属性已逐渐成为生命科学中的重要研究方法。Facebook和CMU合作的Open Catalyst项目致力于找到新的方法来存储可再生能源，例如太阳能或风能。可能的方案之一是通过化学反应将这种能量转换成其他燃料，如氢气。然而，这需要发现新的、更高效的催化剂来加速化学反应，且已知的DFT方法成本极高。Open Catalyst项目开源了大规模催化剂数据集、DFT弛豫和GNN基准方法，希望找到新的、高效的、低成本催化剂分子。

吸附质（小连接分子）和催化剂表面的初始状态和松弛状态。为了找到吸附质-催化剂对的松弛状态，需要进行高昂的DFT模拟，而且要花费好几天时间。Zitnick et al. 2020

DeepMind的研究人员还使用GNN来模拟复杂粒子系统（例如水或沙子）的动力学过程。通过逐步预测每个粒子的相对运动，可以合理重建整个系统的动力学，了解控制运动的基本规律。这可用于了解玻璃化转变——固态理论中最有趣的未决问题之一。此外，使用GNN不仅可以模拟过渡中的动力学，而且可以更好地了解粒子之间如何根据距离和时间产生相互影响。

此外，美国的物理实验室的Fermilab致力于应用GNNs对CERN大型强子对撞机（LHC）的结果进行分析，希望能够对数百万图像进行处理，发现并选择与新粒子相关的图像。他们的任务是将GNN部署在FPGA，并将其与数据采集器集成在一起，这样可以在全球范围内远程运行GNN。有关GNNs在粒子物理学中的更多应用，参见以下综述文章。

药物研发

制药行业竞争激烈，头部公司每年都会投入数十亿美元来开研发新药。在生物学中，图可以表示不同尺度上的相互作用，如在分子水平，图的边缘可以是分子中原子之间的键或蛋白质中氨基酸残基之间的相互作用；在更大的尺度上，图可以表示更复杂的结构（例如蛋白质，mRNA或代谢物）之间的相互作用。不同层次尺度中的图可用于目标识别，分子特性预测，高通量筛选，新型药物设计，蛋白质工程和药物再利用等。

应用GNN进行药物研发的时间流，Gaudelet et al., 2020

麻省理工学院的研究人员及其合作者在Cell(2020)上发表的文章表明，GNN有助于药物研发。他们训练了名为Chemprop的深层GNN模型来预测分子是否具有抗生素特性，即对大肠杆菌的生长抑制作用。在使用FDA批准的药物库中的约2500个分子对其进行训练后，Chemprop被应用于更大的数据集，该数据集为包含Halicin分子的Drug Repurposing Hub，并根据《2001：太空漫游》电影中的HAL9000对其重命名。

需要说明的是，由于Halicin分子结构与已知的抗生素相差很大，因此先前的工作仅对该分子进行研究。但是，体内和体外临床实验表明，Halicin是一种广谱抗生素。相比NN模型进行的广泛基准测试，应用GNN发现Halicin更加显示了GNN强大的学习表征能力。除此之外，Chemprop架构也值得关注：不同于多数GNN模型，Chemprop有5层和1600隐藏层维数，远超其他GNN参数。以上介绍不过是GNN在新药发现中的冰山一角，想要了解更多信息，请查阅该综述和博客。

致谢

感谢Michael Bronstein，PetarVeličković，Andreas Loukas，Chaitanya Joshi，Vladimir Ivashkin，Boris Knyazev等人的反馈与建议。

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

准备开始学习机器学习？有人帮你选出了 top 8 优质课程：CS229、 Stat 451……

Fri, 22 Jan 2021 11:21:00 +0800

译者：AI研习社（小Y的彩笔）

双语原文链接：Course Recommendations for Introductory Machine Learning

在你入门深度学习之前，我强烈建议你学几门机器学习的入门课程来掌握一些诸如聚类、回归、评估指标等基本概念。

1. 科尔辛基大学的 Elements of AI

注：我已经学了许多线上的机器学习课程。我上一些课的本意是为了娱乐，不过总能学到一些新知识。“Elements of AI"这门课是我参加过的最易懂，免费且有趣的AI课程之一。他们增加了第二部分联系算法构建。

我建议观看第一部分，”Introduction to AI”。这部分介绍了诸如搜索，贝叶斯定理，最近邻居和神经网络等基础概念。并穿插着一些很棒的练习。在第一节课结束后，你会对这个领域有一个全局的高层次的认识。

第二部分（Building AI）也是免费的，但如果你想得到认证证书则需要付费。我想说这绝对是值得的！第二部分是关于一些基本算法的实现的（用Python)，会让你理解像优化和贝叶斯定理这样的概念。

2. 微软的 Create machine learning models 课程

注：聚类的章节讲的是真的棒！

3. 斯坦福大学 Andrew Ng 的 Stanford CS229: Machine Learning 课程

注：永远是我最喜欢的机器学习课程之一！

4. 谷歌提供的 Machine Learning Crash Course 课程

注：这个课程一发布我就学了，并且被课程的的高质量所吸引。

5. Jeremy Howard 的 Introduction to Machine Learning for Coders 课程

注：我看了一些 http://fast.ai 课程的视频，很快明白他们的课程为什么这么受欢迎。这里面介绍了非常实用的方法！

6. Bloomberg ML edu 提供的 Foundations of Machine Learning 课程

注：如果你热爱数学和理论，你会喜欢这门课程的深度。

7. 机器学习大学提供的 Tabular Data 课程

注：这门课程用容易掌握的解释和机器学习的应用实例，从高层次了重要的机器学习话题。

8. Sebastian Raschka 的 Stat 451: Intro to Machine Learning (Fall 2020) 课程

注：Aebastian 坚持在他的 YouTube 频道上发布很棒的机器学习内容，我真的超级感谢这些内容，非常易学！

当然还有许多其他课程，但我只能推荐一些我学过的。如果你找到其他好的课程欢迎要分享在评论区！如果你能分享你上课的经历以及你为什么喜欢它门或者觉得课程有用，那就太棒了。

一旦有新的有趣的课程出现，我将会保持更新这个列表。

其他小贴士：

列出你觉得有趣或者有挑战的主题。
在这些主题上做更多的调查
练习编代码
分享你的代码
写笔记
写下或者报告逆的有趣的写成果或者点子
慢慢来
参与机器学习论坛或讨论

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

人工智能和机器学习之间的区别，你真的清楚吗?

Thu, 21 Jan 2021 15:07:00 +0800

译者：AI研习社（听风1996）

双语原文链接：Machine Learning (ML) vs. Artificial Intelligence (AI) — Crucial Differences

最近，一份关于那些声称在其产品和服务上使用人工智能[29] [30]的公司滥用人工智能的报告发布。根据Verge [29]的数据，40%声称使用人工智能的欧洲初创公司其实并没有使用这项技术。去年，TechTalks也意外发现了这样的滥用行为，一些公司声称使用机器学习和先进人工智能来收集和检查数千名用户的数据，以增强其产品和服务[2] [33]的用户体验。

遗憾的是，公众和媒对于什么是真正的人工智能 [44]，以及到底什么是机器学习[18] ，仍然存在很多困惑。这些术语通常被用作同义词。在其他情况下，人工智能与机器学习是相对独立的、互相平行的领域发展进步，而另一些则利用这一趋势来有意炒作和博眼球（刺激），来增加销售量以及收入 [2] [31] [32] [45]。

下面我们来看看人工智能和机器学习之间的一些主要区别。

什么是机器学习？

什么是机器学习 | Tom M. Mitchell，Machine Learning，McGraw Hill，1997[18]

CMU计算机科学学院临时院长、卡内基梅隆大学(Carnegie Mellon University)教授、前机器学习系主任 Tom M. Mitchell 表示:

科学领域最好由它所研究的中心问题来界定。机器学习领域试图回答以下问题：
“我们怎样才能建立一个随着经验而自动改进的计算机系统，而支配所有学习过程的基本法则是什么？[1]”

机器学习（ML）是人工智能的一个分支，正如计算机科学家和机器学习先驱 [19]Tom M.Mitchell所定义的：“机器学习是对计算机算法的研究，允许计算机程序通过经验自动改进。” [18] —ML是我们期望实现人工智能的方法之一。机器学习依赖于对大大小小的数据集进行研究，通过检查和比较数据来发现共同的模式并探索细微差别。

例如，如果您提供一个机器学习模型，其中包含许多您喜欢的歌曲，以及它们相应的音频统计数据（舞蹈性、乐器、节奏或流派）。它应该能够自动化（取决于所使用的有监督机器学习模型）并生成推荐系统 [43]，以便在未来向您推荐您喜欢的音乐（以高概率），类似于Netflix、Spotify和其他公司所做的 [20] [21] [22]。

在一个简单的例子中，如果你加载了一个机器学习程序，其中有相当大的X射线图片数据集以及它们的描述（症状、需要考虑的项目和其他），它应该有能力在以后协助（或可能自动化）X射线图片的数据分析。机器学习模型会查看不同数据集中的每一张图片，并在具有可比指征标签的图片中找到共同的模式。此外，（假设我们对图像使用可能的ML算法）当你用新的图片加载模型时，它会将其参数与之前收集的例子进行比较，以揭示图片中包含它先前分析过的任何指征的可能性。

监督学习（分类/回归）|无监督学习（聚类）|Credits: Western Digital [13]

我们前面示例中的机器学习类型，称为“监督学习”，其中监督学习算法尝试对目标预测输出和输入特征之间的关系和依赖关系建模，以便我们可以根据这些关系预测新数据的输出值，它已经从以前的数据集 [15] 中学习到了反馈。

无监督学习是机器学习的另一种类别，是一类主要用于模式检测和描述性建模的机器学习算法。这些算法在数据上没有输出类别或标签（模型使用未标记的数据进行训练）。

强化学习 | Credits: Types of ML Algorithms you Should Know by David Fumo [3]

强化学习是第三种流行的机器学习类型，其目的是利用从与环境的交互中收集到的观察结果来采取行动，以最大限度地提高回报或降低风险。在这种情况下，强化学习算法（称为agent）通过迭代不断地从环境中学习。强化学习的一个很好的例子是电脑达到了超人的状态，并在电脑游戏中打败了人类[3]。

机器学习可以让人眼花缭乱，尤其是它的高级子分支，即深度学习和各种类型的神经网络。无论如何，它是 "神奇 "的（计算学习理论） [16]，不管公众有时是否有观察其内部运作的问题。虽然有些人倾向于将深度学习和神经网络与人脑的工作方式进行比较，但两者之间存在着本质的区别 [2] [4] [46]。

什么是人工智能（AI）？

卡耐基梅隆大学计算机科学学院教授兼院长 Andrew Moore讲解的人工智能全景图｜Youtube [14]

另一方面，人工智能的范围很广。根据卡耐基梅隆大学计算机科学学院前院长Andrew Moore [6] [36] [47]的说法，"人工智能是一门科学和工程，它让计算机以一种直到最近我们还认为需要人类智能的方式运行。"

这是一个用一句话来定义人工智能的好方法；然而，它仍然显示出这个领域是多么广泛和模糊。50年前，下棋程序被认为是人工智能的一种形式 [34]，因为博弈论和游戏策略是只有人脑才能完成的能力。如今，象棋游戏是枯燥而陈旧的，因为它几乎是每个计算机操作系统（OS）的一部分 [35]；因此，"直到最近 "是随着时间的推移而发展的东西 [36]。

CMU的助理教授和研究员 Zachary Lipton在Approximately Correct [7]上阐明，AI这个术语 "是一个理想的，是一个动态的目标，一种基于那些人类拥有但机器没有的能力"。AI还包括相当程度的我们所知道的技术进步。机器学习只是其中之一。之前的人工智能作品利用了不同的技术。例如，1997年击败世界国际象棋冠军的人工智能 "深蓝 "使用了一种叫做树搜索算法 [8]的方法来评估每一个回合的数百万步 [2] [37] [52] [53]。

使用深度优先搜索解决八皇后难题的示例 | 人工智能简介 | . how2Examples

正如我们今天所知道的那样，人工智能的象征是以Google Home、Siri和Alexa为代表的人机交互小工具，以Netflix、亚马逊和YouTube为代表的机器学习驱动的视频推荐系统。这些技术进步正逐步成为我们日常生活中不可或缺的一部分。它们是智能助手，提升了我们作为人类和专业人士的能力--使我们更有效率。

与机器学习相比，人工智能是一个动态的目标 [51]，它的定义会随着其相关技术进步的进一步发展而改变[7]。可能在几十年内，今天的人工智能创新进展应该被认为是乏味的，就像现在的翻盖手机对我们来说一样。

为什么科技公司倾向于将AI和ML交替使用？

"... ...我们想要的是一台能从经验中学习的机器" ~ Alan Turing

"人工智能 "一词是在1956年由Allen Newell和Herbert A. Simon等一批研究人员提出的[9]。从那时起，人工智能的产业经历了许多波动。在早期的几十年里，围绕着这个行业进行了大量的炒作，许多科学家都一致认为人类水平的人工智能指日可待。然而，未兑现的论断引起了行业与公众的普遍不满，并导致了人工智能的寒潮，这一时期，对该领域的资金和兴趣大大消退 [2] [38] [39] [48]。

后来，各组织试图将自己的工作与人工智能这个术语分开，人工智能已经成为无事实根据的炒作的同义词，并利用不同的名称来指代他们的工作。例如，IBM将 "深蓝 "描述为一台超级计算机，并明确表示它没有使用人工智能 [10]，而它却使用了人工智能 [23]。

在此期间，各种其他术语，如大数据、预测分析和机器学习，开始受到关注和普及[40]。2012年，机器学习、深度学习和神经网络取得了长足的进步，并在越来越多的领域得到应用。各机构突然开始使用“机器学习”和“深度学习”来宣传他们的产品[41]。

深度学习开始解决那些基于经典规则编程无法完成的任务。早期的语音和人脸识别、图像分类、自然语言处理等领域突飞猛进 [2] [24] [49]，2019年3月，三位最受认可的深度学习先驱获得了图灵奖，他们的贡献和突破使深度神经网络成为当今计算的关键组成部分[42]。

因此，从这个势头来看，我们看到了人工智能的回归。对于那些习惯于使用各种限制的老式软件人来说，深度学习的效果几乎就像 "魔法" [16] 一样[16]。尤其是由于神经网络和深度学习进入的一小部分领域被认为是计算机的禁区，而如今，机器学习和深度学习的工程师都能获得高薪，甚至在非营利组织工作，这就足以说明了这个领域的热度 [50] [11].。

来源 | 推特 | GPT-2更好的语言模型及其含义，Open AI

可悲的是，这一点媒体公司往往在没有进行深刻考察的情况下就进行报道，并且经常配合人工智能文章中的水晶球（译者注：神奇的事情）和其他超自然描描述。这样的欺骗性行为有助于那些公司围绕他们的产品产生炒作[27]。然而，在以后的日子里，由于未能达到预期，这些机构不得不雇佣他人来弥补他们所谓的人工智能[12]。最终，他们可能会为了短期利益而导致该领域的不信任，并引发另一个人工智能的冬天寒潮[2] [28]。

资源

机器学习导论｜Matt Gormley｜卡耐基梅隆大学计算机科学学院｜

| http://www.cs.cmu.edu/~mgormley/courses/10601/

AI for Everyone | Andrew Ng | Coursera |

| https://www.coursera.org/learn/ai-for-everyone

Machine Learning Crash Course | Google |

| https://developers.google.com/machine-learning/crash-course/

机器学习介绍 | Udacity |

| https://www.udacity.com/course/intro-to-machine-learning–ud120

机器学习培训｜亚马逊网络服务｜

| https://aws.amazon.com/training/learning-paths/machine-learning/

机器学习简介｜Coursera｜

| https://www.coursera.org/learn/machine-learning

参考文献：

[1] The Discipline of Machine learning | Tom M. Mitchell | http://www.cs.cmu.edu/~tom/pubs/MachineLearning.pdf

[2] Why the difference between AI and machine learning matters | Ben Dickson | TechTalks | https://bdtechtalks.com/2018/10/08/artificial-intelligence-vs-machine-learning/

[3] Types of Machine Learning Algorithms You Should Know | David Fumo | Towards Data Science | https://towardsdatascience.com/types-of-machine-learning-algorithms-you-should-know-953a08248861

[4] Watch our AI system play against five of the world’s top Dota 2 Professionals | Open AI | https://openai.com/five/

[5] Differences between Neural Networks and Deep Learning | Quora | https://www.quora.com/What-is-the-difference-between-Neural-Networks-and-Deep-Learning

[6] What Machine Learning Can and Cannot Do | WSJ | https://blogs.wsj.com/cio/2018/07/27/what-machine-learning-can-and-cannot-do/

[7] Carnegie Mellon Dean of Computer Science on the Future of AI | Forbes | https://www.forbes.com/sites/peterhigh/2017/10/30/carnegie-mellon-dean-of-computer-science-on-the-future-of-ai

[8] From AI to Ml to AI: On Swirling Nomenclature & Slurried Thought | Zachary C. Lipton | Approximately Correct | http://approximatelycorrect.com/2018/06/05/ai-ml-ai-swirling-nomenclature-slurried-thought/

[9] Tree Search Algorithms | Introduction to AI | http://how2examples.com/artificial-intelligence/tree-search

[10] Reinventing Education Based on Data and What Works, Since 1955 | Carnegie Mellon University | https://www.cmu.edu/simon/what-is-simon/history.html

[11] Does Deep-Blue use AI? | Richard E. Korf | University of California | https://www.aaai.org/Papers/Workshops/1997/WS-97-04/WS97-04-001.pdf

[12] Artificial Intelligence: Salaries Heading Skyward | Stacy Stanford | Machine Learning Memoirs | https://medium.com/mlmemoirs/artificial-intelligence-salaries-heading-skyward-e41b2a7bba7d

[13] The rise of ‘pseudo-AI’: how tech firms quietly use humans to do bots’ work | The Guardian | https://www.theguardian.com/technology/2018/jul/06/artificial-intelligence-ai-humans-bots-tech-companies

[14] Simplify Machine Learning Pipeline Analysis with Object Storage | Western Digital | https://blog.westerndigital.com/machine-learning-pipeline-object-storage/

[15] Dr. Andrew Moore Opening Keynote | Artificial Intelligence and Global Security Initiative | https://youtu.be/r-zXI-DltT8

[16] The 50 Best Public Datasets for Machine Learning | Stacy Stanford | https://medium.com/datadriveninvestor/the-50-best-public-datasets-for-machine-learning-d80e9f030279

[17] Computational Learning Theory | ACL | http://www.learningtheory.org/

[18] Machine Learning Definition | Tom M. Mitchell| McGraw-Hill Science/Engineering/Math; (March 1, 1997), Page 1 | http://www.cs.cmu.edu/afs/cs.cmu.edu/user/mitchell/ftp/mlbook.html

[19] For pioneering contributions and leadership in the methods and applications of machine learning. | “Prof. Tom M. Mitchell.” National Academy of Engineering. Retrieved October 2, 2011.

[20] Recommender System | Wikipedia | https://en.wikipedia.org/wiki/Recommender_system

[21] Spotify’s “This Is” playlists: the ultimate song analysis for 50 mainstream artists | James Le | https://towardsdatascience.com/spotifys-this-is-playlists-the-ultimate-song-analysis-for-50-mainstream-artists-c569e41f8118

[22] How recommender systems make their suggestions | Bibblio | https://medium.com/the-graph/how-recommender-systems-make-their-suggestions-da6658029b76

[23] Deep Blue | Science Direct Assets | https://www.sciencedirect.com/science/article/pii/S0004370201001291

[24] 4 great leaps machine learning made in 2015 | Sergar Yegulalp | https://www.infoworld.com/article/3017250/4-great-leaps-machine-learning-made-in-2015.html

[25] Limitations of Deep Learning in AI Research | Roberto Iriondo | Towards Data Science | https://towardsdatascience.com/limitations-of-deep-learning-in-ai-research-5eed166a4205

[26] Forty percent of ‘AI startups’ in Europe don’t use AI, claims report | The Verge | https://www.theverge.com/2019/3/5/18251326/ai-startups-europe-fake-40-percent-mmc-report

[27] This smart toothbrush claims to have its very own ‘embedded AI’ | The Verge | https://www.theverge.com/circuitbreaker/2017/1/4/14164206/smart-toothbrush-ara-ai-kolibree

[28] The Coming AI Autumn | Jeffrey P. Bigham | http://jeffreybigham.com/blog/2019/the-coming-ai-autumnn.html

[29] Forty percent of ‘AI startups’ in Europe don’t use AI, claims report | The Verge | https://www.theverge.com/2019/3/5/18251326/ai-startups-europe-fake-40-percent-mmc-report

[30] The State of AI: Divergence | MMC Ventures | https://www.mmcventures.com/wp-content/uploads/2019/02/The-State-of-AI-2019-Divergence.pdf

[31] Top Sales & Marketing Priorities for 2019: AI and Big Data, Revealed by Survey of 600+ Sales Professionals | Business Wire | https://www.businesswire.com/news/home/20190129005560/en/Top-Sales-Marketing-Priorities-2019-AI-Big

[32] Artificial Intelligence Beats the Hype With Stunning Growth | Forbes | https://www.forbes.com/sites/jonmarkman/2019/02/26/artificial-intelligence-beats-the-hype-with-stunning-growth/#4e8507391f15

[33] Misuse of AI can destroy customer loyalty: here’s how to get it right | Compare the Cloud | https://www.comparethecloud.net/articles/misuse-of-ai-can-destroy-customer-loyalty-heres-how-to-get-it-right/

[34] Timeline of Artificial Intelligence | Wikipedia | https://en.wikipedia.org/wiki/Timeline_of_artificial_intelligence#1950s

[35] Computer Chess | Wikipedia | https://en.wikipedia.org/wiki/Computer_chess

[36] Artificial Intelligence at Carnegie Mellon University |Machine Learning Department at Carnegie Mellon University | https://www.youtube.com/watch?v=HH-FPH0vpVE

[37] Search Control Methods in Deep Blue | Semantic Scholar | https://pdfs.semanticscholar.org/211d/7268093b4dfce8201e8da321201c6cd349ef.pdf

[38] Is Winter Coming? | University of California, Berkeley | https://pha.berkeley.edu/2018/12/01/is-winter-coming-artificial-intelligence-in-healthcare/

[39] AI Winter | Wikipedia | https://en.wikipedia.org/wiki/AI_winter

[40] A Very Short History of Data Science | Forbes |

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

让审稿人更感兴趣的论文标题和摘要如何撰写？简洁、精确、周密是关键

Wed, 20 Jan 2021 10:35:00 +0800

译者：AI研习社（FIONAbiubiu）

双语原文链接：Writing the title and abstract for a research paper: Being concise, precise, and meticulous is the key

介绍

本文旨在为原始研究论文起草合适的“标题”和合适的“摘要”。因为“标题”和“摘要”是“初始曝光”或是一个研究文章的“脸面”，它们需要被正确地，准确地，谨慎地，精心地起草，并且消耗的时间和精力。[ 1，2，3，4，5，6，7，8，9，10 ]通常，这些起草之后是完备的手稿。[ 2，3，4，5，9，10，11]大多数读者只读论文的标题和摘要，很少“有兴趣的人”（特别是，如果论文对他们有用）将继续阅读全文[ 1，2]。“目标刊物”关于风格和文字的数量允许的标题和摘要的指令（该杂志为此笔者正在写）是必须遵守的。[ 2，4，5，7，8，9，12]标题和摘要都是研究论文中最重要的部分，对于编辑（决定是否对论文进行进一步的审查），对于审稿人（使论文有初步印象）和对于读者（因为这些可能是可用的论文的唯一可以免费获得的部分，因此，广泛地读取）。[ 4，8，12 ]对于新手来说，浏览几本著名期刊（以及它们的目标期刊）的标题和摘要可能是值得的，以了解更多关于标题和摘要的措辞和风格，以及特定期刊的目的和范围[ 5，7，9，13 ]

标题

我们在小标题下对标题的重要性、类型、制图和核对信息的详细信息进行了讨论。

标题的重要性

当读者浏览通过的轴颈问题（硬拷贝或在网站上）的内容表中，标题是“第一细节”或所读取的纸张的“脸面”。[ 2，3，4，5，6，，13 ]因此，它必须简单，直接，准确，适当，具体，功能，有趣，有吸引力/吸引人，简洁/简短，精确/集中，明确，令人难忘，引人入胜，内容丰富（足以鼓励读者进一步阅读），独特，上口，而且它不应该误导。[ 1，2，3，4，5，6，9，12]它应该有“刚好够用方式”，引起读者的兴趣和好奇心，使读者然后研究摘要，然后（如果还有兴趣）的去阅读全文。[ 1，2，4，13 ]期刊网站，电子数据库和搜索引擎使用标题和摘要中的单词（“关键字”）在搜索过程中检索特定论文；因此，在由读者一直强调访问论文中这些字的重要性。[ 3，4，5，6，12，14]此类重要的单词（或关键字）应根据本文的上下文以适当的重要性顺序排列，并应放置在标题的开头（而不是标题的后半部分，因为某些搜索引擎例如Google只显示标题的前六至七个字）。[ 3，5，12 ]有巧思的的、有趣的或有智慧的标题，虽然最初很吸引人，但忙碌的读者可能会错过或误读，而且很短的标题可能会因为读者用索引和分类论文的基本科学词汇（“关键词”）搜索而错过。[ 1，3，4，9]而且，令人惊讶或者热闹标题可能不会被读者重视，并且较少引用。[ 4，15 ]过长或复杂标题可能不够吸引读者。[ 3，9 ]在起草正文和摘要之后起草标题可能是个好主意。[ 2，3，4，5 ]

标题类型

标题可以是描述性的、陈述性的或疑问性的。它们也可以分为名词性标题、复合标题或全句标题。

描述性或中性标题

这包含了研究主题的基本要素，即患者/受试者、设计、干预、比较/控制和结果，但并未揭示主要结果或结论，[3,4,12,16] 这样的标题可以让读者以公正的态度和开放的心态来解释研究论文的发现。[3] 这些标题还提供了有关文章内容的完整信息，有几个关键字（从而提高了文章在搜索引擎中的可见性），并且增加了被阅读和（其后）被引用的机会。[4]因此，这样的描述性标题通常会让人对论文有一个大致的了解。[4,16]

声明性标题

这个标题在标题本身陈述了研究的主要发现；它减少了读者的好奇心，可能指向作者的偏见，因此最好避免。[3,4,12,16]

疑问性标题

在标题中有一个查询语句或研究问题。[3,4,16]虽然标题中的查询语句有耸人听闻的主题，下载量更多（但引用较少），但它可能会分散读者的注意力，最好还是避免用于研究文章（但有时可以用于评论文章）。[3,6,16,17]

从句子结构的角度来看，标题可以是名词性的（只抓住研究的主题），复合的（带有副标题以提供额外的相关信息，如上下文、设计、地点/国家、时间方面、样本量、重要性和挑衅性的或文学性的；例如，见本综述的标题），或完整的句子标题（更长，表示结果的确定程度更高）。[4,6,9,16] 根据文章类型、关键信息和作者的偏好或判断，可以使用这些结构中的任何一种。[4]

起草合适的标题

可以遵循一个逐步的过程来起草适当的标题。作者应该用大约三句话来描述论文，避免使用结果，并确保这些句子包含描述论文主要内容和主题的重要科学词汇/关键词。[1,4,6,12] 然后作者应该将这些句子连接起来形成一个句子，缩短长度（通过删除多余的词或形容词或短语），最后编辑标题（这样起草）以使其更准确、简洁（约10-15个单词）和精确。[1,3,4,5,9] 一些期刊要求将研究设计包括在标题中，并且可以（使用冒号）放在主要标题之后。[2,3,4,14] 标题应尽量包含受动者Patients，干预 Interventions、比较 Comparisons 和结果Outcome（PICO）。[3] 研究位置可包括在标题中（如果绝对必要），即如果受动者特征（如研究人群、社会经济状况或文化习俗）预计会因国家（或研究地点）的不同而有所不同，并对可能的结果产生影响。[3,6]长标题可能会很枯燥，显得不集中，而很短的标题可能不能代表文章的内容；因此，为了确保书名能够解释原稿的主题和内容，需要适当的篇幅。[4,5,9] 书名中应避免使用缩写词（标准或常用解释的缩写词除外，如HIV、AIDS、DNA、RNA、CDC、FDA、ECG和EEG）或首字母缩写词，因为不熟悉它们的读者可能会跳过这样一篇文章，而不标准的缩写可能会给文章的索引带来问题。[3,4,5,6,9,12] 此外，标题中过多的术语或化学公式可能会使读者感到困惑，从而使读者可能会跳过这篇文章。[4,9] 标题中也应避免使用各种参数的数值（说明研究期间或样本量）（除非认为非常必要）。[4]在最终确定标题之前，征求公正同事的意见是值得的。[4,5,6] 因此，在制定标题时需要考虑多个因素（有时有点冲突或对比），因此不应匆忙完成。[4,6]许多期刊要求作者起草一个“短标题”或“流水标题”，以便在打印的论文的页眉或页脚中打印。[3,12] 这是一个最多40-50个字符的主标题的缩写版本，可能有标准的缩写，帮助读者浏览论文。[3,12,14]

好标题清单

Table 1给出了为研究论文起草好标题的清单/有用提示[1,2,3,4,5,6,12] Table 2 列出了本文作者在其早期研究论文中使用的一些标题，并对标题的适当性进行了评论。作为一个单独的练习，读者在阅读了相应的摘要和全文后，可以试着即兴创作标题（进一步）。

表1

一篇研究论文起草一个好标题的Checklist/有用的提示

标题必须简单直接

标题应该是有趣的和有用的

标题应该是具体的，准确的，和功能性的（与基本的科学“关键字”索引）

标题应该简洁、准确，并且应该包括论文的主题

不应误导或歪曲事实

不能太长或太短（或晦涩）

标题应该避免使用异想天开或不严肃的话

它应该避免使用非标准的缩写和不必要的缩写（或技术术语）

标题应该是SPICED，也就是说，它应该包括设置Setting，人口Population，干预Intervention，条件Condition，终点End-point和设计Design

只有在增加标题的科学价值时，才应提及研究位置和样本量

重要的术语/关键字应放在标题的开头

描述性标题优先于陈述性或疑问性标题

作者应遵守目标期刊规定的字数和其他说明

Table2

本文作者在其早期出版物中使用的一些标题及其适当性的评论

标题	注释/对标题内容的注释
比较儿科死亡率风险III、儿科死亡率指数2和儿科死亡率指数3在预测儿科重症监护病房死亡率方面的得分	长标题（28字）抓住了主题；提到了研究地点
三级转诊中心儿科重症监护病房抗菌药物应用前瞻性研究	用最合适的字数抓住主题；提及研究地点
儿科重症监护病房呼吸机相关性肺炎的研究	可以删除“研究”一词
变应性鼻炎和哮喘患儿的临床特征、共病率和健康相关生活质量	最合适字数；人口和干预措施
苯星青霉素预防小儿风湿热（RF）/风湿性心脏病（RHD）的依从性研究。	最好在标题的开头使用“符合性”这个重要的词，而不是在结尾。缩写RF和RHD可以删除，因为标题中已经提到了相应的完整形式
PRISM（儿科死亡率风险）评分和PIM（儿科死亡率指数）评分在三级护理中的表现儿科ICU。	使用缩写，“ICU”是一个常用的缩写，因此可以使用。可以删除缩写PRISM和PIM，因为标题本身已经使用了相应的完整表格
医护人员对职业暴露中预防血源性病毒感染传播的认识	题目略长（18个字）；主题捕捉得很好
肺动脉瓣孤立性感染性心内膜炎：对9例病例的尸检分析	副标题用于传达更多细节，如“尸检”（即尸检分析）和“9”（即病例数）
肺总静脉闭锁-一种罕见的先天性异常	副标题，用于传达论文的重要性/罕见的情况
儿科重症监护病房幸存者的心理后果：被忽视的结果	副标题用来传达论文的重要性，使标题更有趣
风湿热和风湿性心脏病：印度550例患者的临床资料	病例数（550）由于是一个大系列而得到强调；标题中提到了国家（印度）——风湿热和风湿性心脏病患者的临床资料是否因国家而异？可能是的，因为临床特征取决于社会经济和文化背景
HIV感染的神经系统表现	简称；缩写“HIV”可以被允许，因为它是一个常用的缩写
Krabbe病-临床概况	非常简短的标题（只有四个字）-可能会错过索引所需的基本关键字
孟买儿童破伤风病例分析	标题中提到的城市（孟买）-人们需要思考标题中是否需要它

摘要

我们在副标题下对摘要的重要性、类型、起草和检查表进行讨论。

摘要的重要性

摘要是对全文的总结或概要，也需要有与题目相似的特点。它需要简单、直接、具体、实用、清晰、公正、诚实、简洁、精确、自给自足、完整、全面、学术性、平衡，并且不应误导。[1,2,3,7,8,9,10,11,13,17]写摘要就是摘录和总结（AB–绝对absolutely，STR–直截了当straightforward，ACT–实际actual数据的呈现和解释）。[17] 标题和摘要是研究论文的唯一部分，读者通常可以在期刊网站、搜索引擎和许多摘要机构/数据库中免费获得，鉴于全文可能会收取每次浏览的费用或下载pdf的费用。[1,2,3,7,8,10,11,13,14] 摘要是手稿的独立部分（也就是说，在不阅读全文的情况下可以很好地理解），编辑使用这个部分来决定文章的命运并选择适当的审稿人。[2,7,10,12,13] 即使是审稿人，在他们同意审稿之前，最初也只提供标题和摘要。[7,13]这是手稿第二常见的阅读部分，因此，它应该准确地反映论文正文的内容，从而成为整篇文章的“真正的预告片”。[2,7,11]只有当读者发现摘要有趣并且与他们的实践相关时，他们才会阅读整篇论文；否则，如果摘要不引人注意，他们可能会跳过论文。[7,8,9,10,13] 作者摘要需要突出稿件的卖点，成功地吸引读者阅读全文，[3,7] 标题和摘要应使用正文所有部分的关键词（关键术语/重要词语）来构建。[12] 摘要也用于将研究论文提交给会议，以供考虑发表（如口头论文或海报）。[9,13,17]语法和排版错误反映了论文的质量，摘要可能表明作者的粗心/随意态度，因此应始终避免。[9]

摘要类型

摘要可以是结构化的，也可以是非结构化的。它们也可以分为描述性或信息性摘要。

结构化和非结构化摘要

大多数期刊都遵循结构化摘要，信息量更大，并包括需要撰写摘要的特定副标题/子章节。[1,7,8,9,10,11,13,17,18]这些副标题通常包括背景/背景、目标、设计、背景、参与者、干预措施、主要结果指标、结果，和结论。[1] 一些期刊坚持IMRAD标准格式的摘要结构，副标题将包括引言/背景 Introduction/Background、方法,Methods、结果Results和（而不是讨论Discussion）结论。[1,2,7,8,9,10,11,12,13,17,18]结构化摘要更加详细、信息量大、易于阅读、回忆和同行评审，因此，它们是首选；然而，它们占用更多的空间，并且可能具有与非结构化摘要相同的局限处。[7,9,18]结构化摘要（可能）更好地被评论家和读者理解。无论如何，摘要类型和结构化摘要副标题的选择取决于特定的期刊风格，而不是作者的意愿。[7,10,12] 单独的副标题对于报道元分析、教育研究、质量改进工作、综述或案例研究可能是必要的。[1] 临床试验摘要需要包括CONSORT（报告试验的综合标准Consolidated Standards Of Reporting Trials）指南中提到的基本项目。[7,9,14,19]对于各种其他类型的研究，包括观察性研究和诊断准确性研究，也有类似的指南。[20,21]上述指南的有用资源可访问www.equator-network.org（提高卫生研究的质量和透明度）。非结构化（或非结构化）摘要是自由流动的，没有预定义的副标题，通常用于（通常）不描述原始研究的论文。[1,7,9,10]

四点结构摘要：该摘要包含以下要素，需要就每个副标题下的内容/事项进行适当平衡：[9]

背景和/或目标：这说明了为什么开展这项工作，通常只用几句话就可以完成。[3,7,8,9,10,12,13]假设/研究问题和主要目标也在这个副标题下陈述。[3,7,8,9,10,12,13]

方法：本小节是最长的，说明了所做的工作，并给出了研究设计、设置、参与者、盲法、样本量、抽样方法、干预、持续时间和随访、研究工具、主要结果测量、评估参数以及如何评估或分析结果的基本细节。[3,7,8,9,10,12,13,14,17]

结果/观察结果/发现：该副标题说明了发现的内容，较长，难以起草，需要提及重要细节，包括研究参与者人数、分析结果（主要和次要目标），并包括实际数据（数字、平均值、中位数、标准差、P值，95%置信区间、效应大小、相对风险、优势比等。[3,7,8,9,10,12,13,14,17]

摘要类型

摘要可以是结构化的，也可以是非结构化的。它们也可以分为描述性或信息性摘要。

结构化和非结构化摘要

结论：考虑到对研究问题/假设和结果的解释（不过度解释研究结果），应在此处陈述带回家的信息（论文的“那么什么”和其他重要/重要的发现），并可能包括作者对研究含义的观点。[3,7,8,9,10,12,13,14,17]

八点结构摘要：这有以下八个副标题-目标、研究设计、研究设置、参与者/患者、方法/干预、结果测量、结果和结论[3,9,18]特定期刊给作者的说明说明说明了他们是使用四点摘要还是八点摘要或变体其中[3,14]

描述性和信息性摘要

描述性摘要很短（75-150字），只描述论文所包含的内容，不提供更多细节；读者必须阅读全文才能了解其内容，很少用于原创研究论文。[7,10]这些摘要用于案例报告、评论、观点等。[7,10]信息性摘要（可能是结构化或非结构化（如上所述）对文章内容进行完整详细的总结，真实反映所做的实际研究。[7,10]

编写合适的摘要

重要的是要严格遵守撰写摘要和论文的期刊对作者的指示（格式、字数限制、字体大小/样式和副标题）。[7,8,9,10,13] 大多数期刊允许200-300字的摘要，明智的做法是限制自己的字数。[1,2,3,7,8,9,10,11,12,13,22] 虽然有些作者倾向于先起草摘要，然后再写论文的主要文本，但建议在最后起草摘要，以保持与论文的主要文本的准确性和一致性（因此，一方面保持与标题的简单链接/对齐，另一方面保持与正文的引言部分的简单链接/对齐）[2,7,9,10,11] 作者应检查目的期刊允许的副标题（结构化摘要），使用短语而不是句子来起草摘要内容，避免被动语态。[1,7,9,12]接下来，作者需要去掉多余的词，并编辑摘要（广泛）到正确的字数允许（每个字在摘要中都很重要！）。[7,8,9,10,13]]重要的是确保论文的关键信息、重点和新颖性不受损害；研究的基本原理和结论的基础清楚；摘要与论文的主要文本一致。[1,2,3,7,9,11,12,13,14,17,22] 这一点在提交论文的修订版时尤其重要（在处理了评审员的意见后进行了修改），因为论文的主要（修订）文本中所做的更改也需要反映在（修订）摘要中。[2,10,12,14,22]摘要中应避免缩写，除非按照惯例接受或修改标准；不应在摘要中引用参考文献、表格或数字。[7,9,10,11,13] 最好不要匆忙地写摘要，让不含偏见的同事对摘要的内容发表意见；如果可能的话，还可以对全文（非正式的同行评审）也进行评审。[1,7,8,9,11,17] 适当的“关键词”（三到十个字）（或短语）应在摘要之后，最好从美国国家医学图书馆U.S. National Library of Medicine的医学主题词（MeSH ）列表中选择(https://meshb.nlm.nih.gov/search)和用于索引目的。[2,3,11,12] 这些关键字需要与主标题中的单词不同（自动使用标题单词）可以是标题中使用的术语/短语的变体，也可以是摘要和正文中的词语。[3,12] ICMJE（国际医学期刊编辑委员会International Committee of Medical Journal Editors；http://www.icmje.org/)还建议在摘要末尾公布临床试验注册号。[7,14]

好的摘要清单

表 3 给出了为一篇研究论文准备好摘要的清单/有用提示。[1,2,3,7,8,9,10,11,12,13,14,17,22]

表3

为研究论文准备好摘要的检查表/有用提示

摘要应该有简单的语言和短语（而不是句子）

摘要应该是信息丰富，有凝聚力，并坚持结构（副标题）所提供的目标期刊。结构化摘要优于非结构化摘要

摘要应该是独立的、独立的/完整的

摘要应该简洁，有趣，公正，诚实，平衡，精确

摘要不应该是误导性的或误传的；它应该与论文的主要内容一致（特别是在修订之后）

摘要应该充分利用期刊允许的全部字数，使主要论文的大部分实际科学事实都用摘要来表示

摘要应该突出地包含关键信息

摘要应该遵循目标期刊指定的风格和字数（通常约250字）

摘要应该避免使用非标准的缩写，并且（如果可能的话）避免使用被动语态

作者应在摘要下方列出适当的“关键字”（关键字用于索引目的）

结束语

本文对标题和摘要的重要性和类型作了详细的论述。它还试图为起草一篇研究论文的适当标题和完整摘要提供有用的提示。希望这篇综述能对作者的医学写作生涯有所帮助。

参考文献

1. Moss F. Titles, abstracts, and authors. In: Hall GM, editor. How to Write a Paper, rd ed. 3rd ed. New Delhi: Byword Viva Publishers Private Limited; 2004. pp. 42–50. [Google Scholar]

2. Tullu MS, Karande S. Writing a model research paper: A roadmap. J Postgrad Med. 2017;63:143–6. [PMC free article] [PubMed] [Google Scholar]

3. Dewan P, Gupta P. Writing the title, abstract and introduction: Looks matter! Indian Pediatr. 2016;53:235–41. [PubMed] [Google Scholar]

4. Bavdekar SB. Formulating the right title for a research article. J Assoc Physicians India. 2016;64:53–6. [PubMed] [Google Scholar]

5. Annesley TM. The title says it all. Clin Chem. 2010;56:357–60. [PubMed] [Google Scholar]

6. Caramelli B. The title: Herald of scientific communication. Rev Assoc Med Bras. 2011;57:353. [PubMed] [Google Scholar]

7. Bavdekar SB, Gogtay NJ. Writing an abstract for a research manuscript: Providing an honest, succinct and complete summary. J Assoc Physicians India. 2015;63:64–7. [PubMed] [Google Scholar]

8. Anstey A. Writing style: Abstract thoughts. Br J Dermatol. 2014;171:205–6. [PubMed] [Google Scholar]

9. Papanas N, Georgiadis GS, Maltezos E, Lazarides MK. Writing a research abstract: Eloquence in miniature. Int Angiol. 2012;31:297–302. [PubMed] [Google Scholar]

10. Annesley TM. The abstract and the elevator talk: A tale of two summaries. Clin Chem. 2010;56:521–4. [PubMed] [Google Scholar]

11. Caramelli B. Abstract – The trailer of scientific communication. Rev Assoc Med Bras. 2011;57:593. [PubMed] [Google Scholar]

12. Cals JWL, Kotz D. Effective writing and publishing scientific papers, part II: Title and abstract. J Clin Epidemiol. 2013;66:585. [PubMed] [Google Scholar]

13. Andrade C. How to write a good abstract for a scientific paper or conference presentation. Indian J Psychiatry. 2011;53:172–5. [PMC free article] [PubMed] [Google Scholar]

14. Recommendations for the conduct, reporting, editing and publication of scholarly work in medical journals. Updated December 2017. [Last accessed on 2018 Oct 22]. Available from: http://www.icmje.org/icmje.recommendations.pdf .

15. Sagi I, Yechiam E. Amusing titles in scientific journals and article citation. J Inform Sci. 2008;34:680–7. [Google Scholar]

16. Jamali HR, Nikzad M. Article title type and its relation with the number of downloads and citations. Scientometrics. 2011;88:653–61. [Google Scholar]

17. Alexandrov AV, Hennerici MG. Writing good abstracts. Cerebrovasc Dis. 2007;23:256–9. [PubMed] [Google Scholar]

18. Hartley J. Current findings from research on structured abstracts: An update. J Med Lib Assoc. 2014;102:146–8. [PMC free article] [PubMed] [Google Scholar]

19. Schulz KF, Altman DG, Moher D. for the CONSORT group. CONSORT 2010 statement: Updated guidelines for reporting parallel group randomized trials. Ann Int Med. 2010;152:726–32. [PubMed] [Google Scholar]

20. von Elm E, Altman DG, Egger M, Pocock SJ, Gotzsche PC, Vandenbroucke JP. for the STROBE initiative. The strengthening the reporting of observational studies in epidemiology (STROBE) statement: Guidelines for reporting observational studies. Lancet. 2007;370:1453–7. [PubMed] [Google Scholar]

21. Bossuyt PM, Reitsma JB, Bruns DE, Gatsonis CA, Glasziou PP, Irwig LM, et al. for the STARD steering group. Towards complete and accurate reporting of studies of diagnostic accuracy: The STARD initiative. BMJ. 2003;326:41–4. [PMC free article] [PubMed] [Google Scholar]

22. Tullu MS, Karande S. Success in publishing: Selecting an appropriate journal and braving the peer-review process. J Postgrad Med. 2018;64:1–4. [PMC free article] [PubMed] [Google Scholar]

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

通过机器学习识别“迪士尼在逃公主”，程序员宠女的正确打开方式！

Mon, 18 Jan 2021 16:39:00 +0800

译者：AI研习社（FIONAbiubiu、成语风）

双语原文链接：Princess Finder using React, ml5.js, and Teachable Machine Learning

到了庆祝的时候了！我们刚刚送走了圣诞老人。现在正等待新年的钟声敲响。所以我想到建立一个很酷的东西（至少我的七岁小公主会觉得）同时学一点机器学习。所以我们要做一个什么？

我借用的我女儿所有迪士尼公主人偶来建立一个机器学习模型，这个应用取名为“Princess Finder”，可以通过摄像头将这些人偶的公主信息都识别出来。本文中我们将会学到这背后的一些知识以及扩展它们的可能性。

The Princess Finder

该 Princess Finder 应用是使用以下内容构建的：

The Teachable Machine：如何简单，快速地创建models可直接在应用程序或网站中使用的机器学习？可教学机器允许您将train计算机与图像，声音和姿势一起使用。我们使用迪士尼公主创建了一个模型，以便我们可以Image Classification在应用程序中使用它来执行。
ml5.js：这是使用您的Web浏览器进行的Web机器学习。它使用Web浏览器的内置图形处理单元（GPU）进行快速计算。我们可以像使用，可以用API如imageClassifier(model)，classify等来进行图像分类。
React：这是一个用于构建用户界面的JavaScript库。我们可以ml5.js在React应用程序中使用它，只需安装并将其作为依赖项导入即可。

这是应用程序显示的截图，有93％的概率表明，这个娃娃是Jasmine（茉莉公主），它有明显的金戒指标记。

鉴于我根本不像迪士尼公主（甚至没有洋娃娃）。因此，我自己的图像已正确分类，说No Dolls。

这是一个很棒的简单演示。

几个术语

如果您是机器学习的新手，您可能会发现其中一些术语有些不知所措。最好是从更高维的角度了解它们的含义以了解用法。

您可以从此处阅读有关这些和其他机器学习术语的更多信息。

我们的Princess Finder应用程序使用Supervised Machine learning，我们有trained将model有很多examples的公主的照片。每个示例数据还包含一个label，用于通过名称标识特定的公主。

Teachable Machine

我们可以使用Teachable Machine用户界面通过几个简单的步骤来创建ML模型。首先，浏览到此链接。（需要VPN）您可以选择图像，声音或姿势项目。在我们的例子中，它将是一个图像项目。

接下来，我们需要通过选择示例（图像和标签）来定义分类。我们可以使用网络摄像头拍摄照片，也可以上传图像。

加载示例后，我们便开始培训。这将为我们创建一个模型。

训练完成后，您可以使用实时数据测试模型。满意后，您可以导出模型以在应用程序中使用它。

最后，我们可以下载模型以在我们的应用程序中使用它。您可以选择将模型上传到云中，以使用URL进行使用。您也可以将项目保存到Google Drive。

如果您有兴趣使用或扩展我创建的模型，则可以下载并将其导入“可教机器”界面。

使用ml5.js和React的用户界面

现在我们有了一个模型。我们将使用该ml5.js库导入模型，并使用实时流对图像进行分类。我最熟悉的是React。您可以使用任何UI库，框架或原始JavaScript。我已经使用create-react-app启动应用程序的骨架并在一分钟内运行。

安装ml5.js依赖项

# Or, npm install ml5
yarn add ml5

将模型解压缩public到项目文件夹下。我们可以model在公共目录下创建一个名为的文件夹，然后提取文件。

使用ml5.js库来加载模型。我们将使用该imageClassifier方法来传递模型文件。此方法调用返回一个分类器对象，我们将在一段时间内使用该对象对实时图像进行分类。还要注意，一旦成功加载模型，我们将初始化网络摄像头设备，以便我们可以从实时流中收集图像。

useEffect(() => {
classifier = ml5.imageClassifier("./model/model.json", () => {
navigator.mediaDevices
.getUserMedia({ video: true, audio: false })
.then((stream) => {
videoRef.current.srcObject = stream;
videoRef.current.play();
setLoaded(true);
});
});
}, []);

我们还需要在render函数中定义一个视频组件

ref={videoRef}
style={{ transform: "scale(-1, 1)" }}
width="200"
height="150" />

接下来，我们在分类器上调用classify()方法以获取结果。该results是所有比赛的目标参数标签的数组。

classifier.classify(videoRef.current, (error, results) => {
    if (error) {
        console.error(error);
        return;
    }
    setResult(results);
});

我们应该classify在指定的时间间隔内使用方法调用。您可以使用一个称为React的React Hook，useInterval进行相同操作。结果数组可能看起来像这样，

请从此处找到App.js文件的完整代码。就是这样，您现在可以使用此result数组提供您想要的任何UI表示形式。在我们的例子中，我们在两个React组件中使用了这个结果数组，

1.列出公主并突出显示最匹配的那个

2.显示仪表图以指示匹配的置信度。

Princess组件循环遍历结果数组，并使用一些CSS样式突出显示它们，并呈现它们。

import React from "react";
const Princess = (props) => {
const mostMatched = props.data[0];
const allLabels = props.data.map((elem) => elem.label);
const sortedLabels = allLabels.sort((a, b) => a.localeCompare(b));
return (
<>

className={`img ${
label === mostMatched.label ? "selected" : null
}`}
src={
label === "No Dolls"
? "./images/No.png"
: `./images/${label}.png`
}
alt={label}
/>

{label}

);
};
export default Princess;

图表组件就是这样

import React from "react";
import GaugeChart from "react-gauge-chart";
const Chart = (props) => {
const data = props.data;
const label = data.label;
const confidence = parseFloat(data.confidence.toFixed(2));
return (

Classification Confidence: {label}

id="gauge-chart3"
nrOfLevels={3}
colors={["#FF5F6D", "#FFC371", "rgb(26 202 26)"]}
arcWidth={0.3}
percent={confidence}
/>

);
};
export default Chart;

就是这样。请从GitHub存储库中找到完整的源代码。如果您喜欢这项工作，请随时给项目加星号（⭐）。

https://github.com/atapas/princess-finder

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

「新奇」假设！Adam 或许不是最佳的深度学习优化器

Fri, 15 Jan 2021 11:42:00 +0800

译者：AI研习社（Born alone°）

双语原文链接：NEURAL NETWORKS (MAYBE) EVOLVED TO MAKE ADAM THE BEST OPTIMIZER

免责声明:这篇文章和我平时的有些不同。事实上，我不会证明任何东西，我只是简单地解释一下我关于深度神经网络优化的一些猜想。和我平时的帖子不同，我写的东西完全有可能是错的。

我已经从实践和经验的角度研究在线和随机优化有一段时间了。所以，当Adam (Kingma and Ba, 2015)被提出时，我已经在这个领域了。

这篇论文还可以，但算不上突破，就今天的标准而言更是如此。事实上，这个理论是薄弱的：对于一种应该处理非凸函数随机优化的算法给出了 regret guarantee。这些实验也很弱：在这些日子里，同样的实验肯定会遭到拒绝。晚些时候人们还在证明中发现了一个错误以及该算法不收敛于某些一维随机凸函数的事实。尽管如此，现在 Adam 被认为是优化算法之王。让我明确一点：众所周知， Adam 不会总实现最佳性能，但大多数时候，人们认为可以利用 Adam 的默认参数在处理某个深度学习问题上实现至少次优的性能。换句话说，Adam 现在被认为是深度学习的默认优化器。那么，Adam 背后成功的秘密是什么?

多年来，人们发表了大量的论文试图解释 Adam 和它的表现，太多了，不能一一列举。从“适应学习率”(适应到什么?没有人确切地知道……)到动量，到几乎标度不变性，它的神秘配方的每一个方面都被检查过。然而，这些分析都没有给我们关于其性能的最终答案。很明显，这些成分中的大多数对任何函数的优化过程都是有益的，但仍然不清楚为什么这个确切的组合而不是另一个组合使它成为最好的算法。混合物的平衡是如此的微妙以至于修正不收敛问题所需的小更改被认为比 Adam 表现稍差。

Adam 的名声也伴随着强烈的情感：阅读 r/MachineLearning on Reddit 上的帖子就足以看出人们对捍卫他们最喜欢的优化器的热情。这种热情你可以在宗教、体育和政治中看到。

然而，这一切的可能性有多大?我是说，Adam 是最佳优化算法的可能性有多大?几年前，在一个如此年轻的领域，我们达到深度学习优化的顶峰的可能性有多大?它的惊人表现还有其他的解释吗?

我有一个假设，但在解释之前，我们必须简单谈谈深度学习社区。

在谈话中,Olivier Bousquet 将深度学习社区描述为一个巨人 genetic algorithm：这个社区的研究人员正在以一种半随机的方式探索各种算法和架构的空间。在大型实验中一直有效的东西被保留，无效的被丢弃。请注意，这个过程似乎与论文的接受和拒绝无关:这个社区是如此的庞大和活跃，关于被拒绝论文的好想法仍然会被保存下来，并在几个月内转化为最佳实践，参见举例 (Loshchilov and Hutter, 2019)。类似地，发表的论文中的观点被成百上千的人复制，他们无情地丢弃那些不会复制的东西。这个过程创造了许多启发式，在实验中始终产生良好的结果，这里的重点是“始终如一”。事实上，尽管是一种基于非凸公式的方法，深度学习方法的性能证明是非常可靠的。(需要注意的是，深度学习社区对“名人”也有很大的偏好，所以并不是所有的想法都能得到同等程度的关注……)

那么，这个巨大的遗传算法和亚当之间有什么联系?嗯，仔细观察深度学习社区的创建过程，我注意到一个模式:通常人们尝试新的架构，保持优化算法不变，大多数时候选择的算法是 Adam。如上所述，这是因为 Adam是默认的优化器。

所以，我的假设是:Adam 是一个非常好的神经网络架构的优化算法，我们几年前就有了，人们不断地发展新的架构，让 Adam 在上面工作。因此，我们可能不会看到许多 Adam 不工作的架构，因为这些想法被过早地抛弃了!这样的想法需要同时设计一个新的架构和一个新的优化器，这将是一个非常困难的任务。换句话说，社区只进化了一组参数(架构、初始化策略、超参数搜索算法等)，大部分时间优化器都固定在 Adam 身上。

现在，我相信很多人不会相信这个假设，我相信他们会列出各种具体的问题，在这些问题中 Adam 不是最好的算法，在这些问题中随机梯度下降动量是最好的，以此类推。然而，我想指出两件事:1)我并不是在这里描述自然规律，而是简单地描述社区的一种趋势，它可能会影响某些架构和优化器的共同进化;事实上，我有一些证据来支持这一说法。

如果我说的是真的，我们可以预期 Adam 在深度神经网络方面会非常出色而在其他方面则会非常差。这确实发生了!例如，众所周知，Adam在非深度神经网络的简单凸和非凸问题上表现很差，参见下面的实验(Vaswani et al., 2019):

似乎当我们远离深度神经网络的特定设置，以及它们对初始化的特定选择、特定权重的比例、特定的损失函数等，Adam 就失去了它的自适应能力，它神奇的默认学习率必须再次调整。请注意，您总是可以将线性预测器写成单层神经网络，但 Adam 在这种情况下也不太好用。因此，在深度学习中，所有特定的架构选择可能已经进化到让 Adam 工作得越来越好，而上述简单的问题并没有任何让 Adam 发光的好特性。

总的来说，Adam 可能是最好的优化器，因为深度学习社区可能只在架构/优化器的联合搜索空间中探索一小块区域。如果这是真的，对于一个脱离凸方法的社区来说，这将是一个讽刺，因为他们只关注可能的机器学习算法的一个狭窄区域，它就像 Yann LeCun “写道:“在路灯下寻找丢失的车钥匙，却发现钥匙丢在了别的地方。”

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

如何选择你的研究生院？斩获CMU、斯坦福大学等名校博士offer的大神分享

Tue, 12 Jan 2021 18:24:00 +0800

译者：AI研习社（季一帆、Danielan）

双语原文链接：How to Pick Your Grad School

如果你正在阅读这篇文章，那么你大概率已经走完了研究生学校漫长而艰难的申请之旅。你成功地从众多申请者中脱颖而出，这样的胜利是你过去的付出所应得得。但是你应该怎么决定最终上哪一所学校呢？如果每所学校看上去都有自己独特的优势，你怎样才能做出正确合适得决定呢？这篇文章就聚焦于这些问题。如果你是计算机专业学生并且专攻于机器学习，并且特别是美国的自然语言处理领域，那么这篇文章对你简直再合适不过，当然这里面大部分的内容对于任何国家任何领域的研究都同样有效。

做出最合适自己的研究生学校选择是艰难而又迷惑的。我们生活在一个高度竞争的时代，现在即使本科生也要去追求像发表论文数量的指标以便为自己的研究生申请打下基础。这种高度功利的看法可能对你的研究生申请有优势，并且这在你读完研进入工业界或者学术界仍然很重要。但是，获得博士学位是一个漫长的历程，基于这种视角选择你的研究生学校可能会让你更容易产生倦怠，梦想破灭的想法以及不满的情绪。

我会在这篇文章中详细探讨以上这种功利的想法，但是我也会为你提供其它三种思路希望能帮你做出一个均衡的选择。这个决定不仅引导你在学术上的成功同时也让你的生活更加丰富，充实，满足。基于这所有四种决策角度的决定会比你从单一角度的选择好得多，这四种决策是：事业视角，身份视角，稳定性视角和变动性视角。

事业视角是最直接的，做好该方面的权衡将帮助你获得博士学位并获得成果事业。

身份视角则有些不同，此时重心不再是职业选择，而是取决于你想成为什么样的人，以及你要如何实现这一身份。社会环境对人的发展会产生很大的影响：我们总是受到周围人和文化的强烈影响，甚至你不曾相识的朋友的朋友也会影响你是诚实还是欺骗，是自私还是无私，是博爱还是剥削。如果你选择的学校是以“以论文和引用量衡量一个人的价值”，那么这种价值观会潜移默化的融入你。想明白你是否想成为这样的人？因此，选择学校，也就是在以某种方式定义和约束你的为人。

稳定性视角是说，仅仅选择“正确的”学校是不够的，还要考虑其他更为重要的选择，比如在艰苦的博士求学中取得成功所需的稳定性。我们，个人是存在基本幸福感的，即使是那些让你痛苦或是让你快乐的事件，其影响也会在两年内消失，我们总是回到幸福基线。但有些事情是非常稳定的，一个友好的社交环境会让你始终感到被支持，而不是一个人被抛弃，提供这样的人性化需求将使你5年的博士生涯变得轻松。反之，若进入一个关系疏远、冷淡的小型课题组，你的博士生涯将充满不确定性、孤独和压力。

可变性视角是选择学校的另一个因素，即学校对你人生丰富性的影响。获取你是以牺牲某种选择为代价才读博的，也许是忽略了工作以外的激情，忽略了朋友、伴侣或家人，忽略了自我发展，忽略了从事心理、身体或精神健康的工作，或者忽略了其他对你很重要的东西。然后，你从职业角度出发选择了一所合适的学校，但在该学校你只能放弃那些重要的东西。你有想过吗，这样什么时候是个头？一旦获得了出色的博士学位，你将再一次激烈的竞争助理教授职位，然后是任职期，一直工作到成为领域的佼佼者。这样的人生道路没有错，但被工作、被事业持续剥削，你自己的人生呢？我听说，行将就木的人最常见的遗憾是：“我希望我有勇气过自己真实的生活，而不是别人期望我过的生活”和“我希望自己没有那么努力”。如果他们在做出选择时明白这些道理，是不是就可以少些遗憾呢。所以，多花些时间和精力进行进一步的探索，收集必要的信息，做出更好的选择免得将来后悔。

职业视角：成功学的选择
导师
导师研究方向的匹配度
教导风格：手把手/放养
导师的价值观，优势和劣势
一丝不苟 vs. 随性而为
自由裁量权和组内凝聚力
研究进展
交流
优势与不足
自我反思是决定的关键
导师的关心程度
用心培养
漠不关心
同行，博士后和研究团队
同行
研究团队
博士后和高年级博士生
其他
学校名称和资源
累积优势
经历失败和逆境对成功至关重要
学校位置
其他因素
身份视角：你想成为什么样的人？
我在参观日的经历
我在华盛顿大学的经历
稳定性视角：除了学校，更重要的是什么？
可变性视角：探索更多的可能性

职业视角：视野成功的选择

职业视角是多数人首先会考虑的因素，这直接关系到你的学业成就和之后的人生轨迹，因此根据这些因素来选择合适的学校是理所当然的。接下来我们将对这些因素进行介绍，以下因素根据我认为的重要程度依次排列。

导师

在选择学校的时候，寻找合适的导师可能是最关键的任务。存在这样一个观点，你的学术成就如何，很大程度上取决于你的导师而不是学校。，不夸张地说，碰上一个倒霉老师，你的学术生涯将充满痛苦，无聊，压力，并很可能浇灭你的学术热情。一个合适的导师将帮助你提高工作效率，保持健康，促进研究。什么样的老师是好老师？这个问题因人而异，没有固定答案，有些导师适合你，但不一定适合其他人，反之亦然。以下将列出一些条件帮助你找到适合你的导师，但是说到底，最终的选择还是取决于你自己来不来电。这跟约会有点像，不管说的怎么合适，但真正见面之后，没感觉就是没感觉。

另外需要注意的就是，你要有若干候选心仪导师，只有一个是不够的。这就使本来已经很复杂的过程变得更加复杂，即使如此，避免在一根树上吊死是很有必要的。由于种种原因，你可能无法于最心仪的导师达成一致，因此如果可能的话，你最好有一个替代选择。一旦未能与首选导师达成一致，你就要即使联系该导师。这样，进一步可以看有没有联合培养的机会，互补的两个导师也许会是更好的选择。

以下关于导师选择的因素并无先后顺序。

导师研究领域的匹配度

很多学生并不十分理解导师的作用，他们只是觉得应该找一个跟自己想要从事研究相关的导师。这个想法是有一定道理的，但实际上，该想法可能并没有太大的帮助。据了解，大约66%的人在二年级的时候就已经完全改变了他们的研究方向，甚至许多是在第一年。如果再往后看的话，这个比例可能更高。虽然他们大多数人仍然从事相关子领域（机器人/NLP/CV）的研究，但具体研究内容已经不一样了。比如：

多语言解析 -> 多模态模型 -> 机器翻译
问答 -> 对话-> 强化学习 -> 语义解析
NLP架构 -> 机器翻译 -> 模型效率
人体姿势识别 -> sim2real
问答 -> 模型效率 -> 可解释性->模型效率

从以上这些转变可以看到，由于个人的研究兴趣经常发生变化，因此在选择导师时，不需要过多关注导师的研究方向。对于导师来说也是如此，他们可能改变他们的研究兴趣，然后开始一个新的研究领域。以学生相比，导师的研究范围和精力显然更多，他们可能会同时对许多不同的研究方向感兴趣。此外，虽然新晋教授为了获得任期可能会专注于某一个研究方向，但是对于终身教授来说，他们的研究方向会非常灵活，甚至其研究兴趣会受到学生兴趣的显著影响。现在越来越多的高级教授非常乐意开辟一个全新的研究方向，这样的变化值得关注--这可能也是非手把手教导导师的优势。在下一部分，我会对此进行讨论。

尽管你和你导师的研究方向并不总是完全一致的，但如果有一些重叠那是极好的。另外最好可以询问一下导师的长期研究愿景，但要注意，这样的计划一般并不充实，而且会根据研究领域的变化而迅速变化（例如BERT）。值得一提的是，你一定要考虑导师的价值观，因为这些东西是不会随时间而变化的。通过这些，你可以看出他们喜欢做哪种类型的研究--之后的部分会对此展开讨论。

教导风格：手把手教导 vs 非手把手教导

导师们的执教风格一般可以分为手把手教导和非手把手教导。那么具体是什么意思呢？

一般来说，在非手把手教导的导师组里，你完成所有工作之后，老师只会对你的研究成果提供一些反馈；但是对于手把手教导的老师，他们可能还会具体的指导你或协助你完成工作。

更具体的说，手把手教导的老师可能会帮助你提供许多研究细节。例如，交流研究思想，探讨研究问题，帮助你定义这些思想或问题，提供论文的主要内容架构以及在项目研究中哪些是重要的部分，而且会经常与你对研究进行讨论，总结阶段成果，及时发现可能的问题或错误并提供反馈，以防止研究走向岔路，甚至有的老师还会特意准备文稿或幻灯片来详细进行指导。以上这些就是典型的手把手教导方式。

经验丰富的导师还可以为你提供更详细的研究细节：研究思路的可行性和影响力，讨论不同的研究观点，分析研究结果并以文稿和幻灯片的形式进行细致的展示与探讨。与非手把手教导的方式相比，你会与导师有更多的互动，导师也能够为你提供更多的帮助。

但实际上并没有完全的手把手教导或非手把手教导的的导师。一般情况下，老师会同时拥有着两方面的特征，例如一些老师一般会实行非手把手的教导，但实际上他们也会想参与到学生的研究中，甚至为学生的论文写作提供详细的指导。通常，导师会根据每个学生的具体情况对教导方式做出一些调整，在学生有良好基础的研究领域进行深入细致的指导。与学生进行交谈，从而了解应该在哪些领域进行手把手的教导，哪些领域则不需要手把手的教导，这对于学生培养大有裨益。具体包括：学术方法（发现问题，分析问题、论文写作）；技术领域（代码方案、软件框架）以及研究领域（机器翻译、问答）等。因此对于学生，不是单纯的评定导师是手把手教导还是非手把手教导方式，而是应该具体到某些领域，比如在论文中老师是否会进行详细的指导？在你的弱势领域，或是需要学习的领域会详细指导的非手把手式教导的导师有何不可呢？

如果你缺乏研究经验，能接受各种条条框框和deadline，不确定自己的研究主题，那么找到一个手把手教导的导师对你很有帮助。如果你想要更多的自由和独立性，并且乐意通过失败和逆境学习到更多的知识，那么非手把手教导的导师是适合你的——这样，你的博士学位大部分都取决于你自己，这非常困难，但同时也会让你成为一名更好的独立研究员。总之，如果导师能够提供的帮助不是很多，从长远来看，这对你来说可能是件好事。虽然短期来说困难重重，尤其是第一年或是邻近一些重要日期（例如会议截止日期）。

通常来说，非手把手教导的导师级别会更高一些，而且他们能为你的实习或是未来的发展提供更多的帮助。此外，他们还能够将一些新想法以及一些古老想法（年轻导师并不熟悉）给联系起来。这些老师一般会有一个大的实验室，其中包括博士后和很多高年级博士生，他们也可以为你提供一些帮助和建议。

手把手教导的老师可以为你提供许多详细指导和帮助，在理想情况下，你可以在博士毕业后再逐步提高独立性。然而接受了这样的教导，你可能会变得像你导师一样，因为手把手教导的老师可能会潜移默化的影响你。这也许是好事，也许是坏事，完全取决于你之后想从事什么。如果你老师的研究视野很有见地，在工业界和学术界极受欢迎，那么你的优势极大；如果存在很多类似的研究，那么你可能就会变得无足轻重。

导师价值观，优势和劣势

人们经常会忽视导师究竟关心什么的，但实际上，导师的价值观很可能决定这个老师是不是适合你，而且这还决定了研究组内的氛围及环境。那么为什么价值观这么重要呢？

正如前文所说，研究兴趣会不时的发生变化，但是价值观的稳定对于研究是极重要的。在研究兴趣上存在一些差异问题不大（如机器翻译和问答），但价值观上存在差异则很可能产生冲突（如高估或低估某一问题）。一般来说，我们对于价值观也抱有同其他关系一样的态度：尽可能分享更多的价值观，使得不同优劣势的价值观进行互补、相辅相成，那么学术关系中的价值观是什么样呢？

一丝不苟vs随性而为

学术价值观的一个根本区别就是，导师是一丝不苟还是随性而为的类型。前一种导师看重系统的调研、合理的假设/证据，以及准确的主张和理论，而后一种导师则认为，坚持严格的计划会减慢进度。前一种导师强调科学方法和谨慎态度，追求学术文献和成果；后一种导师首要关注结果的影响以及实用性。只要有用，都是可以接受的。另外，这样的导师一般不会特别要求精准的想法，因为他们认为，那些尚未实现的或是潜力的可能性更加重要，当然了，他们也喜欢展示自己的成果，如“这个方法特别酷，而且结果令人惊讶”。

总得来说，没有哪一种要比另一种更加优秀，或者是不如另外一种。在科学领域中同时需要这两种角色，最好能够批判性地接受不同的方式以及成果。

同前文一样，这两种类型也不是绝对的。也许某个老师是随性而为类型的，但是如果有人滥用/不使用统计数据，或是脱离理论得天马行空得想法，他们也会感到非常生气。

自由裁量权和组内凝聚力

导师是否重视你的自由裁量权，尊重你的隐私和自主性？如果这样的话，你和导师之间是坦率真诚的，但相应得，你对其他学生的工作以及他们的研究进展了解甚少，这会使你感觉在组内被孤立。相反的，如果导师会向你介绍组内其他同学的项目和进展，那么你可以轻易融入其他同学，与他们交流，增进小组的协作能力。你们团结一致、相互支持，就像家人一样。但这样也会带来一些问题，比如你一旦发生了什么，那么其他人很快都会知道，因此你会小心谨慎的衡量自己的言行，这让你的生活充满无形压力，甚至导致一种封闭、虚伪的文化——你会习惯性的讲道：我很好，一切顺利，不需要帮助。

幸福感与研究进展

导师关注你个人幸福感甚于关注你的研究，或是相反？关注你幸福感的导师在一对一的会议中，不仅谈论研究，还会确保你的工作和生活保持平衡。他们把学生的心理健康和精神状态放在首位，甚至过度呵护的老师还会在你压力较大时劝你放松，避免过度劳累和焦虑。这样的老师虽然使你的研究工作轻松快活，但却可能因此拖累项目，阻止研究进度，而这会使你产生沮丧或挫败感。

如果你需要一些鞭策来提高效率，那么注重研究进展的导师可能非常适合你。但如果推动过多或是你不喜欢被鞭策的话，这样老师可能会让你压力山大，产生不好的精神状态。

交流

你的导师是会直接的尖锐地进行批评，还是间接的温和地进行暗示？如果是第一种老师，他会大声的告诉你你的项目或是想法有多么糟透，对于学生而言，这会打击学生地信息和热情，需要强大的心里素质来接受。但换一个角度，你不需要在这个想法上浪费更多的时间，可以去选择一个新的方向从而取得进步。所以，如果你心理素质优秀，吸收了解老师的建议，那么你可以迅速调整自己的想法并进行实践。总之，这样的导师会给你提供很好的反馈，让你知道你的想法到底有没有意义，另外，一旦导师认同了你的想法，强烈的骄傲感便会油然而生，这对你后续工作的顺利开展意义重大。

注重间接沟通的老师只会暗示你存在一些问题，但是你却不知道究竟是什么问题，或是由于什么原因引起的。这样，你的项目可能会拖延一段时间，影响研究进度，而且未来充满不确定性。但是，这样的交流方式不会对你造成心理上的伤害。这还表明，你的导师是一个谦虚有礼的知识分子——即他们不是高高在上，而是愿意承认自己可能是错的，可以坦率地与你进行交流，以共同探索真理。这是一种非常令人钦佩的品质，许多知识分子对此评价甚高，这种品质会默默对你产生影响。另外，长远的看，经过间接沟通，你学会更多的独立思考，这此时你将来成为一名更好的研究人员。

优势与不足

如前文所示，除了价值观之外，还需要考虑你和你导师的优势和不足，如何进行互补，这对于协作来说至关重要。例如，你可能擅长动手，在实践中获得结果以决定研究的方向和进展，但却不擅长发现问题和产生思路。在这种情况下，与你互补的老师能够弥补你的不足，帮你在这一方面取得进步，协作合作来完成一些具有挑战性的项目。但是如果你和导师在某一方面均不擅长，那么你们可能因此忽略研究中的一些问题。优秀的导师能够认识到你的优势与不足，并针对性的进行指导。

自我反思是决策的关键

为了解你与潜在导师之间的价值观，或是优势与不足间的关系，最好花一些时间认真的自我反思，以了解自己是谁，自己该如何选择导师和学校。这样你可以对号入座，根据以上这些条件来进行选择，同时这还有助于你向那些你期望但不具备的价值和优势方向发展。

你可以考虑这些问题：是否能够接受直接、尖锐的批评？你对个人隐私的重视程度？能接受的坦诚公开的尺度？更倾向于一丝不苟还是随性而为？是否具有合作意识，增强团队凝聚力？你的上进心有多强烈？你是否需要日期或他人来鞭策你，以使你保持动力？在压力下你会做的更好吗？在生活与工作中，你需要怎样的平衡？

导师对学生的关心程度

用心培养

导师肯用心培养肯定是好的。即使是那些随性而为的导师，能够经常找你开会讨论学术总归是好的，哪怕不一定有很多结果。如果你的导师在创业，或是在校外一些公司工作，或是有很多学生，那么这样的学术会议大概会非常少，因为种种原因，他们经常会取消或推迟讨论会，甚至在你需要的时候也没办法召开。当然了，这不仅说明你们导师的日常公务繁忙，还体现了他们对你并不太用心。对于一些老师来说，学生会议是神圣的，必须按时召开，但也有一些老师过于频繁的召开学生会议，即使一些会议并没有什么意义。

漠不关心

另外，一定要关注导师是不是对学生培养心不在焉。因为有一些导师甚至可能忘掉你的研究项目，你得一遍又一遍的跟他们解释，所以哪怕老师能力再强，如果他不关注学生培养，那么你会非常困难，很难取得学术成果。但是也可以这么考虑，导师对你心不在焉，这就逼迫你自己独立的去完成学术研究，在这个过程中，你培养了更强的学术能力，将来可能成为一名更优秀的研究人员。值得一提的是，准确把握研究要点，提出关键信息并在会议上简洁明了的向其他人介绍明白，这是一种非常有价值的能力。当然还有另外一个极端，老师不仅在会议上与你讨论项目研究，甚至在会议以外的时间，他们也花大量时间思考你的项目，这对你来说非常友好，你能得到更好的反馈以及老师的看法见解，从而改善研究项目，但另一方面，这也可能使你对导师产生更多的依赖，不利于能力培养和未来发展。

同行，博士后和研究团队

同行

同事和研究团队是考虑学校时第二重要的因素，其重要程度不弱于对导师的选择。至于研究兴趣，与之前讨论相似，同事们的研究兴趣也会随着时间而发生变化，但一般都会在相关领域。因此，虽然你可以与某些同学进行长期合作，但更可能的是，他们只是你进行思想交流的同伴，在这些交流中获得启发与反馈。

随着时间的推移，总体利益和价值观念等也会持续发展。在你访问的时候，你会认识一些同伴，可能包括组内的研究人员，虽然很难在短时间内详细了解他们，如果你觉得与他们合拍的话，那么你就可以选择这所学校。因为如果有一位朋友能够在你困难时为你提供帮助，并且激励你成长，这对你攻读博士学位以及以后的发展非常重要。

研究团队

不只是一个个同事，你还应该在选择学校时统一考虑导师的研究团队。研究团队的动态非常直观的显示了他们都规范以及价值观，在一定程度上极大地受到导师的影响。因此你可以根据之前的一些方法来评估研究团队的价值与期望。

另外，在选择研究团队时，你还应该关注团队的多样性以及团队能力，这关乎研究团队成功与否？研究表明，如果能够将具有不同背景观点和经验的人聚集在一起，并且让他们之间团结融洽，进行友好合作与公平竞争，那么整个小组的工作会令人满意。

对于富有创造力的工作来说，多样性尤其重要，因为这样可以避免一些固定思维。如果团队中有一些独立的、开放的研究人员，对于一种新的研究方法A，可能会有如下对话：

人员1：A方法真是太棒了，在任务C上的表现出色，如果将它和方法B融合在一起进行任务D，也许会有出乎意料的结果！

人员2：不错，这样这个想法太棒了。

人员1：行动吧！

如果研究团队中是一些死板的、老套的研究人员，那么会有不同的结果。

人员1：根据文献，我们知道任务C的标准偏差很高，因此我认为方法A的置信区间与方法x重叠。所以方法A的结果并不比方法X要更好。根据卡姆剃刀原理，我认为没有理由扩展方法A。

人员2：我认为其性能差异主要是由于初始化的不同造成的，而不是方法A决定的。通过初始化减小hessian特征值的相对差异，可以进行更快的训练，至于训练周期的差异则是没有意义的。因此我并不认为方法A更好，应该在相同的初始化条件下，或者是进行网格搜索以选择最恰当的学习率和训练次数，然后进行比较。

这就是独立开放与死板学究的明显对比，其他情况也是如此，例如有一些人习惯直接了当的批评某些想法，那么他们之间的互动将会非常激烈，因此研究团队无法产生好的想法，因为这样的谈论实在是身心俱疲。也许一群活跃认真的人才能在这之中取得平衡，保持思想严谨又不失创新活跃。

此外，还有其他一些极端对比，例如理论与应用：生命是短暂的，但证据永恒vs问，你提出了有史以来最重要的理论，但是并不会对人类生活产生任何影响，那么有什么意义呢？定量与定性：如果无法衡量，那么就无法证明其存在vs难道要衡量你与爱人之间的分数吗？

当然，很少有人会如此极端，但是人们还是会有一些认同倾向的。在研究团队中，如果能够将这些不同观点以及不同因素综合考量，那么就可以防止集体思考的偏差与极端。

博士后与高年级博士生

上文已经提到，组内的博士后以及高年级研究生也会对你的选择产生一些影响。如果导师的组内有一些博士后，或者是有一些能够为新生提供帮助的高年级博士生，这对双方来说都有益：你可以获得更多的实践经验，而他们则可以在你的帮助下完成一些成果，然后只是下一份工作。如果你的导师是随性而为类型的，那么组内有高年级博士生和博士后对你尤其重要，在这种情况下，你既可以保持独立性，又能够得到组内人员的帮助与建议。

其他

其他重要因素还包括，团队对新想法的分享与讨论（例会讨论什么）以及学生之间的协作（共同发表文献），这样才是一个优秀的研究团队。协作程度也很好的体现了群体凝聚力，这也关乎“稳定性观点”，我会在后文进一步讨论组内氛围的重要性。

学校名称与资源

累积优势

要根据学校声望做出理性的选择，你一定要了解这对你究竟有什么用。

学校名称是累积优势的表现，根据这可以很好地显示学校当前地位。累积优势是指，如果你在生活中有更多的特权，那么你就有更多的资源（金钱，受过教育的父母，指导，良好的同伴，空闲时间，课外活动，广泛的社交网络）去做更有意义的事，从而得到更好的发展，而这进一步又给你带来更多的资源（更好的学校，更好的工作，更好的人际关系）做到更好，进而产生更多的资源（更广泛的社交网络，协作，补助金，资金）来做甚至更好（诺贝尔奖，菲尔兹奖章，独角兽创业公司），如此良性循环。

在教育资源中，优势资源的分配始终是高度不平等的，排名靠前的学校最具有生产力，也会获得更多的资源。据统计，美国有1/3的人口拥有本科学历，而有博士学位的仅有2%，排名前20的学校的本科生仅占0.2%，终身职位的仅有0.06%，但是0.0006%的人发表了41%的论文。与此同时，在一些顶级学校中，获得博士学位的人员中有73%是那些排名前20学校的本科生，而排名前18学校则培养了50%的教授。只要经过一些简单的分析，我们就可以发现，如果你在排名前18的学校获得了学士学位，那么你更可能获得博士学位，甚至成为一名教授。另外，假设排名前18的学校中的那50%的教授是平均分配的，这就意味着所有学校中1/36的教授是来自前18名学校。

因此，如果你在排名前20的学校攻读博士学位，那么你当上教授的概率从百分之0.06%升至2.8%，虽然这个概率依然比较低，约等于骰子同时置出两个六的可能性，但却已经高出普通学校约五十倍。因此选择一所更富盛名的学校，这将大大增加你的成功机会。类似的，你也可以根据学校声望和学校排名做出其他的选择。当然了，仅仅根据学校排名做出选择并不完全可靠，前文我们提到的其他因素，如出色的导师、出色的同事、很好的研究团队、学校文化等等，这些对于成功来说也是必要的。

失败与逆境是走向成功的必经之路

虽然听起来不合理，但却是事实：长期特权也会有可能给你带来一些危害。失败和逆境对于个人的成长非常重要，心理学发现：要在生活中取得成功，你需要失败，又不能经常失败。可以这样理解，如果一直享有特权的话，那么你无法学会面对挫折，如果总是面临逆境的话，那么你会自暴自弃，偶尔的失败则会有效的鞭策你，让你更好的成长。因此，特权不是越多越好，这会消磨你的冒险精神、增大对失败的恐惧；而偶尔的失败会让你更有韧性，因为在这种情况下，你知道逆境是正常的、是暂时的，学会去征服困难。

如果你在排名前20的学校中就读，那么你可能就像前文描述的那样，在很短的时间内发表许多一流论文。但这种环境也会滋生“安全思维”，即研究一些容易发表的风险较低的项目，而不是去对一些困难的、可能导致失败的项目进行探索。因此，这些学校虽然提供了特权和资源，但长期来看有可能阻止你创造力和更伟大的成功。总之，你要成为一个非完美主义者，要学会接受失败，享受失败，在失败中获得成长。

社会中有这样一种说法：失败的创业往往是走向成功的必要条件。加入初创公司将逼迫你成为更熟练的工程师，而加入大型科技公司只会让你陷入停滞——你只是机器中的一个齿轮。

学校位置

在这一部分我不会做过多的说明，因为在之后的“稳定性和可变性”部分我将会重点介绍这些因素。因此，在这里你可以先预先考虑一下这些问题：一些大学校园及城市会为你提供一些机会做你熟悉的事情，这些事情会让你扎根并保持稳定，以度过博士阶段的艰难历程（稳定性）；另外，不同的城市和校园还会提供不同的活动以及体验（可变性），这有助于你探索自己、发现新事物，让你成为一个更充实，更富朝气的人。

这个因素因人而异，可能微不足道，但也可能比之前的那些因素更为重要，因此这值得你深入思考。在后续部分我们会展开进一步的讨论。

其他因素

还有其他一些我认为不是非常重要的因素，例如住房，生活费用，津贴以及薪水等。一所学校可能比另一所学校花更多的钱或者是花更少的钱，但结果都是一样的——你不会因此而变得富有或是贫穷，这对你的生活也不会产生太大的影响，因为无论在哪个学校，你都是像在家里一样。也有一些大学你可以进行实验室兼职，虽然可以赚到一些钱，但随之而来的也包括一些额外的负担。

学校文化和研究团队的文化也很有意义，但这些与潜在导师、同事和研究团队的价值观紧密相关。另外，这些文化涉及“身份视角”，将在下文展开讨论。

身份视角：你想成为什么样的人？

在确定一所学校后，你所处的环境与交往的人将对你产生积极的影响。进一步考虑身份视角，你想要成为什么样的人？在职业视角中，我们关注的是“我期望获得多少成功”，但身份视角则重点关注“我想成为那样的人吗”？

根据个人的角色期望来选择学校是非常主观的，因此我并不认为有哪些具体的方法可以帮你进行选择。我只想要跟你谈一谈我的经历，以及这些经历如何影响了我。在学校访谈期间，我收集了很多资料，观察人们的表现，同时我还体验了实习互动等获得更真实的体验。我相信，考虑身份视角能让你更准确的了解你自己以及可能成为的人。

我的访问日经历

从不同学校的学生中，我体验到不同的经历，但是有一所学校让我感觉很不友好。在他们学校中，那些学生经常会问我在哪里学习，如果我回答的不是他们期望的大学，他们就会直接转身去与那些学校的学生进行交流。有时，他们会跟直接根据我佩戴的学校徽章(Università della Svizzera italiana)来决定是否忽略掉我。还有一次在访问时，有人看到我徽章上面的本科大学-开放大学，他对我说：“你有这样的一个机会进行交流真是你的荣幸”。我没有理他，我相信这些学校存在友好的人，但我遇到的15个同学都是肤浅的，不懂得尊重别人。我想成为这样一个自负、肤浅而粗鲁的人吗？不，一点也不。

在另外一所学校，我经历了最疏远、孤立的访问体验。来自精英大学的人们形成了小团体，不允许其他人加入。我根据航班时刻表安排的住宿并没有支付，同时我觉得其他人还嘲笑我对食物的喜爱。我与潜在导师的会面也很糟糕，因为他让我和另外一个同学同时进行访问，这发生了不止一次，甚至还有一位潜在导师不在学校，在那之后也没有同我联系。我感觉那所学校中的许多人都非常虚伪，他们充满悲伤和压力，但是却戴了一副虚伪的“幸福”面具。我想成为这样一个虚伪的人吗？我想这样隐瞒痛苦，假面“幸福”吗？不，一点也不。

我在华盛顿大学的经历

在华盛顿大学的访问也之前形成鲜明对比，我觉得每个访问的人都很满意。这至少表明该学校的人是有思想的，而且关注社会问题。最令我震惊的发生在一个研究团队：一个访问者提出了博士期间的心理健康和压力问题，该小组详细对此进行介绍，讨论了他们如何应对该问题以及学校为此提供的一些心理健康资源。同时，学校中大多数学生都很诚实、开放、互帮互助。他们还明确指出，在工作以外的时间对他们来说非常重要。对我而言，另外一件非常重要的事情是西雅图的人们都很友好，这与我在纽约的感觉完全不同，那里的人们仿佛充满紧张与烦躁，但是西雅图却充满友善与温和。例如，公车司机充满耐心而且极其负责，在人们从后门下车时，也会大声对司机说声谢谢。在他们脸上，你看到他们不仅仅是为了遵守社会规范，而是他们内心就是如此。因此，我是否想成为一个诚实开放的学生？成为一个乐于奋斗，团结友爱的学生？享受工作以外的生活以及对人充满友善呢？是的，我想这样。

你可能认为，根据人们是否感谢公交司机来选择学校是很愚蠢的，但并非如此。自从我加入华盛顿大学以来，我一直对公交车司机充满尊敬。这让我更加友善，也让我对周围同事的工作充满感激。因此，我写了这篇文章，希望能够对你有所帮助。当然，如果我选择的是另外一所学校，那么这篇文章可能介绍的就是一些很酷的创业理念，甚至我只会将更多的时间花在研究上，而不会分享博客。了解你自己很重要，正是在华盛顿大学，我看到了我想成为的人。

但是从另外一个角度看的话，我们也会有一些不同的理解。也许那些精英学校里的人不关注我，只是因为他们要将宝贵的时间花费到重要的人身上，而华盛顿大学则显得有些天真，他们试图让所有人充满幸福，但这显然是不可能的。

不同的人对此会有不同的看法，比如我有一个好朋友，他们国家人民都非常率真，这体现了一种诚实的素质，但是直言不讳却并非华盛顿大学的文化，那样的话在这里很可能会产生误会。

稳定性视角：除了学校，更重要的是什么？

研究生的学习与培养从来不是一件容易的事情，根据定义，博士学位的最终目的是让学生获得独立探索、面对未知并产生新知识的能力。这就需要许多自我激励，从失败中成长以及刻苦努力。在以前我经常听到博士学位非常困难，那时候我还不相信，但现在我知道这意味着什么。这不仅对我来说是很艰难的，相信对于大多数同龄人也是如此，因此你需要坚持一些东西，帮助自己应对并享受这个过程。

稳定性观点认为一些因素会随着个人发展而变化，但其他一些因素则随着时间的推移趋于稳定，并长期为你提供韧性和勇气。因此，稳定性观点强调，优先考虑那些能帮助你度过研究生阶段的因素。研究表明，人际关系是最重要以及最稳定的幸福来源，因此在选择学校时，考虑社会环境至关重要。

通常在研究生学校中，社会环境包括一些部门，办公室，学生组织，研究小组，例行会议，社交活动等。然而，大多数研究团队是很少参加社会活动的，这有助于学校管理。

我想去伦敦大学学院的原因有，我认识那里的人们，他们非常友好，而且乐于助人，Sebastian Riedel是一位非常优秀的导师，充满智慧，与他一起工作是一件非常快乐的事情。但除此之外，我想加入ucl的另一个重要原因是他们每天的午餐。

在那里，人们会直接在办公室用餐。有的人会下楼去买一些食物，还有一些人干脆直接带来一些食物，然后我们围坐在桌子周围，边吃边聊起我们的日常生活以及一些遇到的问题和研究思路，甚至还会讨论一些政治和新闻。这给人的感觉真的就像一个家庭，人们互相照顾。通过这种方式，午餐之后我会充满精力与激情去出色完成工作。如果我知道我能够在某个学校获得这样的体验，那么这一定会够促使我考虑该学校。

在华盛顿大学的办公室也让我感到非常满意。随着办公桌的增加，越来越多的NLP人员搬到了我们的办公室，现在我们一起建立了一个NLP办事处，我们在这里研究问题，交流想法，相互支持，互相帮助。我的身边充满这些友好、卓越的同事，这也是我选择华盛顿大学的另一个原因。

办公环境、小组会议以及社交午餐等因素都可能使你在博士学位期间保持稳定，克服精神上的困难，因此，这些因素都能成为你选择某一所学校而放弃另外一所学校的原因。

除了社会环境以外，还有许多根据个人原因选择学校，但我们不会对此进行过多讨论。对于每个人来说这完全不一样，我仅仅提供以下示例供你参考。

对我个人来说，斯坦福大学是最好的选择之一，不仅因为斯坦福大学在学术上成绩斐然，导师优秀卓越，而且斯坦福周围的自行车道也非常吸引我。我是一个狂热的溜冰者，这项运动将给我带来心理上的稳定，使我保持良好的精神状态与心理健康。它带给我的喜悦和自由会帮我度过人生的至暗阶段。如果你也是溜冰者，那么斯坦福周围的自行车道绝对是你的梦想，那里光滑平坦，天气适宜。我能够想象自己凌晨五点起床，在空无一人的校园中溜冰，这是多么让人兴奋。

另外，考虑亲戚、家人和朋友也是重要的。大多数人攻读博士也是为了满足他们的期望，如果你能够将自己对学习的热爱以及对伴侣的依赖很好的结合，那么这对你的发展是非常有益。因此，如果能够和伴侣上同一所学校，这会是你选择这所学校的一个重要原因。但你还要考虑到，攻读博士期间会带给人很大的心理压力，这有可能会影响你们之间的恋人关系。根据我和身边小伙伴的经验，一段恋爱关系很难维持到博士结束。攻读博士学位是对恋爱的一个重大考验：异地恋、新文化、长时间的工作、低薪水、经常夜里加班以及截止日期之前的重大压力，这些都会让你感觉沮丧，焦虑不安，这不是理想的恋爱状态。尤其是在博士第一年，你会感觉到这种压力对你的人际关系的影响。另一方面，一旦想到与伴侣或家人团聚，这带给你很大的动力，推动你进一步的研究。总之，攻读博士学位非常具有挑战性，那些重要的人的支持与鼓励会让你会好过一些。

可变性视角：探索更多的可能性

稳定性观点是指根据能够让你保持稳定的某些因素选择学校，以便全力而为。可变性观点则是根据可能性来选择学校，这将使你成为一个蓬勃发展的、更完整的自己。可能性是指你不确定这些因素是否对你很重要，但是你的直觉告诉你，你需要尝试这些事情。在这些学校中，你可以探索自己尚未开发的部分，发展自己的兴趣，这些将进一步扩展你人生的广度和深度，成长为一个更成熟的人。在缺乏可变性的学校，你会感觉到生活仿佛停下来了，因为你一直在重复生活。

这不仅关乎一些学习经验，而且关乎美好记忆。也许有一天，时光流逝，你的生活以及幸福感也归于平淡，但那些美好的记忆将永远存在，那是你一生的财富。当然，这些美好记忆不会是你在图书馆学习，不是你为了科研做艰苦奋斗，这些记忆将属于你的一些特殊时刻。在这些记忆里，你会感觉到情感的价值。难道这些美好记忆会是你周末努力工作以便在下一个会议截止日期之前提交论文吗？或者是周末空旷无人的学校里，你的导师在晚上10点提醒你，截止日期是凌晨4点，要注意提交最终的论文？

不。卓越的学术成就固然重要，但生活不止如此。

你可能已经在疯狂的竞争环境中经历了这一切，所有这些都是为了走上更高的阶梯：从博士到博士后，从研究人员到助理教授，从教授到大师。你可以永不停歇的转动仓鼠的轮子，但是当轮子一遍遍的转动，你会发现，自己从未经历过别人称之为“生活”的生活。

也许你也曾想学习弹吉他，或者是到体育馆里面进行运动锻炼，但是你意识到离研究截止日期只剩三个月了，由于时间紧张，你更愿意花一些时间在研究上；也许你很喜欢和其他人一起创作戏剧，但是你却无法在学习和创作之间保持平衡；也许你热衷于写博客来分享自己的学习经验，但是一想准备周一与导师的会面，那么你很可能放弃周末的博客；也许你想丰富自己的社交活动，邀请同事一起出去玩耍，但是你发现所有的同事都在为了下一个截止日期努力奋斗，他们没有时间陪你一起。如果你发现自己陷入了这样的境地，那么是时候做出一些改变了。

另外，学校不仅应该提供各种各样的可能性，而且鼓励学生去勇敢探索。如果你在世界上最好的城市，并且周围充满各色人等，但是你的导师和同事希望你周末加班，长时间工作，甚至在非工作时间还要麻烦你，你很难去扩展丰富自己。多样性不仅意味着学校有能够提供更多的机会以及丰富的选择，而且还要支持你进行探索。研究经验与美好记忆的可变性是考量因素，但你一定要搞清楚在研究团队中有多少自由度。

可变性到底有多大意义呢？以我的硕士阶段为例，我在本科时就被机器学习和深度学习所吸引，认为这是我一生想要从事的事情。我也知道如果我想得到更好的发展，我需要有一定的研究经历，然而由于我学习的是在线课程，实践经验非常少，加上我缺乏经验，无法与其他人合作研究，因此我决定辞职投入全职学习，并且在在线学习过程中自主进行研究。这不是一件容易的事情，到处都是死胡同和失败，但是我不想放弃，我想要成功。我逼迫自己不懈工作，专注于研究多个GPU并行化问题。在那几个月里，我几乎没有和任何人进行交流，最终我成功了，在ICLR2016发表了研究成果。这是一项重大的成功，但我也为此付出了巨大的代价，当我的同伴们获得不同的生活经验，社交经验，他们了解自己以及想要成为怎样的人时，我只是刚刚学会如何进行研究，并沦为一个奇怪的，孤立的隐士。更重要的是，我所有的博士申请都被拒绝了，只能攻读硕士学位。

但我不满足做一个硕士，因为我认为在硕士阶段不会学到更多。我已经学会了数学，计算机科学以及机器学习等知识，硕士学位只不过是纸上谈兵，我不会获得更多的实践经验。

然后我考虑了可变性观点。

从可变性的角度来看，做硕士是一个很好的机会，在这个过程中我可以搞明白我不懂的事情，增加自己的社会和生活经验。由于我已经获得了足够的知识，因此我在课堂上并没有放入过多的注意力，而专注于课外的实践以及生活。正是这个过程，我成为了现在的我。

最终，我选择了卢加诺大学攻读硕士学位。学校的上课方式为小班上课，我能够结识到所有人，同时，由于硕士学位是高度国际化的，我们班上的人都来自不同的国家。和他们聚在一起，我增加了自己的社交能力与社会经验。在这个过程中，也对自己有更深的了解，我发现我不喜欢逛酒吧，在那里，他们会告诉我他们上次喝醉时的状况和所作所为，或是分享他们的假期有多么美好，但我不感兴趣。后来我与两个同学一起组织了每周一次的哲学之夜，讨论哲学，神经科学，心理学，深度学习，博弈论，意识改变以及他们之间的联系，我很喜欢这项活动，在这里我找到了自己的归属。

业余时间我开始写博客文章。例如，计算的未来以及其与大脑和深度学习的关系，我还在英伟达撰写guest博客文章，我会经常性的通过文章来分享我的想法。本文就是我在一个早上写的，虽然本文并没有太多实践，但我认为这是我最好的文章之一。

卢加诺一个公园湖泊

我还经常进行轮滑，沿着着卢加诺的公园和湖泊进行直排轮滑是一种独特的体验。永远记得那天清晨，在这个空旷的小镇，山上薄雾弥漫，湖水波澜不惊，滑道旁美丽的花朵伴我滑行。

我朋友拍的照片，我记得当时我正在他的阳台上烧烤，谈论如何从心理学和计算机科学的角度看待生活中的重要问题。

另外，我还利用课外时间在美国Microsoft Research和伦敦UCL实习，在这个过程中积累了许多研究经验。这些对我的发展成长非常宝贵，在我博士学位申请中起到很大的作用。

我和父亲在卢加诺附近的一条小径上徒步旅行-这是我一生的宝贵财富。

我遇到了很多来自不同国家的，文化差异很大的人；到访过位于两大洲的四个不同国家；学会了如何与人相处；了解了自己在这个世界上的定位。在那些活动中，我享受快乐，丰富了自己的生活，这是将伴随我一生的珍贵回忆。以上所有这些都属于可变性观点的考量。如果我不去勇敢探索不同的体验和生活，坚持唯论文论，我将错过多么精彩的人生。因此，通过选择学校，你可以选择自己的人生，成为更好的人。

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

探索神经网络规模下限，MNIST-1D数据集迈出了第一步

Tue, 12 Jan 2021 14:22:00 +0800

译者：AI研习社（听风1996）

双语原文链接：Scaling down Deep Learning

不管是按什么样的科学标准，人类基因组项目都是巨大的：它涉及数十亿美元的资金，数十家机构以及超过十多年的快速研究进展。但这仅仅是冰山一角。早在项目开始之前，科学家们就在全力整理人类遗传学这门复杂的科学。而大多数时候，他们研究的不是人类。遗传学的基础性发现都集中在如豌豆、霉菌、果蝇和小鼠等非常简单的生物体上，时至今日，生物学家为了节省时间、精力和金钱，将这些更简单的生物体作为遗传学的 "最小工作范例"。一个精心设计的果蝇实验，如Feany和Bender（2000），可以让我们学到关于人类的令人叹为观止的东西。

与果蝇相似的是深度学习中所使用的是MNIST数据集。大量的深度学习创新工作，包括drop，Adam，卷积网络，生成式对抗网络和变分自编码器，都从MNIST实验开始。一旦这些创新在小型实验中证明了自己的能力，科学家们就找到了将它们扩展到更大、更有影响力的应用。

果蝇和MNIST的关键优势在于它们可以极大地加快探索性研究的迭代周期。以果蝇为例，果蝇的生命周期只有几天，其营养需求可以忽略不计。这比哺乳动物，尤其是人类更容易与之合作。对于MNIST而言，训练一个强大的分类器只需要几十行代码，不到一分钟的时间，耗电量可忽略不计。这与最先进的视觉，文本和游戏模型形成鲜明对比，后者可能需要花费数月甚至数十万美元的电力资料来训练模型。

然而，尽管MNIST具有历史意义，但它有三个显著的缺点。首先，它在区分线性、非线性和平移不变性的模型方面做得很差。例如，logistic、MLP和CNN基准在它身上获得94、99+和99+%的准确率。这就很难衡量CNN的空间先验的贡献，也很难判断不同正则化方案的相对有效性。其次，对于一个玩具（译者注：极小）数据集来说，它有些大。每个输入例子都是一个784维的向量，因此当执行超参搜索或调试元学习循环需要不小的计算量。第三，MNIST很难被改写。理想的小型数据集应该是程序化生成的，这样研究人员就可以轻易地改变背景噪声、平移性和分辨率等参数。

为了解决这些缺点，我们提出了MNIST-1D数据集。它是MNIST的一个极简化、低内存和低计算量的替代方案，专为探索性深度学习研究而设计，其中能够快速迭代是我们优先考虑的要求。训练实例小了20倍，但它们仍能更好地评估1）线性和非线性分类器之间的差异，以及2）是否具有空间归纳偏差（例如平移不变性）的模型。虽然数据集是程序自动化生成的，但仍可以类比到现实世界中的数字分类。

构建MNIST-1D数据集。与MNIST一样，分类器的目标是确定输入中存在哪个数字。与MNIST不同的是，每个例子都是一个一维的点序列。为了生成一个示例，我们从一个数字模板开始，然后随机对其进行填充、平移和转换。

在MNIST-1D数据集上可视化常见模型的性能。该数据集根据它们是否使用非线性特征(逻辑回归vs. MLP)或是否存在空间归纳偏差(MLP vs. CNN)将它们清晰地分开。人类做得最好。最好可以放大来观察上图结果。

使用案例

在本节中，我们将探讨MNIST-1D如何用于研究核心 "深度学习科学 "现象的几个例子。

寻找彩票。深度学习模型的参数比真正所需参数的多十倍甚至百倍是很正常的。这种过度参数化有助于训练，但会增加计算开销。一种解决方案是在训练过程中逐步修剪模型中的权重，使最终的网络只是其原始大小的一小部分。虽然这种方法可行，但传统观点认为，稀疏网络从头开始训练效果不好。Frankle & Carbin（2019）最近的工作挑战了这种传统观点。作者报告称，在更大的网络发现了稀疏的子网络，这些网络的训练精度相当甚至更高。这些 "彩票 "子网络可以通过一个简单的迭代程序得到：训练一个网络，修剪最小的权重，然后将其余的权重倒回其原始初始化并重新训练。

自从原始论文发表以来，大量的工作都试图解释这一现象，然后将其用于在更大的数据集和模型上。然而，很少有工作试图找出这种影响的“最小工作实例”，以便对其进行更仔细的研究。下图显示了MNIST-1D数据集不仅会使之成为可能，而且使我们能够通过精心控制的实验，阐明彩票成功的一些原因。与许多后续实验不同的是，这个实验只花了研究人员两天的时间就制作完成了。有兴趣的读者也可以在浏览器中仅需几分钟内便可复现这些结果。

查询和分析 lottery tickets。在a-b）中，我们隔离了该效应下的一个 "最小可行示例 "。 Morcos et al (2019) 最近的工作表明， lottery tickets可以在数据集之间转移。我们想确认空间归纳偏差是否在其中起到了作用。因此，我们进行了一系列实验：在c）中，我们绘制了92%稀疏 lottery tickets的渐近性能。在d)中，我们将数据集中所有的1D信号反转，有效地保留了空间结构，但改变了各个数据点的位置。这类似于将图像倒转过来。在这种消融作用下， lottery tickets继续保持不败。

接下来，在e）中，我们对1D信号的索引进行了置换，从而有效地从数据集中去除空间结构。这种消融对 lottery tickets性能的损伤明显更大，说明 lottery tickets中的部分性能可以归结为空间归纳偏差。最后，在f)中，我们保持lottery tickets的稀疏性结构，但用不同的随机种子初始化其权重。与Frankle & Carbin（2019）中报告的结果相反，我们看到我们的 lottery tickets继续优于众多基线模型，与我们的假设一致，即 lottery tickets背后具有空间归纳偏差。在g)中，我们通过测量模型第一层中未掩膜的权重彼此相邻的频率来验证我们的假设。lottery tickets的相邻权重比随机预测的要多很多，这意味着局部连接结构更容易引起空间偏差。

您还可以可视化通过随机和 lottery tickets修剪选择的实际掩膜：VISUALIZE MASKS

观察深度双重下降。神经网络的另一个有趣的属性是 "双重下降 "现象。这句话指的是一种训练机制，其中更多的数据、模型参数量或梯度更新步骤实际上会降低模型的测试精度¹ ² ³ ⁴。从直觉上看，在监督学习的过程中，有一个阈值插值，在这个阈值下，由模型和优化算法组成的学习过程刚好可以勉强适合整个训练集。在这个阈值上，实际上只有一个模型能够拟合数据，而这个模型对标签的噪声和模型化非常敏感。

这种效应存在几个性质，比如什么因素会影响它的宽度和位置，在深度模型的背景下没有得到很好的理解。我们认为MNIST-1D数据集是探索这些属性的好工具。事实上，经过研究人员几个小时的努力，我们能够重现双下降模式。下图显示了我们对一个全连接的网络和卷积模型的结果。我们还观察到了一个细微的差别，这是我们在以前的工作中没有看到提到的：当使用均方误差损失时，插值阈值位于n∗Kn∗K模型参数，其中nn是训练样本的数量，KK是模型输出数量。但是当使用负对数似然损失时，插值阈值取决于神经网络模型参数-而不依赖于模型输出的数量。这是一个有趣的实验观察，可以解释在这类任务中使用对数似然损失比MSE损失的一些优势。你可以在这里重现这些结果。

观察深度双重下降。MNIST-1D是确定深度模型的插值阈值的良好环境。这个阈值在全连接模型中相当容易预测，但对于其他模型，如CNNs、RNNs和Transformers，则不太容易预测。在这里，我们看到CNN在相同的插值阈值下有一个双下降峰值，但效果却不那么明显。

基于梯度的元学习。元学习的目标是 "学会如何学习"。一个模型通过有两个层次的优化来实现：第一个是快速的内循环，对应传统的学习目标；第二个是相对慢一些的外循环，更新学习过程的 "元 "属性。元学习最简单的例子之一是基于梯度的超参数优化。这个概念是由 Bengio (2000) 提出的，然后由 Maclaurin et al. (2015)扩展到深度学习模型。其基本思想是实现一个完全可分的神经网络训练循环，然后在整个过程中进行反向传播，以优化学习率和权重衰减等超参数。

元学习是一个很有前景的课题，但它很却难扩展。首先，元学习算法需要消耗大量的时间和计算。其次，实现往往会变得复杂，因为有两倍多的超参数（每个优化级别都有一组），而且大多数深度学习框架并没有为元学习专门设置。这对在MNIST-1D等小规模数据集上调试和迭代元学习算法提出了特别高的要求。例如，实现和调试下图所示的基于梯度的超参数优化学习率只花了几个小时。你可以在这里重现这些结果。

元学习的学习率：看第三个图，最佳学习率似乎是0.6。与许多基于梯度的元学习实现不同，我们的实现需要几秒钟的时间来运行，只占用几十行代码。这使得研究人员可以在扩大规模之前对新颖的想法进行迭代。

激活函数的元学习。在实现了基于梯度的元学习的 "最小工作示例 "后，我们意识到它可以被扩展到一个简单而新颖的应用中：激活函数的元学习。再花上几个小时的研究时间，我们就能用第二个神经网络对分类器的激活函数进行参数化，然后使用元梯度学习权重。如下图所示，我们学习的激活函数大幅优于ReLU, Elu⁵, 和Swish⁶等基线非线性。你可以在这里复现这些结果。

元学习得到一个激活函数。从一个ELU形状开始，我们使用基于梯度的元学习来寻找在MNIST-1D数据集上训练的神经网络的最佳激活函数。激活函数本身由第二个（元）神经网络进行参数化。请注意，上图中ELU基线（红色）被tanh基线（蓝色）所遮挡。

我们将这个激活函数转移到在MNIST和CIFAR-10图像上训练的卷积模型上，发现它达到了中等的性能。特别是在优化的早期，它的训练损耗很低，这也是MNIST-1D 训练的目标。不过，当我们按最终测试损失对非线性进行排名时，它的性能达到了包中的中等水平。我们怀疑，在更大的模型和数据集上运行相同的元学习算法会进一步完善我们的激活函数，让它至少能匹配人为设计的最佳激活函数。不过，我们还是把这个问题留给以后的工作吧。

测量深度网络的空间先验。深度学习的成功很大一部分源于 "深度先验"，其中包括硬编码的平移不变性（如卷积滤波器）、巧妙的架构选择（如自注意力层）和良好条件下的优化场景（如批量归一化）。这些先决条件中的原则是卷积的平移不变性。这个数据集的一个主要动机是构建一个小型问题，可以有效地量化一个模型的空间先验。本篇文章的第二张图说明了MNIST-1D确实可以做到这一点。我们可以想象，其他更适度的空间先验的模型将位于MLP和CNN基准之间的连续空间中的某个位置。在这里可以复现出这些结果。

池化方法的基准测试。我们最后的一个案例研究是从一个具体问题开始的。池化和采样效率之间的关系是什么？我们没有发现有证据表明池化使模型的采样效率提高或降低，但这似乎是一个需要了解的重要关系。考虑到这一点，我们用不同的池化方法和训练集大小来训练模型，发现虽然池化在低维数据中往往是有效的，但在高维数据体系中并没有太大的区别。我们并不完全理解这种效果，但假设池化是一种普通的架构先验，在低数据体系中聊胜于无，但在高维数据体系中却最终限制了模型的表达。同样的道理，max-pooling在低维数据体系中也可能有一个好的架构先验，但在高维数据体系中开始删除信息--因此与L2 pooling相比表现更差。在这里可以复现出这些结果。

通用池化方法的基准测试。我们发现，在低维数据体系下，池化有助于性能，而在高维数据体系下则阻碍了性能。虽然我们并不完全理解这种结果，我们假设池化是一种普通的架构先决条件，在低维数据体系下聊胜于无，但在高数据制度下就会变得过度限制。

何时缩放规模

这篇文章并不是反对大规模机器学习研究的。这种研究已经一次又一次地证明了它的价值，并且已经成为ML研究生态系统中最令人兴奋的方面之一。相反，这篇文章支持小规模的机器学习研究。神经网络在规模或性能方面没有问题，但它们在可解释性、可重复性和迭代速度方面确实存在问题。我们认为精心控制的小规模实验是解决这些问题的好方法。

事实上，小规模研究是对大规模研究的补充。在生物学领域，果蝇遗传学帮助指导了人类基因组计划，我们认为小规模的研究应该始终着眼于如何成功地扩大规模。例如，这篇文章中报告的几项研究结果已经到了应该进行大规模研究的地步。我们想证明，大规模 lottery tickets也能学习空间归纳偏差，并证明他们发展局部连接的证据。我们还想尝试在更大的模型上学习一个激活函数，希望找到一个在通用性上优于ReLU和Swish的激活函数。

我们应该强调的是，我们现在只是准备在受控环境下隔离和理解这些结果，然后再进行扩展。我们认为，只有在相关的因果机制被分离和理解之后，扩大系统的规模才是一个好主意。

其他的小型数据集

这项工作的核心灵感来自于对MNIST数据集的崇拜和迷恋。虽然它有一些明显的缺陷--我们已经解决了其中的一些问题--但它也有许多讨人喜欢的品质和被低估的优点：它简单、直观，为探索创造性的新想法提供了完美的沙盘。

我们的工作也与Rawal等人（2020）的Synthetic Petri Dish在哲学上有相似之处。它与我们这项工作是同时发表的，作者对生物学进行了类似的引用，以激励使用小型合成数据集进行探索性研究。他们的工作与我们的不同之处在于，他们使用元学习来获得他们的数据集，而我们的数据集是由人工构建的。Synthetic Petri Dish的目的是加速神经架构搜索，而我们的数据集的目的是加速 "深度学习的科学 "问题。

还有很多其他小规模的数据集，通常用于研究 "深度学习的科学 "问题。CIFAR-10数据集中的样本数是MNIST的4倍，但训练样本的总数量是一样的。CIFAR-10在区分MLP和CNN架构，以及各种CNN架构（如vanilla CNNs与ResNets）方面做得更好。FashionMNIST数据集与MNIST大小相同，但（区分）难度会更大一些。最后一个选择是Scikit-learn的数据集：有几十个选择，有些是人工合成的，有些是真实的。但要把真实世界类比到比如说数字分类，是不可能的，人们往往可以用简单的线性或基于内核的方法在这些数据集上做得很好。

结束语

为了探索神经网络规模的极限，有一种违反直觉的可能性是，为了探索神经网络的规模有多大的极限，我们可能首先需要探索神经网络的规模到底有多小的极限。以保留其行为在规模上的细微差别来缩放模型大小和数据集，会使研究人员能够快速迭代基础和创新的想法。这种快速迭代周期是获得关于如何将逐渐复杂的归纳偏差纳入我们的模型的见解的最佳方式。然后，我们可以跨空间尺度迁移这些归纳偏差，以显着提高大规模模型的采样效率和泛化特性。我们认为不怎么起眼的MNIST-1D数据集是朝着这个方向迈出的第一步。

脚注

Trunk, Gerard V. “A problem of dimensionality: A simple example.” IEEE Transactions on pattern analysis and machine intelligence 3 (1979): 306-307. ↩
Belkin, Mikhail, et al. “Reconciling modern machine-learning practice and the classical bias–variance trade-off.” Proceedings of the National Academy of Sciences 116.32 (2019): 15849-15854. ↩
Spigler, Stefano, et al. “A jamming transition from under-to over-parametrization affects loss landscape and generalization.” arXiv preprint arXiv:1810.09665 (2018). ↩
Nakkiran, Preetum, et al. “Deep double descent: Where bigger models and more data hurt.” arXiv preprint arXiv:1912.02292 (2019). ↩
Clevert, Djork-Arné, Thomas Unterthiner, and Sepp Hochreiter. Fast and accurate deep network learning by exponential linear units (elus). ICLR 2016. ↩
Ramachandran, Prajit, Barret Zoph, and Quoc V. Le. Searching for activation functions. (2017). ↩

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

终极版AlphaGo，DeepMind新算法MuZero作者解读

Thu, 07 Jan 2021 11:21:00 +0800

译者：AI研习社（季一帆）

双语原文链接：MuZero Intuition

为庆祝Muzero论文在Nature上的发表，我特意写了这篇文章对MuZero算法进行详细介绍，希望本人能让你对该算法有一个直观的了解。更多详细信息请阅读原文。

MuZero是令人振奋的一大步，该算法摆脱了对游戏规则或环境动力学的知识依赖，可以自行学习环境模型并进行规划。即使如此，MuZero仍能够实现AlphaZero的全部功能——这显示出其在许多实际问题的应用可能性！

所有一切不过是统计

MuZero是一种机器学习算法，因此自然要先了解它是如何使用神经网络的。简单来说，该算法使用了AlphaGo和AlphaZero的策略网络和值网络：

策略和值的直观含义如下：

策略p(s,a)表示在状态s时所有可能的动作a分布，据此可以估计最优的动作。类比人类玩家，该策略相当于快速浏览游戏时拟采取的可能动作。
值v(s)估计在当前状态s下获胜的可能性，即通过对所有的未来可能性进行加权平均，确定当前玩家的获胜概率。

这两个网络任何一个都非常强大：只根据策略网络，能够轻易预测每一步的动作，最终得到良好结果；只依赖值网络，始终选择值最高的动作。但是，将这两个估计结合起来可以得到更好的结果。

取胜之路

与AlphaGo和AlphaZero相似，MuZero也使用蒙特卡洛树搜索方法（MCTS）汇总神经网络预测并选择适合当前环境的动作。

MCTS是一种迭代的，最佳优先的树搜索过程。最佳优先意味着搜索树的扩展依赖于搜索树的值估计。与经典方法（如广度优先或深度优先）相比，最佳优先搜索利用启发式估计（如神经网络），这使其在很大的搜索空间中也可以找到有效的解决方案。

MCTS具有三个主要阶段：模拟，扩展和反向传播。通过重复执行这些阶段，MCTS根据节点可能的动作序列逐步构建搜索树。在该树中，每个节点表示未来状态，而节点间的边缘表示从一个状态到下一个状态的动作。

在深入研究之前，首先对该搜索树及逆行介绍，包括MuZero做出的神经网络预测：

圆圈表示树节点，对应环境状态；线表示从一个状态到下一个状态的动作；根节点为当前环境状态，即围棋面板状态。后续章节我们会详细介绍预测和动力学函数。

模拟：从树的根节点出发（图顶部的淡蓝色圆圈），即环境或游戏的当前位置。在每个节点（状态s），使用评分函数U(s,a)比较不同的动作a，并选择最优动作。MuZero中使用的评分函数是将先前的估计p(s,a)与v(s')的值结合起来，即

其中c是比例因子，随着值估计准确性的增加，减少先验的影响。

每选择一个动作，我们都会增加其相关的访问计数n(s,a)，以用于UCB比例因子c以及之后的动作选择。

模拟沿着树向下进行，直到尚未扩展的叶子。此时，应用神经网络评估节点，并将评估结果（优先级和值估计）存储在节点中。

扩展：一旦节点达到估计量值后，将其标记为“扩展”，意味着可以将子级添加到节点，以便进行更深入的搜索。在MuZero中，扩展阈值为1，即每个节点在首次评估后都会立即扩展。在进行更深入的搜索之前，较高的扩展阈值可用于收集更可靠的统计信息。

反向传播：最后，将神经网络的值估计传播回搜索树，每个节点都在其下保存所有值估计的连续均值，这使得UCB公式可以随着时间的推移做出越来越准确的决策，从而确保MCTS收敛到最优动作。

中间奖励

细心的读者可能已经注意到，上图还包括r的预测。某一情况（如棋盘游戏）在完全结束后提供反馈（获胜/失败结果），这样可以通过值估计进行建模。但在另外一些情况下，会存在频繁的反馈，即每次从一种状态转换到另一种状态后，都会得到回报r。

只需对UCB公式进行简单修改，就可以通过神经网络预测直接对奖励进行建模，并将其用于搜索。

其中，r(s,a)是指在状态s时执行动作a后观察到的奖励，而折扣因子γ是指对未来奖励的关注程度。

由于总体奖励可以时任意量级的，因此在将其与先验奖励组合之前，我们将奖励/值估计归一化为区间[0,1]：

其中，q_min和q_max分别是整个搜索树中观察到的最小和最大r(s,a)+γ⋅v(s')估计。

过程生成

重复执行以下过程可实现上述MCTS：

在当前环境状态下进行搜索；
根据搜索的统计信息π_t选择一个动作a_(t+1);
根据该动作更新环境，得到新的状态s_(t+1)和奖励u(t+1)；
重复上述过程。

动作的选择可以是贪心的（选择访问次数最多的动作），也可以是探索性的：通过一定的温度t控制探索程度，并对与访问次数n(s,a)成比例的动作a进行采样：

当t = 0时，等效贪婪采样；当t = inf时，等效均匀采样。

训练

现在，我们已经学会了运行MCTS来选择动作，并与环境互动生成过程，接下来就可以训练MuZero模型了。

首先，从数据集中采样一条轨迹和一个位置，然后根据该轨迹运行MuZero模型：

可以看到，MuZero算法由以下三部分组成：

表示函数h将一组观察值（棋盘）映射到神经网络的隐藏状态s；
动态函数g根据动作a_(t + 1)将状态s_t映射到下一个状态s_(t + 1)，同时估算在此过程的回报r_t，这样模型就能够不断向前扩展；
预测函数f根据状态s_t对策略p_t和值v_t进行估计，应用UCB公式并将其汇入MCTS过程。

根据轨迹选择用于网络输入的观测值和动作。相应地，策略、值和奖励的预测目标是在生成存储的轨迹。

从下图可以看到过程生成（B）与训练（C）之间的一致性：

具体问言，MuZero估计量的训练损失为：

策略：MCTS访问统计信息与预测函数的策略logit之间的交叉熵；
值：N个奖励的折扣和+搜索值/目标网络估计值与预测函数的值之间的交叉熵或均方误差；
奖励：轨迹观测奖励与动态函数估计之间的交叉熵。

重分析

在了解了MuZero的核心思想后，接下来我们将介绍重分析技术，这将显著提高模型对大量数据的搜索效率。

在一般训练过程中，通过与环境的相互作用，我们会生成许多轨迹，并将其存储在重播缓冲区用于训练。那么，我们可以从该数据中获得更多信息吗？

很难。由于需要与环境交互，我们无法更改存储数据的状态、动作或奖励。在《黑客帝国》中可能做到，但在现实世界中则不可能。

幸运的是，我们并不需要这样。只要使用更新的、改进标签的现有输入，就足以继续学习。考虑到MuZero模型和MCTS，我们做出如下改进：

保持轨迹（观测、动作和奖励）不变，重新运行MCTS，就可以生成新的搜索统计信息，从而提供策略和值预测的新目标。

我们知道，在与环境直接交互过程中，使用改进网络进行搜索会获得更好的统计信息。与之相似，在已有轨迹上使用改进网络重新搜索也会获得更好的统计信息，从而可以使用相同的轨迹数据重复改进。

重分析适用于MuZero训练，一般训练循环如下：

设置两组异步通信任务：

一个学习者接收最新轨迹，将最新轨迹保存在重播缓冲区，并根据这些轨迹进行上述训练；
多个行动者定期从学习者那里获取最新的网络检查点，并使用MCTS中的网络选择动作，与环境进行交互生成轨迹。

为实现重分析，引入两个新任务：

重分析缓冲区，用于接收参与者生成的所有轨迹并保留最新轨迹；
多个重分析行动者从重分析缓冲区采样存储的轨迹，使用学习者的最新网络检查点重新运行MCTS，并将生成的轨迹和更新的统计信息发送给学习者。

由于学习者无法区分新轨迹和重分析的轨迹，这使得新轨迹与重分析轨迹的比例更改变得简单。

MuZero命名含义

MuZero的命名基于AlphaZero，其中Zero表示是在没有模仿人类数据的情况下进行训练的，Mu取代Alpha表示使用学习模型进行规划。

更研究一些，Mu还有其他丰富的含义：

夢，日语中读作mu，表示“梦”的意思，就像MuZero通过学习的模型来想象未来状况一样；
希腊字母μ（发音为mu）也可以表示学习的模型；
無，日语发音为mu，表示“无、没有”，这强调从头学习的概念：不仅无需模仿人类数据，甚至不需提供规则。

结语

希望本文对MuZero的介绍对你有所启发！

如果想了解更多细节，可以阅读原文，还可以查看我在NeurIPS的poster以及在ICAPS上发表的关于MuZero的演讲。

最后，分享给你一些其他研究人员的文章，博客和GitHub项目：

为简单起见，在MuZero中仅使用单个网络进行预测。
根据Rémi Coulom在2006年发表的Efficient Selectivity and Backup Operators in Monte-Carlo Tree Search，MCTS为解决围棋问题提供可能。具体而言，MCTS中的“蒙特卡洛”指在围棋比赛中的随机模拟数，通过计算每次随机移动得获胜概率从而选择合适位置。
MuZero中使用的比例因子为∑bn(s,b)√1+n(s,a)⋅(c1+log(∑bn(s,b)+c2+1c2))，其中n(s,a)表示从状态s到动作a的访问次数，常数c1和c2分别为1.25和19652，它们决定先验对于值估计得重要性。请注意，当c2远大于n时，c2的确切值不再重要，对数项此时为0。在这种情况下，公式简化为c1⋅∑bn(s,b)√1+n(s,a)c1。
就像AlphaGo之前的许多Go程序使用的随机卷展，随机评估函数有一定作用。但如果评估函数是确定性的（如标准神经网络），那么对同一节点多次评估没什么意义。
在棋盘游戏中，折扣因子γ为1，TD步数趋于无限，因此，这仅适用于对蒙特卡洛奖励（游戏获胜者）的预测。
在运行MuZero时，无需单独对行动者进行重分析：由于只有一组行动者，在每次行动之前决定是与环境交互生成新轨迹还是对存储轨迹进行重分析。

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

在数据科学领域中，你需要多少数学知识？

Tue, 05 Jan 2021 15:15:00 +0800

译者：AI研习社（话左）

双语原文链接：How Much Math do you need in Data Science?

Benjamin O. Tayo.提供图片

I. 引言

如果你有心学习数据科学，那么你一定会在脑海中想过下面的问题：

没有或者只有很少的数学知识，我能做一个数据科学家吗？
数据科学必需的数学工具有哪些？

有很多优秀的包可用于建立预测模型或者数据可视化。其中最常用的用于描述和预测分析的一些包有：

Ggplot2
Matplotlib
Seaborn
Scikit-learn
Caret
TensorFlow
PyTorch
Keras

多亏了这些包，任何人都可以建立起一个模型或者实现数据可视化。然而, 坚实的数学基础对于修改你的模型让你的模型性能更好更加可靠来说是十分必要的。建立模型是一回事，解释模型得出可用于数据驱动的决策的有意义的结论又是另一回事。用这些包之前，理解每个包中的数学原理是很重要的。因为这样你才不是简单地只是把这些包作为一个黑盒来使用。

II. 案例学习：建立多重回归模型

假设我们要建立一个多重回归模型。在此之前，我们需要问一下自己下面的这些问题：

我的数据集有多大？
我的特征变量和目标变量是什么？
什么预测特征与目标变量关联性最大？
什么特征是重要的？
我需要量化特征值吗？
我的数据集应该如何分成训练集和测试集？
什么是主成分分析（PCA）
我应该用PCA移除多余特征吗？
我要如何评估我的模型？用R2，MSE还是MAE？
我应该如何提升模型预测的能力？
我应该使用正则化的回归模型吗？
什么是回归系数？
什么是截距？
我应该使用诸如K近邻回归或者支持向量回归这种非参数回归模型吗？
我的模型中有哪些超参数，如何对其进行微调以获得性能最佳的模型？

没有良好的数学背景，你就无法解决上面提到的问题。最重要的是，在数据科学和机器学习中，数学技能与编程技能同等重要。因此，作为有志于数据科学的人，你必须花时间研究数据科学和机器学习的理论和数学基础。你构建可应用于实际问题的可靠而有效的模型的能力取决于您的数学基础。

现在我们来聊聊数据科学还有机器学习所必需的一些数学工具。

III. 数据科学与机器学习必需的数学工具

1. 统计与概率

统计与概率学可用于特征的可视化，数据预处理，特征转换，数据插入，降维，特征工程，模型评估等。

这里是你需要熟悉的概念：均值，中位数，众数，标准差/方差，相关系数和协方差矩阵，概率分布（二项，泊松，正太）, p-值, 贝叶斯理论（精确性，召回率，阳性预测值，阴性预测值，混淆矩阵，ROC曲线），中心极限定理, R_2值, 均方误差（MSE），A/B测试，蒙特卡洛模拟。

2. 多元微积分

大多数机器学习模型都是由带有许多特征或者预测因子的数据集建立的。因此，熟悉多元微积分对于建立机器学习模型及其重要。

这里是你需要熟悉的概念：多元函数；导数和梯度；阶跃函数，Sigmoid函数, Logit函数, ReLU（整流线性单元）函数；损失函数；函数作图；函数最大最小值。

3. 线性代数

线性代数是机器学习中最重要的数学工具。数据集通常都表示为矩阵。线性代数常用于数据预处理，数据转换，降维和模型评估。

这里是你需要熟悉的概念：向量；向量的范数；矩阵；矩阵转置；矩阵的逆；矩阵的行列式；矩阵的迹；点积；特征值；特征向量

4. 优化方法

大多数机器学习算法通过最小化目标函数来建立预测模型，由此学习应用于测试数据的权重以获得预测的标签。

这里是你需要熟悉的概念：损失函数/目标函数；似然函数；误差函数；梯度下降算法及其衍生（如随机梯度下降）

IV. 总结与结论

总之，我们已经讨论了数据科学和机器学习所需的基本数学和理论技能。有几门免费的在线课程可以教你数据科学和机器学习所必需的数学知识。作为有志于数据科学的人，请记住，数据科学的理论基础对于构建高效且可靠的模型至关重要。因此，您应该投入足够的时间来研究每种机器学习算法背后的数学理论。

V. 参考文献

初学者的线性回归基础

使用R实现主成分分析的数学原理

机器学习教程

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

2020 年度 AI 信息摘要

Mon, 04 Jan 2021 15:07:00 +0800

译者：AI研习社（听风1996）

双语原文链接：AI News in 2020: a Digest

概览

随着2020年（终于）接近尾声，现在是时候反思一下在这最奇异的一年里，人工智能发生了什么事情。上图是我们在过去一年中策划的 "Last Week in AI "时事通讯中文章标题中最常使用的词组。这反映了我们在2020年时事通讯中收录的大约的1000篇文章：

文章中的术语数量与时间的关系

不出所料，"人工智能 "这个含糊但大家都熟知的术语仍然是文章标题中最常用的术语，"深度学习 "或 "神经网络 "等内容仍然比较罕见：

文章标题中的术语数量与时间的关系

再深挖一下，我们发现冠状病毒和人脸识别是今年最关注的话题，其次是偏见、换脸等话题：

文章标题中的术语数量与时间的关系

概述已经够多了--让我们逐月回顾一下我们在过去一年中策划的最重要的文章。如同我们的新闻通讯一样，这些文章将涉及到进展与商业、关注与讨论、分析与政策，在某些情况下还会涉及到该领域的专家意见与讨论。它们将按时间顺序呈现，并代表我们认为特别值得注意的精选。点击月份名称，可查看当月开始发布的完整通讯。

1月

2020年的开始，一切都很平静，大家都在讨论对未来人工智能的期待，还有一些文章讨论了人脸识别和偏见的问题，这些问题将成为全年的一个趋势。

2月

2月份有更多关于人工智能负面影响的讨论，其中一些文章着重强调了为善用AI所做的努力，以及开始将AI与冠状病毒大流行相关联：

3月

三月是一个重要的月份，有三个故事引人注目。首先是 Starsky Robotics公司的倒闭，这是一家致力于自动驾驶卡车的有前途的初创公司。在一篇详细的博客文章中，这位创始人讨论了自动驾驶行业在技术、安全和经济方面面临的巨大挑战。

Starsky Robotics 公司的结局

其次是Clearview AI的宣传，它违反了许多道德和法律规范，在互联网上搜集人脸照片，为其面部识别系统提供动力，使其客户，从执法部门到零售连锁店，都能搜索到任何有人脸照片的人。

最后是大量关于Covid-19大爆发的报道，以及人工智能/机器人技术可以（和不可以）发挥的作用。

4月

4月延续了许多以Covid-19为中心的故事，但也有一些与人工智能发展的伦理相关的例外：

5月

5月和4月很像，很多人关注Covid-19，还有一些关于道德、工作和进步的故事：

6月

本月，乔治·弗洛伊德被杀后发生了大规模抗议活动，导致许多人重新审视美国警方在人工智能领域的行为。这通常意味着质疑警方使用面部识别技术以及部署的人工智能算法中固有的偏见。正是在这种背景下，亚马逊（Amazon）和IBM等公司暂停向执法部门销售面部识别软件，许多细微的对话也随之而来。

其他消息包括：

7月

这个月，随着OpenAI公司公布了其私有化测试的结果，围绕着OpenAI的GPT-3 — 一个非常庞大且灵活的语言模型的热度开始飙升。虽然GPT-3论文在5月份发表，但直到现在人们才开始意识到其潜在的应用范围，从编写代码到翻译法律术语，以及它的局限性和被滥用的可能性。

GPT-3：人工智能的突破，但不是为你的工作而来

其他新闻包括：

8月

接下来，关于GPT-3的讨论越来越多，人们对面部识别、偏见和工作的关注也越来越多。关于冠状病毒的讨论大多已经减少了。

9月

人们对人工智能的偏见、面部识别和其他问题的担忧在本月真正凸显出来，一些关于进展的讨论也夹杂其中。

10月

十月是一个更加积极的月份，关于人工智能的进步和应用的报道很多，而关于其消极方面的报道很少。

11月

这个月和上个月很相像，围绕伦理和人工智能问题的讨论仍在继续，以及各种相关的进展，足以显示这个领域的发展速度有多快。

12月

本月，又一项令人印象深刻的人工智能开发被学术界和新闻界吹捧为一项突破。DeepMind的AlphaFold 2在两年一度的蛋白质结构预测竞赛中取得了重大进展，以巨大优势击败了竞争对手和之前的AlphaFold 1。尽管许多专家都认为蛋白质折叠尚未被“解决”，并对该算法的即时应用抱有毫无根据的乐观态度，但毫无疑问，AlphaFold 2和类似系统将对未来的生物学产生重大影响。

DeepMind的AlphaFold 2 — 一项基于双曲线覆盖的惊人进展

在人工智能领域，另一条大新闻是谷歌解雇了人工智能伦理前沿研究员蒂姆尼特•格布鲁(Timnit Gebru)，原因是人们对她最近的工作存在分歧，这些工作突显了人们对人工智能语言模型的偏见和担忧。这在该领域引发了一系列尖锐的讨论，从种族的角色、人工智能缺乏多样性，以及行业实验室的企业审查。

其他新闻：

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

2020 年度译文榜单

Wed, 30 Dec 2020 14:26:00 +0800

桌上的日历只剩下最后几页，一年又这样步入了尾声。在这特殊的一年，我们经历了太多太多，这些好事坏事终将成为过往。译站都更新了哪些关于 AI 的有趣文章呢？

在此之际，为大家奉上 2020 年度译文榜单：

1. ECCV 2020 亮点摘要

2. ACL 2020 亮点摘要

3. Twitter团队最新研究:快速高效的可扩展图神经网络SIGN

4. 深度学习和机器学习的线性代数入门

5. 重磅 | 对比了2000台笔电后，Towards AI 选出了最适合搞机器学习、数据科学和深度学习的笔记本电脑！

6. 【GCN】图卷积网络(GCN)入门详解

7. 斯坦福大学 | 人工智能本科4年课程清单

8. 告别RNN，迎接TCN

9. 蒙特卡洛模拟（Python）深入教程

10. 最强通用棋类AI，AlphaZero强化学习算法解读

11. 强化学习算法DeepCube，机器自行解决复杂魔方问题

12. 2020 年 4 个最值得推荐的 VS Code 插件

13. GitHub十大热门Python项目

14. 微型机器学习：下一次AI革命

15. 深度学习未来发展的三种学习范式：混合学习、成分学习和简化学习

16. 数学之美：贝叶斯优化

1. ECCV 2020 亮点摘要

译者：季一帆、Champagne Jin

内容摘要：ECCV 2020 堪称“史上最难ECCV”，有效投稿5025，一共有1361篇论文入选，录取率仅为27%。其中 Oral 104篇，Spotlight 161篇，Poster 1096篇。包括了曾引起广泛影响的Facebook新式目标检测算法 End-to-End Object Detection with Transformers （DETR ）为Oral。为了让读者可以从中了解会议总体趋势。因此，本文会对这次会议进行概括，并列出一些作者自己觉得有趣、重要的论文。

2. ACL 2020 亮点摘要

译者：唐里、张超726、情报理论与实践、Danielan

内容摘要：今年的国际自然语言处理领域顶级学术会议“国际计算语言学协会年会”（ACL 2020）共收到 3429 篇投稿论文，投稿数量创下新高。论文有从基础任务到高级任务发展的趋势，收到交稿量最多的方向分别是通过机器学习处理自然语言，对话和交互系统，机器翻译，信息提取和自然语言处理的应用及生成。作者将根据本次参与会议的心得体会，在本文中讨论行业总体趋势。

3. Twitter团队最新研究:快速高效的可扩展图神经网络SIGN

译者：季一帆、何月莹

内容摘要：迄今为止，阻碍图神经网络在行业应用中被广泛采用的挑战之一是难以将其缩放到大型图（例如Twitter跟随图）。节点之间的相互依赖性使损失函数分解成单个节点的贡献具有挑战性。在这篇文章中，我们描述了Twitter开发的一种简单的图神经网络架构，该架构可以处理大量的图。

4. 深度学习和机器学习的线性代数入门

译者：季一帆

内容摘要：机器学习和深度学习是建立在数学概念之上的，掌握理解数学知识对于算法构建和数据处理有极大帮助。线性代数的研究包括向量及其操作。在机器学习中，各处可见线性代数的背影，如线性回归，独热编码，主成分分析PCA，推荐系统中的矩阵分解。深度学习更甚，其完全基于线性代数和微积分。梯度下降，随机梯度下降等优化方法也建立在此之上。

5. 重磅 | 对比了2000台笔电后，Towards AI 选出了最适合搞机器学习、数据科学和深度学习的笔记本电脑！

译者：听风1996、Icarus、

内容摘要：过去一年中，Towards AI的编辑团队研究了2,000多台笔记本电脑，并选择了他们认为适合机器学习，数据科学和深度学习的最佳笔记本电脑。如果您正在寻找好的设备，那么这里是您的正确选择！

6. 【GCN】图卷积网络(GCN)入门详解

译者：听风1996、大表哥

内容摘要：GCN是一种卷积神经网络，它可以直接在图上工作，并利用图的结构信息。 GCN的基本思路：对于每个子系统，我们从它的所有邻居例程处获取其特征信息，当然也包括它自身的特征。在本文中，我们先直观的了解一下它的工作原理，然后再深入了解它背后的数学原理。

7. 斯坦福大学 | 人工智能本科4年课程清单

译者：明明知道、jiazhenbin、娄门人家

内容摘要：你也许通过Coursera在线课程就能获得某些人工智能领域的知识，但在实际应用中培养对这些概念的深层理解更为重要。本文旨在为四年制人工智能本科学位的学习给出一个完整的课程规划。

8. 告别RNN，迎接TCN

译者：听风1996、君思、小哲

内容摘要：从TCNs在股票趋势预测中的应用可以看出，通过结合新闻事件和知识图谱，TCNs可以明显优于规范的RNNs。循环神经网络在序列建模中享有的优势可能在很大程度上是历史发展遗留的问题。直到近期，在引入诸如扩张卷积和残余连接等架构元素之前，卷积架构确实比较薄弱。最近的学术研究表明，在这些元素的作用下，简单的卷积架构在不同的序列建模任务中比LSTMs等递归架构更有效。由于TCNs的清晰度和简单性相当高，卷积网络应该被视为序列建模的天然起点和强大工具。

9. 蒙特卡洛模拟（Python）深入教程

译者：大表哥、wiige

内容摘要：蒙特卡罗方法是一种使用随机数和概率来解决复杂问题的技术，使我们能够看到决策的所有可能结果，并评估风险影响，从而在不确定的情况下更好地做出决策。就像任何预测模型一样模拟结果只有我们的估计值才是好的，蒙特卡洛模拟只代表概率而不是确定性。在本文中，我们将通过五个不同的例子来理解蒙特卡罗模拟方法。

10. 最强通用棋类AI，AlphaZero强化学习算法解读

译者：Champagne Jin

内容摘要：在本篇博文中，你将会了解并实现AlphaZero，一个能够在双方零和博弈的棋盘游戏中战胜世界冠军的强化学习算法，它以绝对的优势战胜了多名围棋以及国际象棋冠军。作者将带你使用AlphaZero来解决一个益智小游戏（Dots and Boxes）并将其部署成一个纯JavaScript构建的Web应用。

11. 强化学习算法DeepCube，机器自行解决复杂魔方问题

译者：季一帆

内容摘要：在本文中，作者将详细介绍将RL应用于组合优化领域的最新研究工作。本文对UCI（加利福尼亚大学欧文分校）的研究人员发表的论文“Solving the Rubik’s Cube Without Human Knowledge”进行解读。除了论文解读之外，还使用PyTorch复现论文，通过训练模型和流程解读实验，对论文方法进行改进。

12. 2020 年 4 个最值得推荐的 VS Code 插件

译者：苏珊•克尔莱、Icarus、

内容摘要：使用 VS Code 编写文档是种新颖的体验，但同时也会减慢速度，并使界面混乱。在2020年底，作者卸载了40多个不必要的扩展，留下了这4个最有用的扩展：TabNine、Vim、Spotify 和 Markdown All in One。

13. GitHub十大热门Python项目

译者：Icarus、

内容摘要：GitHub显然是绝大多数在线代码的家园。Python作为一种神奇而又通用的编程语言，已经被成千上万的开发者用来构建各种有趣而有用的项目。在下面的部分，我们将尝试涵盖GitHub上一些使用Python构建的最佳项目。

14. 微型机器学习：下一次AI革命

译者：听风1996

内容摘要：虽然GPT-3和Turing-LG取得的成绩值得称赞，当然也自然导致了一些业内人士对人工智能行业日益增长的碳足迹提出了批评。不过，这也有助于激发人工智能学界对更加节能计算的兴趣，比如更高效的算法、数据表示和计算。微型机器学习（tinyML）是机器学习和嵌入式物联网（IoT）设备的交叉领域。该领域是一门新兴的工程学科，有可能给许多行业带来革命性的变化。

15. 深度学习未来发展的三种学习范式：混合学习、成分学习和简化学习

译者：小哲

内容摘要：深度学习是一个很大的领域，其核心是一个神经网络的算法，神经网络的尺寸由数百万甚至数十亿个不断改变的参数决定。似乎每隔几天就有大量的新方法提出。然而，一般来说，现在的深度学习算法可以分为三个基础的学习范式。每一种学习方法和信念都为提高当前深度学习的能力和范围提供了巨大的潜力和兴趣。

16. 数学之美：贝叶斯优化

译者：季一帆、Icarus、

内容摘要：问题定义：给定函数f(x)，该函数计算成本高、甚至可能不是解析表达式，同时假定函数导数未知。你的任务：找到函数得全局最小值。这无疑是一项艰巨的任务，比机器学习中的其他优化问题还要困难。但贝叶斯优化提供了一个优雅的框架可用于来解决上述定义的问题，并且能够在尽可能少的步骤中找到全局最小值。

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

【重磅整理】ECCV 2020 亮点摘要

Mon, 28 Dec 2020 18:24:00 +0800

译者：AI研习社（Champagne Jin、季一帆）

双语原文链接：ECCV 2020: Some Highlights

2020年欧洲计算机视觉会议（ECCV）于8月23日至28日在线举行。本次会议共接收1360篇论文，包括104场orals，160场spotlights以及1096篇posters，共进行有45场workshops和16场tutorials。就像其他ML和CV会议一样，大量论文无法完全了解。因此就本次会议，进行了类似CVPR2020 post 的总结，以便读者可以从中了解会议总体趋势。因此，本文会对这次会议进行概括，并列出一些我觉得有趣、重要的论文。

首先，会议相关的链接包括：

会议所有收录论文：ECCV Conference Papers
部分成果展示Crossminds ECCV以及Youtube播放列表YT playlist
每篇论文的一句话介绍：ECCV Paper Digest
ECCV网站：ECCV papers and presentations

免责声明：本文仅代表个人观点，并不代表ECCV 2020论文及主题。欢迎任何反馈！

General Statistics（整体统计概况）
Recognition, Detection, Segmentation and Pose Estimation（识别，检测，分割及姿势评估）
Semi-Supervised, Unsupervised, Transfer, Representation & Few-Shot Learning（半监督学习，无监督学习，迁移学习，表示学习，少样本学习）
3D Computer Vision & Robotics（3D计算机视觉&机器人学）
Image and Video Synthesis（图像和视频合成）
Vision and Language（视觉与语言）
The Rest（其他）

整体统计概况

本节中提供的统计数据摘自官方的Opening＆Awards演示文稿。

可以看到，与2018年会议相比，论文提交量增加了超过一倍，与CVPR 2020的论文数量相当。随之相应，审稿人数和涉及领域也相应增加。

不出所料，大多数接受论文集中于深度学习、识别、检测和理解相关主题。同时可以发现，研究人员对诸如无监督学习的标签有效方法和低视野等领域的兴趣显著增加，同样的结果在CVPR2020中也有所体现。

对研究机构进行统计，其结果与今年的ICML相似：排名第一的Google有180位作者，其次是香港中文大学的140位作者，第三是北京大学的110位作者。

后续章节我们将基于研究主题简要介绍一些论文。

识别，检测，分割以及姿态估计

End-to-End Object Detection with transformers (论文地址)

目标检测的任务即在给定图像中对可见物体进行定位并分类。目前广泛使用的目标检测框架都含有一系列预先定义的方框（也就是称作 anchors 或是 region proposals 的几何先验框），各个框中的图像内容将由网络进行分类，在这之后，还会进一步回归来对边界框做调整，最后，交由后处理去除重复的检测结果。然而，由于引入了后处理，整个网络并不能像其他计算机视觉任务一样进行端到端的训练。而在这篇文章中，作者们提出了一个新的目标检测框架，叫做 DETR (DEtection TRansformer) ，这是一个可完全端到端训练的网络模型，且无需任何几何先验知识。下图是 DETR 与 Faster R-CNN 计算流程的对比（该图是从作者们的展示文稿中获取的），强调了 DETR 整体的自然性。

DETR 是基于编码-解码的 Transformer 结构构造的。整个模型包含三大组件：卷积神经网络特征提取器，编码器，以及解码器。一张给定图像会先经过特征提取器以获取图像特征。接着，使用不同频率的sin函数生成的位置编码信息会加到图像特征上以维护图像的二维结构信息。得到的新特征会经过 Transformer 的编码器来整合特征信息并将不同的目标分开来。到了解码阶段，目标查询向量会与编码向量一同经过解码器并产生最终的输出特征向量。这些查询向量是一组固定的可学习的嵌入向量（embedding），刚开始随机初始化，在训练过程中进行优化，评测阶段则保持不变，而查询向量的数量也决定了该检测器能够检测的目标数量上界。最终，输出的特征向量会经过一个共享的全连接层来预测每个查询对应的类别与边界框。为了计算损失并训练该模型，作者使用了匈牙利算法将输出与标注一一匹配。

MutualNet: Adaptive Convnet via Mutual Learning from Network Width and Resolution (论文地址)

传统神经网络只有在计算资源足够的情况下才能够使用，如果计算资源无法满足，模型就无法使用。然而，这就使得实际应用中模型的使用颇为受限。比方说，如果模型要在手机上进行前向推理，计算资源会随手机负载以及电量而变化。一个简单的解决方案就是在设备端保存多个不同大小尺寸的模型，并在不同计算资源情况下使用对应的模型。但是如此一来就会占据大量内存空间，并且也无法做到适用于不同的计算资源。近期类似于 S-Net 与 US-Net 的网络在训练期间采样不同大小的子网络，使得网络在部署阶段可以调整为不同的网络宽度（也就是通道数量）。但是在非常有限的计算资源下，这类网络的性能显著下降。

这篇论文则借助于不同尺寸的网络与输入图像，以寻求准确度与计算效率的平衡。如上图所示，在一次训练迭代过程中，会采样四个子网络，其中一个是完整的网络，还有三个具有不同宽度的子网络。完整的网络使用原始大小的图像数据与标签进行交叉熵损失训练，其余三个则随机输入不同尺度的图像（原始图像或是尺度下采样后的图像），并使用他们的输出与完整网络的输出之间的KL散度进行监督训练（也就是蒸馏损失）。这样一来，每个子网络就能够学会适应不同网络尺寸与输入大小的多尺度表达。在部署过程中，对于一个给定的资源约束场景，即可选择最优的网络尺寸与输入大小组合用于推理。

Gradient Centralization: A New Optimization Technique for Deep Neural Networks (论文地址)

在神经网络优化过程中使用类似于均值与方差这样的二阶统计数据来对网络激活值或是权重做形式标准化已然成为神经网络训练过程中极为重要的一环，例如常用的 BatchNorm 和 weight norm。相较于使用额外的归一化模块作用于激活值或是权重，梯度中心化（Gradient Centralization，简称GC）直接作用于梯度，使得梯度向量的均值为0，该操作可以平滑并加速神经网络的训练过程，甚至提升模型的泛化性能。

给定计算得到的梯度，GC首先如上图所示计算梯度向量的均值，接着减去对应的均值。数学形式上，对于一个权重向量 Wi，其对应的梯度为∇Wi(i=1,2,…,N)，则GC操作可定义为：

Smooth-AP: Smoothing the Path Towards Large-Scale Image Retrieval (论文地址)

图像检索旨在一个图像集合中检索与查询图像相同类别的图像数据。与分类任务不同，图像检索任务中，测试图像的类别在训练过程中都已经见到过了，测试图像的类别可能会很少见，但是我们仍需在图像集合中找到与之相似的图像，这也就是一个开集问题。图像检索的一般流程包括使用CNN特征提取器对检索图像、以及整个图像集合提取其各自的嵌入向量，接着计算两两之间的余弦相似度，最后根据相似度进行排序。特征提取器的训练目标就是要达到良好的排序效果（即属于同一类别的图像相似度应尽可能高）。而网络的性能则是使用 Average Precision (AP) 来度量的，该指标计算每个正确检索结果的名次与其在整个图像集合中的名次之比并对其求和。计算一张给定图像的名次需要应用一个阈值化操作，该操作用到了海维赛德阶跃函数，使得其不可微分，所以我们无法直接使用最终排名来端到端地优化模型。

为了解决这个问题，论文作者们提出了使用一个温度参数控制的sigmoid函数来代替海维赛德阶跃函数，使得排序可微，并可作为损失函数来端到端地优化网络模型。相较于三元组损失函数，smooth-AP 损失函数优化的是一个排序损失，而三元组损失则是在间接地进行优化。

Hybrid Models for Open Set Recognition (论文地址)

现有的图像分类方法往往基于闭集假设，也就是说，训练集中涵盖了测试阶段可能出现的所有类别。但是这种假设很明显不现实，哪怕是像ImageNet这样拥有1000类物品的大规模数据集，也不可能包含现实世界中所有可能的类别。如此一来，自然地出现了开集分类，其试图通过假设测试阶段包含见过的以及没有见过的类别来解决这个问题。

在这篇论文中，作者们使用流模型来解决这个开集分类问题。流方法通过最大似然估计，以一种无监督训练的方式拟合训练样本的概率分布。因此，流模型可以用于估计每个样本的概率密度。当输入样本的概率密度很大的时候，那么其很有可能是一个已知样本，而离群点的概率密度则较小。之前的研究方法都是基于流模型搭建一个分类器，而该论文的作者们让分类器和流模型学习一个联合嵌入向量，因为仅仅由流模型学到的嵌入向量很可能不具有充足的判别特征，使得分类效果很差。如上图所示，在训练期间，图像会由一个编码器网络映射为一个隐特征，接着这个编码特征会同时被送入分类器与流模型中，分类器端使用交叉熵损失进行监督，流模型端则负责概率密度估计。整个网络架构是可端到端训练的。在测试阶段，每张图像的 logP(x) 都会由前传得到，并与训练集样本的最低 logP(x) 进行比较。如果其值大于该阈值，则送入分类器判断其具体类别，否则就视为未见过的样本。

（译者注：有关 Flow-based Models ，可以参看李宏毅的讲解视频，非常有趣。）

Conditional Convolutions for Instance Segmentation (论文地址)

实例分割仍旧是计算机视觉领域颇具挑战性的任务之一，它需要对给定图像中每个可见目标打上一个逐像素的掩膜（mask）以及一个类别标签。主流方法就是大名鼎鼎的 Mask R-CNN ，它包含两个步骤，第一步是用目标检测器 Faster R-CNN 来生成每个实例的边界框，接着，对于每个检测到的实例，使用 ROI Align 将感兴趣区域从输出特征图中裁剪出来并缩放为同一分辨率大小，接着，将其送入一个掩膜头网络（mask head），该网络是一个小型全卷积网络，用以预测分割掩膜。然而，本论文作者指出了该架构的以下缺陷：(1) ROI Align 很可能会引入不相关的特征信息，如背景或是其他实例；(2) 缩放操作限制了实例分割的分辨率；(3) 掩膜头网络需要堆叠多个 3x3 卷积来产生足够大的感受野以生成掩膜，这极大得增加了掩膜头的计算量。

在本篇论文中，作者们提出了使用语义分割网络中的 FCN 来进行实例分割。为了进行有效的实例分割，FCN 需要两种信息，一是表观信息用于目标分类，二是位置信息用于区分同一类别的不同目标。该论文提出的网络结构名为 CondInst （用于实例分割的条件卷积），是基于 CondConv 以及 HyperNetworks 构建而成的。对于每个实例，一个子网络会根绝每个实例所在的中心区域生成掩膜 FCN 头网络的权重，用于预估给定实例的掩膜。具体来收，如上图所示，该网络中，在特征图的多个不同尺度下包含多个掩膜头。每个头网络在预定义的位置处预测给定实例的类别，并生成掩膜 FCN 头网络的权重。接着，就由各个头网络使用对应的参数进行掩膜预估。

Multitask Learning Strengthens Adversarial Robustness (论文地址)

深度神经网络的一大主要缺陷就在于它们对于对抗攻击来说异常脆弱，在输入图像中引入极为微小且不可见的扰动就会导致完全错误的输出，甚至输入的表观肉眼看来几乎完全一致。近些年，研究人员已从多个层面深入探讨神经网络的对抗鲁棒性，从输入数据（例如使用无标签数据以及对抗训练）到模型本身（使用正则化，例如 Parseval Networks），但是网络模型的输出还未被用于提升模型鲁棒性。在这篇论文中，作者们研究了拥有多个输出的多任务学习模型在对抗鲁棒性上的效果。鉴于越来越多的机器学习应用需要模型能够同时一次性完成多个任务，这样的设置在实际任务中是有用的。

使用有界p范式球攻击方式，即对于一个给定输入样本，在给定半径的p范式球内找到对抗扰动。接着，将计算得到的总损失变化视作网络的脆弱度。作者们展示了双任务训练下网络鲁棒性的提升（两个任务可从以下任务中随机选择：分割、深度估计、法向量估计、reshading、输入重建、2D或3D关键点预测等等）。在单任务攻击（即根据其中一个输出计算的扰动）以及多任务攻击（即根据所有输出计算的对应扰动中的最大扰动）下可以看到网络的鲁棒性提升。作者同时在理论上证明了这样的多任务鲁棒性仅在多个任务具有相关性的情况下可以达到。

Dynamic Group Convolution for Accelerating Convolutional Neural Networks (论文地址)

分组卷积首次出现还要追溯到AlexNet，当时分组的目的是为了加速训练，之后，这一技术被应用于轻量级CNN网络设计中，如 MobileNet和 ShuffleNet 。分组卷积将卷积层的输入和输出沿着通道维等量切分为多个部分（或者说是组），接着对每个组单独做卷积操作。因此，若是切分为 G 组，那么运算量也就减少了 G 倍。然而，该篇论文的作者们指出现有的分组卷积有两个主要缺陷：(1) 现有分组卷积稀疏化了神经网络的连接，致使卷积操作的特征提取于表达能力明显弱化；(2) 现有分组卷积对输入通道做固定的分组操作，忽视了各个输入之间的相关性。

为了适应性地选择最相关的输入通道构成组并保持原始网络的完整结构，作者们提出了动态组卷积（DGC）。DGC包含两个头网络，每个头网络根据输入为每个通道生成一个显著性分数。分数较低的通道会被移除。接着，对余下的特征层进行普通卷积并得到输出。最后，各个头网络的输出会在通道为级联起来并随机调换通道位置。

Disentangled Non-local Neural Networks (论文地址)

Non-local 模块使用注意力机制，对长距离像素之间的依存关系进行建模，并已经广泛应用于诸多计算机视觉任务，例如目标检测、语义分割以及视频动作识别。

在本篇论文中，作者们试图进一步解析 non-local 模块，发现其局限性，并提出了一个升级版本。首先，作者们将像素 i （也就是所谓的 key 像素）与像素 j （也就是所谓的 query 像素）之间的相似度计算为两项之和，其中一项是成对项，形式上就是一个白化后的点积结果，描述了 query 像素与 key 像素之间的关系，另一项则是一个一元项，表征了给定的 key 像素对哪个 query 像素影响最大。接着，为了搞清楚每一项的作用，他们分别只用其中一项进行训练，并发现成对项负责类别信息，一元项负责边界信息。然而，通过对 non-local 模块的梯度进行分析，作者们发现当上述两项结合起来应用于注意力操作时，他们的梯度相乘了。这也就导致，如果其中一项的梯度为0，那么另一个项不为0的梯度对网络的训练也起不到作用了。为了解决这个问题，作者们提出了一个 non-local 模块的分解版，使得这两项能够分开来优化。

Hard negative examples are hard, but useful (论文地址)

深度度量学习旨在优化一个嵌入函数，使得经过该函数映射后语义相似的图像会处在高维空间中相对较近的位置，而语义不相似的图像则使其映射后的距离较远。一种较为常用的学习该映射的方法是根据图像的三元组定义一个损失函数，这个三元组包含一张锚图像，一张与锚图像同一类别的正样本图像，以及一张与锚图像不同类别的负样本图像。接着，在优化过程中，模型会在锚图像与负样本图像的距离小于锚图像与正样本图像的距离时给予惩罚。然而，在优化期间，大多数候选三元组都已然达到了标准，即锚图像与正样本的距离小于其与负样本的距离，这也就使得这些三元组对训练几乎起不到太大作用，很冗余。另一方面，使用最困难的负样本进行优化又会导致在训练初期陷入局部最优。这是由于在这种情况下，根据余弦相似度（即归一化特征向量的点积结果）计算得到的锚-负样本的相似度比锚-正样本的相似度大很多。

作者们展示了三元组损失的标准实现中使用困难样本挖掘的问题所在。具体来说，(1) 在梯度计算中，如果归一化不被考虑的话，大部分梯度会丢失掉；(2) 如果两张不同类别的图像在嵌入空间中的距离非常接近，那么损失的梯度很可能将其拉得更近而非将其分得更开。为了解决这个问题，作者们不再像原始三元组损失那样尽可能地将锚-正样本对拉得更近以便将其更加紧密地聚类，相反，作者们会避开更新锚-正样本对的损失梯度，也就使得某一类的实例构成的聚类不会过于紧致。这个方法仅仅集中于直接将困难负样本拉离锚图像。

Volumetric Transformer Networks (论文地址)

卷积神经网络（CNN）成功的一个关键因素就在于其学习语义目标各个部件判别性特征表达的能力。然而，CNN仍旧缺乏处理不同空间变换的能力，例如尺度、视点以及类内变化。近期的一些方法，例如 spatial transformer networks (STNs) 试图通过先对空间分布不同的特征图变形，使其变为标准形式来抑制图像的空间变换，接着，再对这些标准化后的特征做分类。但是这样的方法对所有的特征通道做相同的变形操作，却没有考虑到各个特征通道会表征不同的语义组件，将其变换为标准形式也就需要不同的空间变换操作。

为了解决这个问题，该篇论文引入了 Volumetric transformer network (VTN)，如上图所示，一个可学习的模块会对每个通道的每个像素位置预测一个形变变换，用于将中间的 CNN 特征变换为一个空间位置无关的标准形式。VTN是一个编码器-解码器结构的网络，其中的网络模块用于在不同的特征图通道之间传递信息，以估计不同语义组件之间的依赖关系。

Faster AutoAugment: Learning Augmentation Strategies Using Backpropagation (论文地址)

数据增广（DA）已然变成了深度学习方法中极为重要且不可或缺的一部分，而近期的一些研究工作表明搜索算法得到的数据增广策略（例如 AutoAugment，Fast AutoAugment 以及 RandAugment）优于标准的增强增广方法。这类算法预先定义好所有可能的数据变换集合，比如几何变换（如旋转）或是色彩增强变换（如负感化），旨在找到最优的数据增广参数，比如增广的幅度、数据增广的概率以及不同数据增广手段的组合数量，如下方左图所示。最优策略是由一个双优化循环学习得到的，以便使得一个使用给定策略训练的卷积神经网络的验证误差最小。然而，这样的优化方法颇具弊端，可能的数据增广策略搜索空间过于庞大，需要复杂的搜索方法，而且单次数据增广策略的优化就需要网络做完整训练。为了解决这个问题，这篇论文的作者提出了使用基于梯度优化的原始图像与增广图像密度匹配优化策略。

通过将数据增广视作一种填充原始数据缺失点的方法，该算法的目标是利用对抗学习来最小化增广数据的和原始数据之间的分布距离。为了能够学习最优的增广策略，数据增广流程需要对增广参数可微。对于使用给定增广方法的概率，作者们使用一个由伯努利分布采样得到的随机变量来表示，并使用 Gumbel trick 进行优化，增广的强度通过直接估计来近似，增广方法的组合则使用one-hot向量的组合来学习。

其他论文

半监督学习，无监督学习，迁移学习，表征学习以及小样本学习

Big Transfer (Bit): General Visual Representation (论文地址)

在本篇论文中，作者们回顾了迁移学习的简单范式：首先在一个大规模标记数据集（例如 JFT-300M 以及 ImageNet-21k）上进行预训练，接着在目标任务上精调预训练权重，从而减少目标任务的数据需求量以及优化时间。作者们提出的迁移学习框架称为 BiT (Big Transfer)，并且包含大量构建有效模型的必需组件，使其能够借助于大规模数据集学习到通用的、可迁移的特征表达。

在预训练（上游）阶段，BiT 包含以下几点：

对于非常庞大的数据集，由于 Batch Normalization (BN) 含有训练集的统计数据，使得测试阶段存在训练/测试不一致的问题，训练损失虽然被正确回传并优化，然而验证损失则很不稳定。同时，BN 对批量大小很敏感。为了解决这个问题，BiT 转而使用 Group Norm 以及 Weight Norm。
像 ResNet50 这样的小模型并不会从大规模数据集上获益，因此模型需要与数据集的大小匹配。

对于（下游）目标任务，BiT 提出以下几点：

使用 SGD 优化器，无需层冻结、dropout、L2正则化或任何梯度适应。别忘了把最后的预测层的权重初始化为0。
无需将所有输入缩放为同一大小，如 224 。在训练期间，输入图像会随机缩放并剪切为一个正方形，并随机水平翻转。在测试阶段，图像则会放缩为同一固定大小。
尽管对于数据量充足的大规模数据集预训练来说，mixup 并没有多大用处，但是 BiT 发现 mixup 正则化对下游任务里中等大小的数据集训练非常有用。

Learning Visual Representations with Caption Annotations (论文地址)

在大规模标注数据集上训练深度模型不仅能够让手头的任务获得优良表现，也能使得模型学到对于下游任务非常有用的特征表达。然而，我们是否可以在不使用如此昂贵且细粒度的标注数据的情况下获得类似的特征表达能力呢？本篇论文研究了使用带噪声标注（在本篇论文中是图像的文字说明）进行弱监督预训练。

目标是用有限对图像与说明文字来学习视觉表达，那么如何制定训练目标，来使得图像和它们的说明文字之间产生有效的联系呢？参考 BERT 模型随机掩盖 15% 的输入字符，让模型根据 transformer 模型的编码器输出重建整个句子，该方法也随机对图像的文字说明进行掩码操作。其提出的方法称作 image-conditioned masked language modeling (ICMLM)，其中图像信息用于重建被掩码的字符以及对应的说明文字。为了达到这个目的，作者们提出了两个多模结构，(1) ICMLM tfm，使用一个卷积神经网络对原始图像进行编码得到图像特征，接着，经过BERT处理的被掩码的图像说明、原始图像说明以及图像特征被级联起来并通过一个 transformer 编码器，最终输出一个多模嵌入特征用于预估被掩码的字符。(2) ICMLM att+fc，先计算图像说明与图像之间的相似度，接着经过一个成对注意力模块来整合图像与文字说明之间的信息。得到的特征会经过池化后再过一个全连接层来预测被掩码的字符。

Memory-augmented Dense Predictive Coding for Video Representation Learning (论文地址)

近期在自监督图像表征学习领域的进步在下游任务中展现出了令人印象深刻的效果。尽管视频的多模表征学习多有发展，然而不使用其他任何类似于文本与语音的模态信息，仅仅使用视频流进行自监督学习还未有所发展。尽管视频的时域信息为自监督地训练一个根据过去帧预测未来帧的模型提供了充足的监督信号，这个任务仍旧颇具难度，因为真正的未来是不确定的，给定一个时间步长，未来的状态是有多种可能的（举个例子，当现在的动作是“打高尔夫”，那么下一帧所在的位置可能是手，也有可能是高尔夫俱乐部）。

本文将对比学习与存储模块结合使用，以解决未来帧的预测问题。为了减少不确定性，该模型会在特征级别上预测未来，并使用对比损失进行训练以避免过度约束。为了处理多种假设，一个存储模块用于同时推断多个未来状态。给定一组连续帧，2d-3d CNN编码器（即f）产生上下文特征，而GRU（即g）整合所有过去的信息，将其用于从共享存储模块中选择插槽。接着，将所选存储插槽的凸组合构成预测的未来状态。然后，使用对比损失将预测的未来状态与未来状态的真实特征向量进行比较。对于下游任务，将g产生的特征池化，然后送给分类器处理。

SCAN: Learning to Classify Images without Labels (论文地址)

要将未标记的输入图像分组为语义上有意义的聚类，我们要做到仅使用视觉相似性来解决该问题。先前的工作要么是（1）使用自监督的方法学习丰富的特征，然后对特征应用 K-means 来聚类，但这很容易导致性能退化，或者就是（2）端到端的聚类方法，这些方法要么利用 CNN 进行深度聚类，要么基于互信息最大化。但是，生成的聚类结果在很大程度上取决于初始化，并且很可能会被低级特征主导。

为了解决先前工作中发现的问题，本文提出了包含两大步骤的 SCAN（采用最近邻方法的语义聚类）。第一步，通过前置任务学习特征表示，然后生成初始聚类，SCAN 基于特征相似度而不是应用 K-means 来挖掘每个图像的最近邻。第二步，将语义上有意义的最近邻用作先验，以训练模型将每个图像及其对应的邻居分为一类。模型通过损失函数来优化，该函数会在 softmax 之后最大化输出向量的点积，从而迫使网络产生一致且有判别度的（one-hot 向量）预测。

GATCluster: Self-Supervised Gaussian-Attention Network for Image Clustering (论文地址)

聚类是根据样本相似度将数据进行集群划分。传统的方法使用手工特征和特定领域的距离函数来度量相似度，但这种手工特征的表现非常有限。随后的工作将深度表示和聚类算法结合起来，但是当输入数据很复杂时，深度聚类的性能仍然会受到影响。一个有效的聚类，在特征层面必须同时包含高层判别性特征并获取对象语义信息。在聚类步骤上，必须避免使用将样本分配到单个或少数几个集群的算法，并且聚类需要高效地应用于大尺寸图像。
本文提出了 GATCluster ，它不需要进一步的后处理就可以直接输出语义聚类标签，其中学习到的特征是一个 one-hot 编码向量，以避免弱解。在平移不变性、可分离性最大化、熵分析和注意力映射约束下，GATCluster采用四种自学习任务进行无监督训练。

Associative Alignment for Few-shot Image Classification (论文地址)

小样本图像分类的目标是在训练样本很少的情况下，生成一个能够学习识别新的图像类的模型。一种流行的方法是元学习，它从包含基本类别的大量标记数据中提取公共知识，并用于训练模型。在之后训练该模型时仅用几个样本就可以从新的概念中对图像进行分类。元目标是找到一组好的初始权重集合，这些权重在训练学习新的概念时迅速收敛。有趣的是，最近的研究表明，不使用元学习的标准迁移学习——特征提取器首先在基本类别上进行预训练，然后在新的几个类别上对预训练网络进行微调，其性能与更复杂的元学习策略不相上下。然而，在微调过程中，为了避免过拟合，特征提取器对部分层的权重冻结会阻碍性能。

本文提出了一个含有两个步骤的方法来解决这个问题。第一步，利用特征提取器为新样本生成特征。然后在嵌入空间中使用相似性度量将每个样本的特征映射到其中一个基类。第二步是关联对齐，其中特征提取器被微调，使得新图像的嵌入向量更接近其对应的基础图像的嵌入向量。这既可以通过中心对齐来完成的，其中每个基类的中心和新类别之间的距离减小，也可以使用对抗性对齐，其中鉴别器迫使特征提取器在嵌入空间中对齐基础图像和新样本。

其他论文

三维计算机视觉以及机器人学

NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis (论文地址)

从2D图像合成3D视图是一个具有挑战性的问题，尤其是在稀疏地采样了输入2D图像的情况下。该任务先拍摄3D场景的2D图像集合（具有可选的相机姿势及其内参），接着用这些数据训练一个模型，然后使用训练后的模型，我们就可以渲染3D场景中未拍摄过的新2D视图。一种成功的方法是基于体素的表示法，该表示方法使用离散的网格表示3D场景。使用3D CNN可以预测3D体素中对应的RGB-alpha网格值。但是，由于这种基于体素的方法复杂度与空间分辨率成三次比，难以优化并且无法平滑地对场景表面进行参数化，因此它们的存储效率不高。计算机视觉社区的最新趋势是使用全连接神经网络将给定的3D场景表示为连续函数。因此，神经网络本身就是3D场景的压缩表示，使用2D图像集对其进行训练，然后用于渲染新的视图。但是，现有方法仍无法与基于体素的方法相匹敌。

NeRF（neural radiance fields）使用9层和256个通道的全连接网络将场景表示为连续的5D函数，其输入是单个连续5D坐标，即3D空间位置（x，y，z）和视角方向（θ，ϕ），其输出为RGB颜色和不透明度（输出密度）。为了合成给定的视图，渲染过程包括沿相机光心所在直线查询5D坐标，并使用经典的体素渲染技术将输出的颜色和密度投影到图像中。由于体素渲染是可以可微分的，因此优化表示所需的唯一输入就是已知影机姿势参数的一组图像。这样，NeRF能够有效地优化，以渲染具有复杂几何形状和外观的场景的逼真视图，并且在渲染图像和真实图像之间具有简单的重建损失，论文证明其结果优于先前的神经渲染和视图合成研究工作。

Towards Streaming Perception (论文地址)

诸如自动驾驶汽车之类的实际应用需要类似于人类的快速反应，通常为200毫秒。在这种情况下，需要使用低延迟算法来确保安全运行。但是，即使经常研究计算机视觉算法的延迟，也仅主要在离线环境中进行了研究。在线视觉感知会带来完全不同的延迟需求。因为到了算法完成处理特定图像帧的时间（例如200毫秒后），周围的环境就已经发生了变化，如下图所示。这迫使感知需要预测未来，这是人类视觉的基本属性（例如，当棒球运动员击中快球时）。

为了开发更好的基准以反映现实情况，并使现有方法之间的比较更加容易。本文介绍了流感知的目标，即实时在线感知，并提出了一种新的元基准，该基准系统性地任何图像理解任务转换为流图像理解任务。该基准基于以下要点提出：流感知需要在任何时刻都了解世界的状态。因此，当新帧到达时，流算法必须报告世界的状态，即使它们尚未处理前一帧，也迫使它们考虑在进行计算时忽略的流数据量。具体来说，当比较模型的输出和真实标签时，使用时间而不是输入索引来进行对齐，因此，在处理相应的输入之前，模型需要在时间步t上给出正确的预测，即验证模型是否正确地将取Δt作为输入并处理，它只能使用t-Δt之前的数据来预测在时间t时刻对应于输入的输出。

Teaching Cameras to Feel: Estimating Tactile Physical Properties of Surfaces From Images (论文地址)

人在很小的时候就能够形成一个心理模型，基于与不同物品互动时的体验，将对物体的感知与其对应的触觉进行映射。当与新对象交互时，具有这种心理模型的自主智能体会是一个非常有价值的工具，特别是当一个简单的对象类别没有足够的信息来准确估计其触觉物理特性时。

为了更直接地模拟这样一个心理模型，本文提出的模型会直接估计物体的物理属性，使得物体的属性数据可被直接利用。首先，作者构建了一个表面图像序列和触觉特性测量数据集（数据集大小400+）。之所以对单个目标构建图像序列，是由于在估计表面特性时，人们常常无意识地移动头部来获取表面的多个视图，因此捕捉到的图像序列包含每个材料表面多个视角得到的图像。然后，他们提出了一个跨模态的框架来学习视觉线索到触觉特性的复杂映射。该模型的训练目标是在给定视觉信息的情况下，生成精确的触觉特性估计值。视觉和触觉信息通过各自单独的编码器网络嵌入到共享的隐空间中。然后，生成器网络从嵌入视觉矢量中估计触觉特性值。鉴别器网络学习预测触觉-视觉对是真实的还是合成的。在推理过程中，使用编码器-生成器对来推断输入图像的触觉特性。

Convolutional Occupancy Networks (论文地址)

三维重建是计算机视觉的一个重要问题，有着广泛的应用。对于理想的三维几何图形表示，我们需要能够，a）编码复杂的几何和任意的拓扑，b）放缩到大型场景，c）封装局部和全局信息，以及d）在内存和计算方面易于处理。然而，现有的三维重建表示法并不能满足所有这些要求。尽管最近的隐式神经表示在三维重建中表现出了令人印象深刻的性能，但由于使用简单的全连接网络结构，不允许在观测值中整合局部信息或引入诸如平移等变项的归纳偏置，因此存在一定的局限性。

Convolutional Occupancy Networks 使用卷积编码器和隐式占用解码器来合并归纳偏差并在三维空间中实现结构化推理。从而可以对单个对象进行更细粒度的隐式三维重建，能够放缩到大型室内场景，并能很好地从合成数据推广到真实数据。

其他论文

图像与视频合成

Transforming and Projecting Images into Class-conditional Generative Networks (论文地址)

GAN 能够生成多种多样不同类别的图像。例如，BigGAN，一个类条件生成对抗网络，给定一个噪声向量 z 和一个类别嵌入向量 c ，该模型能够生成对应类别的一张新图像。然后我们就可以通过编辑噪声向量生成的隐变量以及类别嵌入向量操纵生成的图像。但这个过程可以反过来吗？也就是说，给定一张输入图像，我们能否找到与该图像最匹配的潜在变量 z 和类别嵌入向量 c 呢？这个问题仍然颇具挑战性，因为许多输入图像不能由 GAN 生成。另外，目标函数具有许多局部极小值，搜索算法容易陷入此类区域。

为了解决这些问题，本文提出了 pix2latent 算法，主要包含两大创新点：估计输入图像的尺度变换，以及使用非局部搜索算法来寻找更好的解。如上图所示，在给定输入图像的情况下，pix2potent 首先找到最佳仿射变换，使得变换后的输入更可能由 GAN 生成，然后使用提出的 BasicCMA 优化方法将图像投影到隐空间中。接着对获得的隐变量进行编辑，并将其投影回图像空间，得到编辑后的图像，最后再用初始仿射变换的逆运算对其进行逆变换得到最终的生成图像。

Contrastive Learning for Unpaired Image-to-Image Translation (论文地址)

给定两组不同属性和模式的图像对训练集，例如马和斑马的图像对，非配对图像到图像的转换的目的是学习两种图像模式之间的变换函数，例如将马转换为斑马，反之亦然，这一过程中保留了诸如姿态或大小等敏感信息而无需确保两种图像模式之间的一一匹配。现有的方法如 CycleGAN 迫使模型能够将转换后的图像变换回原始图像。但是这样的方法假设模型能够学到一个双射变换，这通常含有过多限制，因为一个给定的变换后的图像可能有多种样式的源图像。理想的损失应该在不同样式下保持不变，但要能够做到区分敏感信息。

Contrastive Unpaired Translation (CUT) 就是要学习这种嵌入空间。除了标准的 GAN 损失，其中生成器要训练生成足够真实的转换图像，而鉴别器试图区分转换图像和真实图像。还要增加一个额外的损失，用来迫使网络对输入图像与转换图像的对应图像块生成相似的嵌入向量。该损失在优化时采用对比损失，即拉近两个对应图像块嵌入向量的距离，同时拉远给定图像块和随机抽样图像块嵌入之间的距离（只使用同一输入图像的内部区块，其他图像的区块会降低性能）。

Rewriting a Deep Generative Model (论文地址)

GAN 能够对数据分布中丰富的语义和物理规则进行建模，但是到目前为止，我们仍旧搞不明白这些规则是如何在网络中编码的，也无从知晓如何改变某个规则。本篇论文则引入了一个新的问题：操纵由深度生成网络模型编码的特定规则。也就是说，给定一个生成模型，其目的是调整其权重，使调整后的模型遵循新的规则，生成遵循新规则集的图像，如下图所示。

通过将网络中的每一层视为一个关联性存储器（该存储器将潜在生成规则存储为隐藏特征上的一组键值关系），我们就可以通过定义一个受到约束的优化来修改模型，这个受约束优化在关联性存储器中添加或编辑一个特定规则，同时尽可能保留模型中现有的语义关系。论文直接通过度量和操纵模型的内部结构来实现这一点，而不需要任何新的训练数据。

Learning Stereo from Single Images (论文地址)

给定两张对应的图像，视差匹配的目标是估计每个像素对应的位置从第一张图像的视角到第二个视角之间的每像素水平位移（即视差）。虽然全监督方法可以得到很好的结果，但是一对视察图像之间的精确真实视差往往很难获得。一种可能的替代方法是使用合成数据进行训练，然后使用有限数量的实际标记数据进行微调。但是如果没有充足的真实数据来进行微调，这样的模型在实际应用中还是无法得到很好的视差估计效果。

该文提出了一种新颖的、全自动的视差估计训练流程，通过使用图像深度估计网络，该方法可以由已知深度信息的非结构化单幅图像生成视差估计训练数据，这样就无需人工合成数据或真实视差图像对即可进行训练。首先，利用深度视差，通过前向形变操作将给定的左输入图像转换为合成的右图像。然后，利用视差图像对，对视差估计网络进行有监督的训练，从而得到一个泛化的模型。

What makes fake images detectable? Understanding properties that generalize (论文地址)

虽然 GAN 生成图像的质量已经达到了令人颇感惊异的水平，但是经过训练的用于检测假图像的深层网络仍然可以识别这些生成图像中的细微伪影，并且鉴别真假图像的网络还在不同数据集和不同方法训练得到的许多 GAN 模型中找到了相同的伪影。本文旨在可视化和理解哪些部分在各类模型之间是共有的，并且容易在不同的场景中都呈现出来并被检测出。

由于全局面部结构在不同的生成器和数据集之间可能会有所不同，因此相较而言，生成图像的局部面片更加确定且更可能产生冗余的伪影。为此，使用一个基于区块的全卷积分类器来关注局部区块而不是全局结构。然后，可以使用分类器来可视化和分类在各种测试数据集中最能指示真实或虚假图像的区块。另外，可以对生成的图像进行操作以夸大假图像的特征属性。

其他论文

视觉与语言（V&L）

Connecting Vision and Language with Localized Narratives (论文地址)

将视觉和语言联系起来的一种常用方法是使用图像标题，其中每个图像都与人类所写的文本标题配对，但这种图像与文字的联系仅限于完整的图像尺度，其中的文本描述了整个图像。为了改进这种弱关联，有人就将图片标题的特定部分和图像中的目标框联系起来。但是，这种关联仍然非常稀疏，大多数对象和单词都没有对应的目标框，而且标注过程可能会非常昂贵耗时。

本文提出了一种新的有效的多模态图像标注形式，称之为定位叙事。定位叙述是通过要求标注者用他们的声音描述一个图像，同时将鼠标悬停在他们描述的图像区域上而生成的。例如，如上图所示，标注者在说“woman”时，会用鼠标表示其所在的空间范围，从而为这个名词提供了视觉基础。接着，他们把鼠标从女人身上移到气球上，沿着气球的绳子，说“holding”，这就为这种动词关系提供了直接的视觉基础。他们还描述了“clear blue sky”和“light blue jeans”等属性。由于语音与鼠标指针同步，因此可以确定描述中每个单词对应的图像位置。这为每个单词提供了以鼠标跟踪片段形式的密集视觉特征。这一丰富的标注方法具有多种形式（图像、文本、语音和位置），可用于文本到图像生成、视觉问答和语音驱动的环境导航等不同的任务。或者为了对任务进行更精细的控制，比如对图像的特定部分进行说明，视力不好的人可以通过将手指悬停在图像上来获得特定部分的描述。

UNITER: UNiversal Image-TExt Representation Learning (论文地址)

视觉与语言（V&L）任务，如视觉问答（VQA）都依赖于多模态联合嵌入来弥合图像和文本中视觉线索与文本线索之间的语义鸿沟。但是这种表示通常是为特定的任务定制的，并且需要特定的网络体系架构。为了学习可用于所有 V&L 下游任务的通用联合嵌入，本文介绍了一种大规模联合多模态嵌入预训练模型 UNITER ，如下图所示。基于 transformer 模型，UNITER 接受了4个任务的预训练：基于图像的蒙版语言建模（MLM），即使用图像和文本特征来恢复随机蒙版的单词；以文本为条件的蒙版区域建模（MRM），即重构给定图像的某些区域；图像文本匹配（ITM），即预测图像和文本实例是否配对；以及单词区域对齐（WRA），即学习最佳变换找到单词和图像之间的最佳对齐。要在下游任务上使用 UNITER ，首先要将其重新构造为分类任务，然后可以在网络输出的[CLS]特征后添加分类器并使用交叉熵损失进行训练。

Learning to Learn Words from Visual Scenes (论文地址)

视觉和语言任务（V&L）的标准方法是学习一个共同的嵌入空间，但这种方法效率低下，往往需要上百万个例子来学习，对语言的自然构成结构泛化较差，所学嵌入在推理时无法适应新单词。因此，本文提出让网络学习得到单词嵌入的过程，而非学习单词嵌入。

该模型基于 transformer 结构，在每一次迭代中，模型接收一个图像语言对，然后元学习一个策略来从中获取词表示。这就使得我们能够在推理时获得新单词的表示，并且能够更鲁棒地推广到新的描述任务中。具体来说，每一个任务都被定义为一个语言习得任务，其中包含训练样本和测试样本，可通过测试样本来对由训练样本中习得的语言进行评估。例如，在上图中，模型需要从训练样本中获取单词“chair”，这个单词以前从未见过。元训练在前向传递中完成，并使得模型指向训练示例中正确的单词“chair”，整个模型的训练使用匹配损失来完成。经过多种场景与任务的训练，该模型在推理过程中能够很快地适应新的任务。

其他论文

结语

遗憾的是，论文的数量使得整个摘要工作既困难又费时。所以对于其余的论文，我将简单地列出一些我所遇到的论文标题，如果读者对这些主题感兴趣可自行深入研究。

如果，你也是位热爱分享的AI爱好者。欢迎与译站一起，学习新知，分享成长。

雷峰网

谷歌发布Geimini2.0，开启Agent新时代

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

「国产之光」VS「话题之王」

流畅、真实、有质感

技术至臻，才能画面至美

从Mini，到Max

从云到端：离客户更近的端侧AI「涌现」而至

赵勇卸任格灵深瞳CEO：创业一瞬间，跌宕十一年

巅峰开局，资本狂欢

天上一日，浪费三年

关关难过，关关要过

上市不是终点，牌桌没有终局

知乎直答亮相“学术酒吧”开放麦，李开复、刘知远相聚“AI上头俱乐部”

AI + 影视，学会「避坑」再「吟诗 」｜CNCC 2024

AI +影视的“诗”与“坑”

技术发展的路线，统一了吗？

AI+影视，会把我们送到什么地方去？

李彦宏数千万元投资大模型创业公司 鼓励创业者坚持长期主义

字节跳动发布“豆包MarsCode”智能开发工具，面向国内开发者免费

OpenAI 断供中国大陆市场，零一万物 Yi API 二折平替 GPT-4o

Miraa 周楷雯：一个 AI 时代的独立开发者，与他的产品逻辑

专访纽约城市大学田英利教授：用多通道、多模态的方法「看懂」手语

手语识别的难题

线上圆桌预告

Sora 面世，视频生成的 GPT-3 时刻来了

2024，智谱如何更快？

最强大模型GPT-4，一直无人赶超

GLM-4，性能直逼GPT-4

GLM-4让大模型进入商业化加速时代

后记

Character.ai 向左，MiniMax Talkie 向右

独家｜百度智能云 AI 应用产品部总经理刘倩将离职

李开复说话算数：零一万物大模型首次发布，AI 2.0 正在路上

阿里云开源通义千问14B模型，周靖人：持续拥抱开源开放

Falcon 180B开源影响了谁？

一些争议

开源大模型带来了怎样的冲击

开源VS闭源

蔡丛兴：从语词到「故事」，AIGC 要做思想的「相机」丨GAIR 2023

华为、OPPO与光子实验室都加入的这个基金会，是什么来头？

只需要十分之一数据，就能通关四大视觉任务，居然还开源了！

通用，才是技术根本

大力出奇迹，打造通用视觉模型

一网打尽视觉领域四大任务

通用视觉平台，已正式开源

科大讯飞研究院，用 「做企业」去理解「做研究」

讯飞研究院：一步一步上台阶

从单点技术突破到系统性创新

从技术中来，到产品中去

实现开源商业化的「拦路虎」，是企业对待开源的错误态度

4K葫芦娃重生的秘密，藏在火山引擎里

4k修复，还原艺术本色

四大智能算法，用“实力”让情怀落地

火山引擎，与生俱来的视频能力

小结

百度吴甜：首席AI架构师培养计划持续为行业输送高端复合型AI人才

机器人学国家重点实验室副主任刘连庆：为什么要开发基于生物细胞和细菌的微纳机器人？

最新研究：声音和词语在大脑中并行处理

经过多年研究，神经科学家发现了人类大脑中处理语言声音的运行规则

站在生物神经学的参照系下，AI语言处理被赋予更精细的洞察

人工智能的民主化：低代码和无代码解决方案的兴起

低代码人工智能解决方案的增长

Microsoft 的低代码和无代码 AI 解决方案

用Lobe创建的低编码工作场所安全边缘AI

DeepMind的智能体成精了，还学会“发脾气”了？

社会达尔文主义的训练场

它还是不会思考

从理论到现实的路还很长

像人类一样会“类比”的AI，才是真正的AI

半路出家，高中数学老师做起人工智能

类比到底是什么

他们永远也学不会类比吗?

1.2毫秒！ 英伟达TensorRT 8运行BERT-Large推理创纪录

玄点智能——世界人工智能创新大赛 跑出的一匹黑马

旷视天元背后的追风少年

刷arxiv有哪些技巧？5个问题快速理解机器学习论文

图解 | NumPy可视化指南

numpy数组 vs. Python列表

1.向量与1维数组

AI + 影视，学会「避坑」再「吟诗」｜CNCC 2024

李彦宏数千万元投资大模型创业公司鼓励创业者坚持长期主义

科大讯飞研究院，用「做企业」去理解「做研究」

1.2毫秒！英伟达TensorRT 8运行BERT-Large推理创纪录

玄点智能——世界人工智能创新大赛跑出的一匹黑马