小米阅读 > 都市 > 软件教父：从大学社团开始制霸 > 第258章南都大学人工智能会议

软件教父：从大学社团开始制霸第258章南都大学人工智能会议

作者：杨桃饮料分类：都市更新时间：2025-12-16 18:56:33

2013年10月，金秋时节，丹桂飘香。

南都市，这座古老与现代交织的城市，因为一场即将到来的学术盛会而显得格外引人瞩目。

由南都大学主办，星火科技协办的“人工智能前沿技术国际研讨会”即将拉开帷幕。

这并非一次常规的学术会议。

会议的邀请名单上，汇集了当今全球人工智能领域最负盛名的学者和专家。其中包括深度学习领域的几位奠基人，他们提出的理论框架是本轮AI浪潮的基石；有来自世界顶级名校的强化学习实验室负责人，他们的研究成果在机器人控制和决策系统领域取得了突破性进展；还有在计算机视觉和自然语言处理方向耕耘多年的领军人物，他们的技术早已广泛应用于安防、医疗和信息检索等多个行业。

任何一位，都是在各自领域内跺一跺脚就能引起震动的泰山北斗。

而在这份星光熠熠的名单中，一个名字的出现，却显得有些特殊，甚至可以说是“破格”的。

林星石。

星火科技创始人，天元Go的缔造者。

他不是教授，没有博士头衔，甚至严格来说，他的学术生涯履历相比于其他参会者，几乎是一片空白。

然而，没有人会质疑他出现在这里的资格。

仅仅一个月前，他向世界投下的那篇关于天元Go的论文，以及随后彻底开源核心代码的惊人之举，已经让他在人工智能这个圈子里，拥有了无可争议的声望。

他被邀请作为本次大会的特邀嘉宾，并将在开幕式后，进行第一场主题演讲。这本身就代表了学术界对他的最高认可。

会议开幕当天，南都大学最大的学术报告厅座无虚席。除了受邀的专家学者，还有大量闻讯而来的学生、研究者和科技公司的从业人员，将报告厅的过道都挤得水泄不通。所有人都想亲眼见证，这位搅动了世界风云的年轻人，将要分享怎样的思想。

上午九点整，在主持人简短而热情的介绍后，林星石走上了演讲台。

他今天穿得依旧很简单，一件干净的白色t恤，一条牛仔裤，看起来就像一个普通的大学生，与台下西装革履的教授们形成了鲜明的对比。

他没有带任何演讲稿，只是拿着一个遥控翻页笔，从容地站定在舞台中央。

“尊敬的各位前辈，各位来宾，大家上午好。”

他的声音通过麦克风，清晰地传遍了整个报告厅。年轻而沉稳，带着一种独特的穿透力。

“非常荣幸能站在这里，与这么多我敬仰已久的学者前辈们交流。今天，我想分享的不是什么高深的理论，而是一个故事，一个关于天元Go如何诞生的故事。”

没有复杂的开场白，林星石直入主题。

他身后的巨大屏幕上，亮起了天元Go的Logo。

“在座的很多前辈，可能在看到天元Go的论文之前，就已经在弈城网上与它交过手了。”林星石的目光扫过台下，带着一丝笑意，“我知道，它那不拘一格，甚至有些‘离经叛道’的棋路，给很多人带来了困惑。大家都在猜测，它是如何学习，如何思考的。”

“今天，我可以给出答案。天元Go的学习方法，总结起来其实非常简单，那就是‘从零开始，自我进化’。”

他按下了翻页笔。

屏幕上出现了一张简洁的架构图，清晰地展示了策略网络和价值网络两个核心模块，以及它们之间通过强化学习进行迭代优化的流程。

“传统的棋类AI，大多依赖于人类的棋谱数据。它们通过学习顶尖棋手的对局，来模仿和理解棋局的走势。这条路，在过去几十年里，诞生了许多优秀的程序，但它们始终有一个无法突破的上限，那就是人类棋手的认知边界。”

“我们从一开始就放弃了这条路。”林星石的语气坚定而有力，“我们相信，围棋作为一门拥有3000多年历史的古老艺术，其内在的规律和最优解，不应该被人类有限的经验所束缚。AI应该有能力，自己去发现这片广阔的星空。”

“所以，我们设计了天元Go。我们没有给它输入任何一张人类棋谱，只是告诉了它最基本的围棋规则。然后，让它在虚拟的棋盘上，自己和自己下棋。”

“从最初的完全随机落子，到逐渐形成初步的棋感；从理解简单的‘气’和‘眼’，到掌握复杂的定式和全局战略。这个过程，完全由它自主完成。策略网络负责探索每一步棋的更多可能性，而价值网络则负责判断当前局面的胜率。两个网络互为博弈，又互为导师，在数百万盘的自我对弈中，不断迭代，不断进化。”

他的讲述，让台下的许多研究者都陷入了沉思。

纯粹的强化学习路径，不依赖任何人类先验知识，这在当时的AI领域，是一个相当激进甚至被认为是难以实现的想法。尤其是在围棋这样复杂的领域，巨大的状态空间和稀疏的奖励信号，让这条路充满了挑战。

而林星石和他的团队，不仅走通了，还取得了如此惊人的成果。

“我们相信，这种纯粹的强化学习路径，代表了通用人工智能发展的一个重要方向。”林星石的声音再次响起，将众人的思绪拉了回来，“它的优势在于，摆脱了对高质量、大规模标注数据的依赖。在很多领域，获取这样的数据是极其困难和昂贵的。而自我对弈的模式，让AI拥有了自主产生数据的能力，这为我们探索更广阔的未知领域，打开了一扇全新的大门。”

演讲至此，台下爆发出了一阵热烈的掌声。

这掌声，不仅是送给天元Go的惊艳表现，更是送给林星石所展示的这种敢于挑战传统、勇于探索未知的精神。

掌声平息后，林星石微微一笑，继续说道：“当然，天元Go只是我们在人工智能领域的一次尝试。深度学习和强化学习的结合，其潜力远不止于下棋。今天，我还想借这个机会，向大家展示我们在另一个领域的最新成果——计算机视觉。”

他再次按下了翻页笔。

屏幕上，出现了一个活泼可爱的二次元卡通少女形象。她有着一头俏皮的橙色短发，穿着一身蓝白水手服，大大的眼睛里闪烁着灵动的光芒。

台下的一些年轻学生和开发者，立刻就认出了这个形象。

“是Ac娘！”

“Ac娘怎么会出现在这里？”

在一片小声的议论中，林星石开口了。

“这位可爱的女孩，是A站的虚拟偶像，我们称她为‘Ac娘’。但今天，她不是以虚拟偶像的身份，而是以我们一项新技术的‘演示助理’身份来到这里的。”

话音刚落，屏幕上的Ac娘突然动了起来。

她不再是静止的图片，而是像一个真人一样，对着观众挥了挥手，然后俏皮地眨了眨眼睛。她的动作流畅自然，面部表情生动丰富，仿佛真的拥有生命一般。

“相信很多人都了解Live2d或者类似的动态立绘技术。通过预设的动画和模型绑定，让2d角色动起来。但我们今天展示的，有些不一样。”

林星石说着，走到了舞台侧面。工作人员递给了他一个看起来像是游戏手柄，但结构更加复杂的设备。

“我们开发的，是一套基于普通摄像头的实时动作捕捉与识别系统。”

他将设备戴在了头上，调整了一下摄像头的位置，使其正对着自己的面部。

下一秒，神奇的事情发生了。

当林星石对着摄像头微笑时，屏幕上的Ac娘也露出了灿烂的笑容；当他惊讶地挑起眉毛时，Ac娘的眉毛也同步向上扬起；他转动头部，Ac娘的视线也随之移动，仿佛在环顾四周。

整个报告厅，瞬间安静了下来。所有人的目光，都聚焦在舞台中央的这个年轻人，和他身后那个被赋予了“灵魂”的二次元少女身上。

这已经不是简单的动画播放，而是实时的、高精度的面部表情同步！

“这套系统，其核心同样是深度神经网络。”林星石的声音从设备下方传来，略微有些沉闷，但依旧清晰，“我们通过对海量的人脸表情数据进行学习，训练出了一个能够精准识别超过五十个面部关键肌肉群运动的模型。它可以实时捕捉和分析人类的面部表情，并将其转化为驱动虚拟形象的参数。”

“而这，还只是第一步。”

林星石放下了手中的设备，屏幕上的Ac娘也恢复了平静。

“我们的目标，是实现全身的实时动作捕捉。”

他再次按下翻页笔，屏幕上播放了一段预先录制好的视频。

视频中，一位工作人员穿着普通的衣服，在一个空旷的房间里跳了一段街舞。他的动作行云流水，充满了力量感。

而在他旁边，一个三维的火柴人模型，正在以毫秒级的延迟，完美地复刻着他的所有动作。

“无需穿戴任何传感器，只需要一个或多个普通的高清摄像头，我们的算法就能够通过多视角信息融合，实时重建人体的三维姿态，并识别其动作。”

“这项技术，我们称之为‘动作识别’（Action Recognition）。它不仅可以用于虚拟偶像和游戏动画制作，更将在人机交互、智能安防、运动科学分析、自动驾驶等领域，发挥出巨大的价值。”

如果说，之前的天元Go展示的是AI在“思考”层面的颠覆性突破，那么此刻，Ac娘和这段动作识别视频，则向所有人展示了AI在“感知”和“交互”层面的无限可能。

台下，来自斯坦福大学计算机视觉实验室的一位老教授，扶了扶自己的眼镜，眼神中充满了震撼。他喃喃自语道：“这太不可思议了……他们竟然已经走到了这一步。这种精度和实时性，已经超过了我们实验室目前最好的成果。”

会场再次沸腾了，掌声、惊叹声此起彼伏。人们交头接耳，激动地讨论着刚刚看到的一切。

林星石站在舞台中央，平静地等待着大家的情绪稍微平复。

他知道，自己今天带来的这两样东西，将会在平静的学术湖面，投下又一块巨石。

主题演讲结束后的茶歇时间，林星石立刻被一群热情的学者和研究者围了起来。

“林先生，您好！我是来自法国国家信息与自动化研究所的皮埃尔，我对您在论文中提到的蒙特卡洛树搜索（mctS）的改进非常感兴趣。”一位头发微白，眼神锐利的老者率先开口，他的胸牌上标注着他是本次会议的特邀专家之一。

他正是蒙特卡洛树搜索算法领域最重要的奠基人之一，他提出的Uct算法（Upper confidence bounds applied to trees）是现代mctS算法的核心。

林星石立刻认出了对方，恭敬地回答道：“皮埃尔教授，您好。能和您交流是我的荣幸。我们在天元Go中，确实对传统的mctS做了一些调整。主要是将价值网络的快速评估结果，与mctS的模拟（rollout）过程进行了结合，用神经网络的‘棋感’来指导搜索的方向，从而在有限的计算时间内，探索更有价值的棋局变化。”

皮埃尔教授点点头，眼中闪烁着思索的光芒：“这是一个非常巧妙的思路。用一个训练好的‘专家’去指导搜索，而不是纯粹的随机模拟，这确实能极大地提升搜索效率。但是，你如何平衡价值网络的评估和mctS自身的探索性呢？如果价值网络在训练初期存在偏差，会不会导致mctS过早地放弃了一些有潜力的分支？”

这个问题切中了要害。

林星石微笑着解释道：“您提的问题非常关键。我们在算法中引入了一个动态调整的温度系数（temperature parameter）。在训练初期，我们会设置一个较高的温度系数，鼓励AI进行更广泛的探索，即使某些分支在价值网络的初步评估中得分不高，也有机会被深入搜索。随着训练的进行，AI的棋力增强，价值网络的判断越来越准，我们再逐步降低这个温度系数，让AI的决策更加倾向于它认为的最优解。”

“原来如此，通过退火（annealing）的思想来动态平衡探索和利用（exploration and exploitation），非常精彩的设计！”皮埃尔教授恍然大悟，毫不吝啬自己的赞美。

他们两人的讨论，吸引了旁边更多人的注意。

这时，一位看起来四十多岁，气质儒雅的华人教授走了过来。他来自斯坦福大学，是神经网络架构设计领域的知名专家。

“林总，你好。你的演讲非常震撼。”他先是礼貌地问候，然后直接切入了技术话题，“我注意到，天元Go的策略网络和价值网络，使用的是相对传统的卷积神经网络结构。我有一个想法，不知道是否可行。”

“教授请讲。”林星石饶有兴致地看着他。

“在处理围棋这种全局性很强的任务时，棋盘上任何一个位置的变化，都可能对全局的局势产生影响。传统的卷积神经网络，其感受野（receptive field）是局部的，需要通过堆叠很多层才能捕捉到全局信息。”这位教授顿了顿，提出了自己的核心观点，“我们最近在自然语言处理领域的研究发现，一种叫做‘注意力机制（Attention mechanism）’的模型，可以很好地解决长距离依赖的问题。它允许模型在处理序列数据时，动态地将‘注意力’集中在输入序列的特定部分。我想，这种机制或许也可以应用到围棋AI中，让神经网络在评估一个落子点时，能够‘看到’并‘关注’到棋盘上所有与之相关的重要位置，而不仅仅是其周围的局部区域。”

注意力机制！

林星石心中猛地一震。

他当然知道注意力机制，更知道它在未来几年，将如何彻底改变深度学习的版图，并最终催生出像transformer这样强大的模型。

他没想到，在这个时间点，就已经有学者开始思考将其应用于计算机视觉和棋类AI的可能性。

这位教授的想法，与他脑海中对天元Go未来版本的规划，不谋而合。

“教授，您的这个想法……简直是天才！”林星石的眼神中爆发出强烈的光彩，“将注意力机制引入，让网络自主学习棋子之间的关联性，这无疑会让价值网络对局势的判断，以及策略网络对落子点的选择，提升到一个全新的高度。这太重要了！”

得到林星石如此高的评价，那位教授也显得非常高兴。两人立刻就注意力机制如何在卷积网络中实现、如何与mctS结合等技术细节，展开了深入的讨论。

他们的对话，充满了各种专业术语和复杂的数学公式，让旁边一些道行稍浅的研究者听得如痴如醉，却又云里雾里。

就在此时，一个略带英国口音的年轻声音插了进来。

“林先生，可以打扰一下吗？”

林星石转过头，看到一个金发碧眼，看起来和他年龄相仿的年轻人。他的脸上带着一丝腼腆，但眼神中却充满了对技术的热情。

“你好，我是来自deepmind的丹尼斯。”他做了个简单的自我介绍。

deepmind！

这个名字让林星石再次将目光聚焦。此时的deepmind，还只是英国一家初创公司，尚未被谷歌收购，也还没有因为AlphaGo而名满天下。但林星石清楚地知道，这家公司里，正聚集着一群全世界最聪明的大脑，他们和自己一样，坚信着强化学习是通往通用人工智能的钥匙。

“你好，丹尼斯。很高兴认识你。”林星石友好地伸出手。

“你的演讲太棒了。”丹尼斯握住林星石的手，诚恳地说道，“我们也在尝试用深度强化学习来玩雅达利（Atari）游戏，并且取得了一些不错的成果。但是，将它应用在围棋上，难度完全不是一个量级。我最好奇的是，你们在自对弈训练中，是如何处理奖励信号（reward signal）的？围棋的胜负结果，只有在棋局结束时才能知道，这种极其稀疏的奖励，对于模型的训练来说，是一个巨大的挑战。”

这又是一个核心问题。

林星石耐心地解释道：“你说的没错。所以我们并没有直接使用最终的胜负作为唯一的奖励信号。价值网络本身，就扮演了一个‘即时裁判’的角色。在自对弈的每一步，我们都会让价值网络对当前局面进行评估，得出一个胜率预测。我们将这个预测的胜率，作为一种内部的、稠密的奖励信号，来指导策略网络的学习。也就是说，策略网络的目标，不仅仅是赢得最终的胜利，更是在棋局的每一步，都尽可能地走向一个价值网络认为胜率更高的局面。”

“用一个动态的价值函数来塑造奖励……这太聪明了！”丹尼斯恍然大悟，“这相当于AI在自己为自己定义什么是‘好’的，什么是‘坏’的，而不是被动地等待最终的结果。这解决了强化学习在复杂任务中最头疼的问题。”

在与这些顶尖专家的交流中，林星石不仅分享了自己的思想，也收获了大量的灵感。无论是皮埃尔教授对mctS的深刻理解，还是斯坦福教授关于注意力机制的超前构想，都让他对天元Go的下一步优化，有了更清晰的方向。

茶歇的后半段时间，他又被一群年轻的研究者和博士生围住。

这些年轻人，虽然在理论深度上可能不及那些成名已久的教授，但他们身处科研和工程的第一线，对很多实现层面的技术细节，有着更加敏锐的嗅觉。

“林总，你们的论文里提到，用了近三百块GpU进行训练。这么大规模的集群，你们是如何进行分布式训练的？模型并行和数据并行具体是怎么做的？”一个来自清大的博士生问道。

林星石笑着回答：“我们自己开发了一套分布式的训练框架。简单来说，就是将一份完整的模型参数保存在中心服务器上，然后将每一盘自我对弈的计算任务，分发给不同的计算节点。每个节点在本地完成一小批次的训练后，将计算出的梯度（gradient）上传给中心服务器，由服务器来更新全局的模型参数。这是一种异步的参数更新策略。”

“异步更新？那不会带来梯度过时（stale gradients）的问题吗？不同节点上传的梯度，是基于不同版本的模型计算出来的，这可能会影响收敛速度和最终效果。”另一位来自**的学生立刻提出了质疑。

“说得好。”林星石赞许地看了他一眼，“所以，我们设计了一套梯度补偿算法。服务器会根据每个节点上传梯度时所携带的模型版本信息，对梯度进行一定的修正，从而减小梯度过时带来的负面影响。同时，我们的实践也发现，在超大规模的训练中，一定程度的梯度噪声，反而有助于模型跳出局部最优，增强了探索性。”

这些关于工程实现的细节讨论，虽然不如理论创新那般激动人心，但却同样充满了智慧的火花。林星石发现，这些年轻一代的研究者，他们的知识结构更加全面，不仅懂算法，也懂系统，对如何将复杂的模型高效地部署在硬件上，有着许多独到的见解。

一天的会议议程，在热烈而充实的交流中很快过去。

当晚，主办方在南都大学附近的一家酒店，为所有特邀嘉宾准备了一场精致的晚宴。

晚宴的氛围比白天要轻松许多。林星石终于有机会，和几位他仰慕已久的，在人工智能伦理和安全领域有着深厚造诣的资深学者坐在一起，深入地聊一聊。

其中一位，是来自牛津大学的尼克·波斯特洛姆教授，他的着作《超级智能》在未来将会成为AI安全领域的奠基之作。

“林，天元Go的出现，让我们看到了强人工智能诞生的曙光，但也让我感到了更深的忧虑。”波斯特洛姆教授的表情严肃，“一个在特定领域超越人类的AI，已经展现出如此强大的力量。那么当一个在所有领域都超越人类的通用人工智能（AGI）出现时，我们该如何确保它与人类的利益保持一致？这就是我一直担心的‘对齐问题（Alignment problem）’。”

另一位来自伯克利大学的教授也附和道：“是的。我们如何向一个远比我们聪明的智能体，去定义和传达人类复杂的价值观？当AI的目标函数与我们的初衷发生哪怕一丝丝的偏离，都可能导致灾难性的后果。就像那个着名的思想实验，一个以‘制造回形针’为终极目标的超级AI，最终可能会为了最高效地制造回形针，而将整个地球的资源都转化成回形针。”

这些讨论，已经超出了纯粹的技术范畴，进入了哲学的领域。

林星石静静地听着，他知道，这些学者提出的，是关乎人类文明未来的终极问题。

“我同意各位前辈的担忧。”林星石放下酒杯，诚恳地说道，“技术的进步，永远是一把双刃剑。天元Go的开源，一方面是为了推动技术的普及，但另一方面，也是希望将AI的未来，交到更多人的手中，而不是被少数几个巨头所垄断。我始终相信，开放和透明，是应对技术风险最好的方式。”

“当全世界的开发者和研究者，都能理解和参与到AI的构建中时，我们就能形成一个强大的社区，共同监督和引导AI的发展方向。我们可以通过制定开源协议、建立伦理规范、开发安全测试工具等方式，为AI的发展，装上‘护栏’和‘刹车’。”

他顿了顿，继续说道：“天元Go只是一个开始。它的成功，证明了我们可以创造出强大的AI。而接下来的挑战，是如何确保我们创造出的AI，是友善的、可控的，并且是真正为全人类服务的。这需要我们技术专家、社会学家、哲学家、以及政府的共同努力。这不仅仅是一个技术问题，更是一个社会问题。”

他的话，让在座的几位学者都陷入了深思。

他们从这个年轻人的身上，看到的不仅仅是卓越的技术才华，更是一种超越年龄的远见和担当。

晚宴在友好而深刻的讨论中结束。

林星石走在南都大学宁静的校园里，晚风拂面，吹散了些许酒意。他的脑海中，却比任何时候都要清晰。

设置

手机

书页

换源

听书

软件教父：从大学社团开始制霸 第258章 南都大学人工智能会议

软件教父：从大学社团开始制霸第258章南都大学人工智能会议