敢问路在何方? 路在脚下!

这是一篇年度总结文章. 回顾了2016年对人工智能进展的理解和思考。 新的一年, 新的开始, 祝大家好运!
今年夏天, 微软的前员工和实习生在Harry的倡导下,终于组织起来,成立了西玛会。 如此标志性的事件,只能用:“不看不知道, 世界真奇妙” 这句话来形容。大家聚在一起才发现, 原来微软研究院的影响力早已渗透进中国计算机相关行业的方方面面。 西玛会已联系到的1千多位会友, 据不完全统计, 包括十几位IEEE/ACM 院士, 几十位大学教授, 上百位创业者, 和若干投资人. 尤其是在最近大火的人工智能领域, 几乎所有的都当红公司,都与微软研究院有各种联系.西码会成立后第一次小聚在创新工场, 当时大约有两百人左右参加. 我也斗胆要求上台讲讲, 于是有了这篇讲稿:AI时代做产品的思路。众人机会不免有各种思想碰撞, 为了把自己的想法记下来, 方便后续总结参考。 就有了这个公号。夏天天气火热, 和同学们交流讨论的也十分热烈。 本来一开始我对人工智能的再次热度是一种围观的态度, 源起是因为当年的工作做图模型学习, 实在是觉得这东西没有大用, 就当了逃兵, 去搞用户体验之类的所谓软科学。  这个过程在AI的未来–深度学习和贝叶斯的进击 里做了小结。 当然去搞用户体验还有另外一层目的, 对单身男青年来说,这个行业男女比例比码农行业强的多。。。

跟同学们一攀谈, 发现不得了, 原来这次真的不一样, 我们似乎快到了门槛了, 要认真对待, 于是就先从宏观角度摸索了一下:AI,VR和人类未来命运的思考。 得出了结论, AI的发展是一种大量获取负墒的过程, 这是一把双刃剑, 如果系统封闭边界, 获取负墒越多, 就越不稳定, 早晚归零(墒的最大化是基本原理)。可能的出路只能是拓展系统边界, 也就是搞宇航, 去火星。 这简直就是一种人生观。 我相信Elon Musk 和霍金都是这么想的。

在搞定核聚变来解决能源问题和找到比当前抛洒物质作为动力的化学发动机(牛顿时代的原理,可叹)更有效的动力来源之前, 搞宇航实在是勉为其难。 所以还是得想办法弄明白人工智能能进展到那一步。 AI到底能不能超过人类智能?

这需要对当前现实有个基本的理解和把握。 而现实是, 人工智能相关的研究, 包括脑科学, 心理学, 计算理论, 复杂系统, 和最火的深度神经网络, 仍然是一盘散沙, 各自为战, 还远未到能够打通任督二脉的时候。 然而这样就能高枕无忧了吗?

人工智能是模仿人的, 研究人整体,早有心理学。 与研究微观生理的脑科学不同, 心理学一开始就是把人当作一个整体来研究的。 因此很多时候,大家都说心理学不是科学, 是玄学。 换一种角度, 从心理学出发, 是一把钥匙,可以加深对人工智能的理解。毕竟要模仿什么,要先给模仿对象一个定义, 而对人的定义, 只有心理学理论里有。 聪明的秘密: 有关大脑开发的洞见大脑是如何工作的?兼谈如何做出类人智能。你的记忆, 就是你吗?智胜先师-人类能做出强AI吗?。 这一系列文章, 都是以此为出发点的一点探讨。 总结下来, 要AI能够真正触及到意识的领域, 需要搞明白的核心是记忆的机制。

此外在下半年, 人工智能界发生了几件大事, 尤其是OPEN AI的成立, 几个主要的大公司试图联合起来, 限制和规范AI的发展。 他们想做的的事情,其实属于伦理学的范畴。 伦理学可以被当作哲学的一部分。哲学的三个主要部分, 认识论, 伦理学, 美学,对应真,善,美。 伦理学是其中的善, 试图让人明辨是非, 什么是善,什么是恶, 来规范行为。 可以想象,这也是最容易引起争论的地方, 因为其实伦理学,人类自己都没有搞清楚。

在思考相关问题的时候, 偶然发现纽约大学哲学系在10月份搞了一次AI 伦理学的研讨会。 几个人工智能的大佬也去了。 翻了翻会议记录, 发现了Stephen Wolfram 的讲稿, 太有启示意义了, 于是全文翻译了一遍:AI 伦理学(By Stephen Wolfram)

Wolfram是真正的大才, 他的计算理论核心观点简直是指路明灯。其核心思对应于深度学习关键点在于: 之前大家抱怨的深度学习不可理解之类的,都其实不是问题。要说深度学习不可理解, 先说什么叫理解。 所谓理解,是要可以建立数学模型去规范描述, 这样就能一步到位, 简化问题,直接得出答案。 而深度学习和一切所谓复杂问题, 之所以复杂, 就是因为不能建立这样的模型。 要预期系统的行为, 我们能做的唯有计算。 注意这里不能建立模型, 是不能建立精确描述系统整体行为的模型, 不是说具体计算机制也不能研究。

如果这样理解, 那么其实人工智能的核心在于两点, 一个是计算能力, 一个是基本计算机制。 要有足够的计算能力, 再搞懂一些基础的计算机制, 就可以搞出类人意识。 之前大家计算能力不足, 无法从整体上研究, 因此才有各种悲观失望。

他的另外一个观点也有启示, AI和人共存, 不是要限制AI, 而是要教会AI美学和伦理学, 这样AI自然而然知道什么是善, 也不存在什么灭绝人类的问题, 我们也不会灭绝黑猩猩。 而AI的伦理学是什么, 我们现在给不出答案。 只能靠历史来演化,来计算。

从计算的角度来理解人工智能, 就豁然开朗了。 下半年还有一件引起热议的事情, 就是朱松莼老师的雄文: 正本清源:初探计算机视觉的三个源头,兼谈人工智能。 朱老师是统计数学出身, 看不惯玩计算的, 一直是想建立系统化模型。 虽然按照计算的理解这条路子可能不太通, 做出来的东西估计不太容易work, 但是双方还是可以互相借鉴的。 视觉计算-理论还是实践? 文章虽然没明说这个问题,但是也包含了一些个人思考。

既然无法建立模型, 高举高打的办法就不太好用了,最近有关神经网络压缩,和泛化能力的一些探讨也触动了一点个人想法: 理解深度学习需要重新思考(深度网络的)泛化能力。 我们知道现在的神经网络学习,非常的不充分,表现在神经网络的参数可以大幅压缩,  如果我们能够找到合适的算法, 获得完全不能压缩的网络参数(据说已经被某同学搞出来了,正在写文章中),那么将大幅提高神经网络的计算效率和准确度。要在这里深入研究, 也许要参考信息论的相关思想, 网络除了参数, 还有结构,信息几何不知能否发挥作用?

而另外一个角度, 为了方便硬件实现, 大家在尝试各种方法对网络参数做简化, 从浮点到8-bit, 从8-bit 到甚至1-bit(Do-re-fa)。 1-bit网络是硬件的革命, 可能也是是智胜GPU的关键。 但是能1-bit,性能还不损失, 正是利用了神经网络本身的大量冗余。 对照前面的讨论, 还真是让人有点为难。 值得深入思考下去。总之, 因为算法的不稳定, 各种嚷嚷做芯片的同学千万要小心。 说不定算法一革新, 硬件设计全是白费功夫。

前面一篇文章还有一个核心推断,就是深度神经网络计算在做的事情某种程度上以记忆, 是靠大量网络参数来记住数据。 这样计算和记忆放在一起,真的不是冯诺依曼结构了。做过用现有架构和思路做深度神经网络硬件实现的同学应当对此有体会。 因为计算和存储的分离, 大家只好拼设计, 怎么充分利用现有的带宽,在架构的时候做好数据流,不要让某个部分成为瓶颈,是重中之重。 现状终将导致新的硬件革命。 Xpoint是个好的尝试, 可惜现实很骨感。 忆阻器也是个好的尝试,   现实更加骨感。 做硬件创新真难! 不要壮志未酬身先死。 现代社会人口爆炸,壮士太多, 不少我一个。

从硬件的胡扯拉回来。 大脑的快乐系统,以及对我们生活的启示 这篇总结脑进展的文章也可以对人工智能研究有所启示。 人可能就是一台自然选择出来的化学计算机器, 大脑也并没有那么特殊。虽然前路漫漫, 朦胧之中仍然能看到一点曙光。

本文结尾,引用周恩来总理的一首诗,雨中岚山,中的几句。 还是在1919年, 大革命的年代, 作为青年学生的周总理留学日本, 将要回国,临行前游览日本的旅游圣地岚山。面对当时中国的各种复杂情况,心有感触, 写下这首诗。 这里摘录几句:

潇潇雨 ,雾蒙浓,

一线阳光穿云出,

愈见娇妍。

人间的万象真理,

愈求愈模糊,

模糊中偶然见着一点光明,

真愈觉娇妍!

2017年, 祝大家更上一层楼!

理解深度学习需要重新思考(深度网络的)泛化能力

临近圣诞,先在这里祝大家圣诞快乐! 圣诞节欧美的同仁们都回家过节与亲人团聚去了, 朋友圈里看到好几个海外生活的华人同胞在晒人去楼空的景象。这个洋节传到中国是完全另一种景象,回家团聚要等春节,于是圣诞节担当起了朋友聚会,各种旅游玩耍的任务。 一个典型的中国式过节“习俗”就是年轻人玩的圣诞节送苹果。据说是因为圣诞节平安夜-平安-苹果的谐音这么联系出来的。而且已经发展到了一到圣诞节前,大学便利店最显眼的位置就会堆满包装精美的小盒子, 大约20-30块钱一个,里面是一只苹果。中国商人的商业嗅觉和想象力真是令人佩服, 这就是创造力啊!说完一堆废话,回来今天的主题, 我们来读一篇google brain的人写的文章, 标题就是本文的题目,作者期望能对深度网络为什么有效做出一点点思考。

写文章也好,做报告也好,核心要义是要在充分把握读者是谁的基础上构思合适的内容。 这样可以比较好的把握内容的深度和趣味。但是我写的文章乱七八糟不聚焦,相信各个层次的读者都有。 因此所谓充分把我读者在我理解就是没法把握。本文基本会按照最容易理解的方式来讲述,特别浅显的解释会写在括号里。 一些有意思的技术点就只好放弃了。 建议有兴趣的读者还是去阅读一下原文。

正式读文章之前再跑一下题。 之前跟我的导师学到过如何读学术论文的秘技。说穿了也不难, 就是先看摘要, 看看文章作者总结的重要贡献,是不是够新够重要。 再看开篇的介绍,主要是看作者是否对学术研究的现状有个适当的把握,再就是研究的问题对不对。 之后看结论,看看文章最后的结果和自己目前在做的事情是不是有关联。 这三步每一步都可以筛掉一些, 走完三步花不了多少时间,但是基本上可以筛掉百分之95以上的文章。 剩下的一些, 可以拿来细读。 这里介绍这篇文章, 就用这种思路。

先看摘要, 作者先提到深度神经网络在训练用的数据(有答案用来学习的)和测试数据(没有答案用来考试的)上的差异令人惊叹的小, 意思是深度网络是个优等生,不论什么都一学就会,而且成绩很好。 用传统思路来解释这种现象(为什么是优等生):要么是模型本身特性好(优质家庭出身好),要么是用到了合适的正则化(不太好简单类比, 可以当做学的时候有个好老师,保证你不会学歪了),二选一。本文做了很多实验, 认为不能这么理解。 我们用当前流行的图像分类任务做了个实验,让深度学习去学随机的类别标记(就是看图分类这种事情, 老师教的是任性随机分类),发现网络一样 学的很好。这种现象就不能用常规的正则化来解释了(老师是胡乱教的,所以其实没有好老师)。甚至我们用随机图像(连题都是胡乱出的)深度网络也能学好。 我们又通过实验来确认这种现象可以用也应该用某种不一样的理论来解释。实验证明,当深度神经网络中的参数数量一旦比要学习数据点个数多,深度网络就有了这种学习能力(原来是个死记硬背的好学生,就靠脑子好, 记忆好, 什么都能记得住)  我们与其它传统模型对比了下(你们不够好, 记性不好,脑容量太小)。

看完摘要,自然会好奇, 啊,真的是这样吗? 就靠死记硬背,那碰上没见过的题为什么也能做的不错? 继续往下看。

介绍:我们知道深度神经网络有很多很多参数(存储的容量), 比训练样本的个数多的多(要学的东西)。深度网络又有很好的泛化能力(没见过的题一样给出正确答案)。传统的模型都不这样(死记硬背的一般没那么灵活聪明啊)。 怎么来解释呢? 统计学习理论提出了各种有关复杂性的度量(可以类比为掌握学习方法), 并且认为通过这些度量能够控制泛化能力(好的学习方法可以让人在死记硬背基础上变的聪明),这些方法包括, VC维数, Rademacher 复杂度,  一致稳定性等. 读者君要是碰到看不顺眼的号称自己是搞机器学习的大师, 就问问他这三个概念, 让他给你解释一下, 要是他说不清楚, 那就是伪大师。 然而这些方法都说,如果参数多,那就一定要做正则化约束(实际上没有做)。要么也可以搞搞early stop(意思是死记硬背的越多,脑子约不灵活, 所以适可而止, 学一部分就算了,糊里糊涂也许碰到没见过反而考得更好 )。到这里的意思是说, 以前的理论都解释不了。

跳过文章下面对实际实验和相关工作的介绍, 要说这个这篇文章就太长啦, 我们直接去看结论。

结论:传统的观点认为机器学习是建立在所谓Parsimony(简约性)的基础上的。 也就是所有学习过程可以被简化为在抽取数据集上的低复杂度模式。而简单粗暴的记忆不被认为是一种有效的学习方式(要聪明的学习, 掌握一般原理,原理都很简单, 不能死记硬背) 。于此同时,全靠死记硬背又是一种解决问题的有效方法(学习好就是记性好)。

本文挑战了这种传统观点。 很多深度神经网络就靠记忆好。记了大量的东西, 就有很好的泛化能力(变聪明了), 那么怎么解释泛化能力(变聪明)呢? 也许是所谓泛化能力(聪明)已经紧密结合在所谓记忆的细节里了。 而传统的理论都没法研究这一点。我们相信,本文是首次探讨这个问题的, 期待今后通过对泛化能力的研究可以对理解网络的学习有所帮助。

文章结论的意思是说, 虽然我们没有给出问题的答案, 但是告诉你们传统的理论解释都行不通, 我们需要找到新的更合适的方法。 一流文章提问题, 二流文章解问题。 以此标准, 这是一篇一流文章。

下面开始作者的胡思乱想。类比人的学习, 从小我们就知道, 聪明的首要因素是记性好, 记性好就聪明。 所以培养小孩, 先培养记忆力。 而培养记忆力的传统方法就是死记硬背多做题 。

还有一个有趣的现象, 就是很多小学,初中的学霸, 一上高中就不行了。 怎么理解呢? 本文给出的启示是, 只靠死记硬背多做题, 基本就可以搞定小学,初中阶段。每个人都具有死记硬背的基本能力, 只要花足够多的时间, 多做练习,严格自律就可以。 而一个人的时间终归是有限的, 要睡觉,要吃饭, 就算剩下的时间都拿来学习也就那么多。 所谓人力终有穷尽,  一到高中,知识量太多,时间有限,死记硬背能够达到的高度就大大的受限了。这些传统的学霸就败下阵来,而聪明脑子,也就是泛化能力强,会举一反三的, 开始制霸学界。

那么怎么培养出聪明脑子呢? 这事就深了, 至少以上这篇文章甚至都还没有触及到这个问题。 我们唯一知道的是,死记硬背多做题仍然有用。 先做好这个再说。

 

 

 

 

酒精对身体的影响-有关喝酒的一般科学

年底了, 少不了聚餐喝酒, 本文简单谈谈当下科学研究对酒精工作机制的理解,供大家喝酒时参考。但也要事先说明,有关人的科学研究通常只是研究共性,基本上不讨论个体差异。除非您是标准人(样本各个维度都是均值),这里的大部分数值相关的结论都未必适用。

与之前说过的咖啡和茶不同, 酒精是一种镇静催眠剂。 可能有人一看到这里就不同意: 明明是喝了酒话多更兴奋, 更激动,怎么还镇静了?还催眠了?其实这是酒精所谓醉酒效应的一种表现: 在喝酒一开始的头半个小时到一个小时, 人会变的轻松和开心, 随后酒精开始排出体外, 这些反应走向反面, 会被镇静(想睡觉)的感觉取代。 而人自身的心理,为了维持之前体会到的轻松开心, 就会多喝。直到正向反应饱和,负向反应占统治地位,人就进入了完全镇静(醉倒)状态。

特别要提出来, 酒和任何一种起催眠和镇静作用的药物同时服用都非常危险。很多人都知道几个著名人物卓别林,玛丽莲梦露(这个也有说法是被人灌的)是酒后服用安眠药自杀的。 主要是镇静效果叠加可能扰乱维系生命的植物神经系统。 另外酒也不能和止痛药,比如布洛芬,阿司匹林之类的同喝,非常伤胃。

接下来,说说酒精进入体内的作用机理。 没有量,讨论作用都是耍流氓。 首先这里给一个标准的酒量, 按照酒精含量的对等作用, 一大杯啤酒(350ml, 大半瓶),一杯葡萄酒(120毫升, 通常是两杯红酒),一杯烈酒(25-30毫升,50度酒, 半两杯一满杯)作为基本单位。

酒精属于小分子, 可以非常快的被人体吸收, 从进入胃开始就能很快进入血液,流遍全身。被胃吸收的酒精占2成,剩下8成是通过肠(小肠)吸收的。所以当胃里有食物, 多吃点东西垫垫,酒精浓度会被稀释,也同时能降低酒精进入肠道的速度, 可以减缓酒精的作用。 酒精在体内会和脂类结合, 因此会在全身导致各种反应,特别是酒精进入大脑会起作用(影响了大脑中的脂类物质)。因此一般来讲,胖子因为脂肪多, 比较能喝。此刻作者缓慢的挪动了一下身躯表示:这是对咱们的安慰奖!(虽然作者因为脂肪太多,医生告诫严禁饮酒)。当然,有利就有弊, 因为跟脂肪的结合,酒精排出体内就比较慢,酒精起作用的时间就长。

因为很快就进入血液循环系统。有进就有出,酒精随后在体内开始代谢。 不少人有开车被警察叔叔拦下要求吹一口的经历,尤其是在年节晚上的闹市区(警察叔叔知道怎么做能抓到最多)。因为酒精从肺部代谢的比例非常稳定,所以呼气中的酒精含量可以相当准确的对应体内的酒精含量。这是呼气测醉酒的基本科学原理。 实际上,大部分酒精(>95%)还是靠肝来代谢。具体过程是,某种酶先把酒精转换成乙醛,然后再变成乙酸(醋的成份),最后排出体外。 中间产物乙醛是有毒的, 一旦在体内积累,就会引起严重不适,主要表现就是恶心想吐。尤其是代谢能力相对较弱的人,表现的会特别明显。

一个成年人,酒精排出体外的速度标准是:对应啤酒,红酒,白酒前面提到的那个标准量,通常要一个小时代谢。超过代谢速度喝酒,不良物质在体内累积, 就会有各种不良反应。 但是因为酒精的刺激,代谢的酶在体内会累积,这样代谢的速度随着喝酒的过程可以有一点点提高。 所以如果不想醉酒, 一开始要喝的慢一点, 不要太猛。

下面再详细说说酒精对脑的影响。所谓成也萧何,败也萧何。让人最喜欢,最上瘾的东西都是直接作用于大脑的。 也会对大脑产生负面效果。酒精也不例外。

如果一个标准人,以标准速度,一个小时一个标准量来喝酒,酒精的代谢大致是平衡的, 你体验的是相对比较好的一面, 愉悦,健谈,自我夸耀。负面效应是会部分损失判断力,和反应时间。一喝酒就不能开车是有道理的。

现在假设喝酒速度快2-3倍,因为来不及代谢,酒精和乙醛都在体内累积,人就开始有很大反应。人会身体摇晃,口齿不清,恶心想吐(其实吐是体内中毒的应激反应,一种保护机制,试图直接把吃到的坏东西吐掉)。 这就是喝醉了。

速度再加一倍,酒精开始影响底层神经,会有体温不稳定(过低,过高),感官麻木,直至昏迷。条件反射都开始慢慢消失。速度再增加,影响到心跳呼吸人就直接挂了。喝酒太猛,喝挂掉的也有。通常都是因为某种莫名其妙的事情杠上了,两个人拼酒,拿着瓶子对嘴吹。斗狠逞勇,牺牲在眼前!

开篇就说过,酒精是一种镇静剂,因为会和脂类特别是脑部的某些神经递质结合,降低这些物质的活性。那为什么喝酒还会感到兴奋? 科学的回答是还不清楚。实际上可以猜测因为大脑是有正向兴奋,反向抑制两类不同神经递质所维系的一个动态平衡系统。酒精肯定会影响这个平衡。至于往那一边摆动,就算先是正向,也终将会摆回来。所以喝个不停的人,就算一开始兴奋了,能说能唱,永远只有一种结局,醉倒在地!

另外需要特别指明, 喝酒会刺激大脑释放多巴胺,之前一篇文章说过多巴胺刺激欲望。因此喝酒的人欲望会更强烈。又因为同等的刺激会自动消退,尝到了欲望的甜头之后,为了保持这种状态,人会自动喝的更多。同时,很多神经递质在记忆形成中起到关键作用。酒精的抑制作用可能会导致失忆。大部分喝醉酒的人都有完全不记得喝酒的时候自己说了什么之类的感受,就是这个道理。

醉酒之后的第二天头疼难受,是喝酒的人最不愿意想象的事情。为什么会这样, 医学目前没有给出解释。 我们可以按照脑工作的一般原理把这个想象成一种保护机制,正是以这种难受状态的警告来对抗更多多巴胺的诱惑,让人建立起不愿醉酒的心理防线。注意这种状态下不要随便吃各种止痛药,作用不大还会伤胃。一些加速代谢的食物饮品可能有点作用,比如喝一杯咖啡,帮助你拉肚子,把酒精快速排出去。

讨论完酒精对大脑的作用,多说两句有关耐受性,就是酒量。所谓能喝不能喝,实际上说的就是酒精的耐受性。能喝的人,酒精对身体的刺激不明显,不太容易进入醉酒的状态,当然也要更大的剂量才能兴奋。 这种耐受性,可以通过不断刺激大脑来产生。也就是酒量是可以练出来的。 但是也有限度,大幅超量真的会死!前面讨论过,胖子相对可能比较能喝。 有些人因为遗传关系,体内缺少代谢乙醛的酶,就很不能喝,喝一点点就醉。女性吸收酒精相对比男性更好,大约胜出30%。因此也更容易醉酒。最后,能喝的人,一方面是耐受性好,另一方面酒精在体内停留的时间也长,所以其实受到的负面影响更大,比如更加伤害肝脏。所以有特别技能也不能滥用。

最后说说所谓酒后助性,酒后乱性。之前提到的多巴胺效应,酒精确实可以提升欲望。但是又因为酒精的实质上的抑制作用,酒精其实会降低能力, 和相应的快乐感受。欲求不满,就是痛苦。 所以试图以喝酒来助性的人,都将品尝失败的苦果。 这些人不明白为什么, 还不能跟人说,也是一种苦恼。

全文结束时,再重复一遍开篇的观点,以上有关具体量的讨论都是针对整体平均,因为个体的极大差异,请不要对号入座。只是提供一些一般的指导原则。

酒出现几乎伴随了人类整个文明史,在中东地区有大约六千年前的酒厂遗址。另一方面,据中国专家的研究(没错, 是中国!),少量喝酒有助于降低心血管类疾病的发病率,降低中年男人心脏病,或者中风的风险。所以适度饮酒有益健康(也许)。所谓适度,应该少于前面的标准量, 半瓶啤酒或者一杯红酒或者一小杯白酒为限(数值仅供参考),还要限制喝酒的速度,慢慢享用!

(全文完)

 

 

 

 

 

大脑的快乐系统,以及对我们生活的启示

今天我们聊聊脑科学。 学AI的人总想着类比大脑, 但实际上目前所做作为离大脑的工作机制相去甚远。我们也一直试图理解大脑是怎么工作的, 搞明白大脑的工作机制是相关专业的所有学人的梦想。 但话虽如此, 目前的科学进展仍然是刚刚起步。 我们到底走到那里了, 有两种看法。看法1:假如把大脑的工作机制比作大海, 我们目前只是在海边拾贝壳的小孩子, 捡到了被大海的波浪推上沙滩的几片小小的贝壳。 看法2:我们已经造出了蛟龙号,正在尝试下潜试图看到大海最深处, 虽然完全了解大海的概貌仍然不太可能, 但是大海的内容按照深度分了层级, 每层都一样, 只要我们能看到最深处是什么, 并且了解之上的每一层是什么, 就能了解大海的行为。 以上两种说法,读者君你信那一种? 以下是正文。

按照阅读文章我肤浅的理解, 研究大脑工作大概是分为两种路数, 一种是从底层玩弄单个神经元, 微观细节, 电化学机制, 看看神经细胞之间的活跃机制和信号是怎么传递的。 另外一种是从宏观角度, 研究大脑的分区功能。相对应的我们大致有以下研究手段, 比如可以在自由运动的小老鼠身上研究单个神经突触的信号, 也可以用所谓的无损方法高清晰核磁共振脑成像, 看看大脑的血氧浓度, 什么区域被激活。当然还有脑电, 这个就更笼统了。

但是现在手段的局限性在那里呢?跟某同学(感谢陈大师)交流时他说, 先不说老鼠, 斑马鱼这种简单生物, 神经单脉冲信号是ms量级,而具体到每个基本计算突触大概是100-1微米的尺度 。而发生记忆和学习机制导致的变化以天计算, 斑马鱼一共有10万个神经元。 以上时空尺度横跨7个数量级, 更不要说小鼠的脑神经是斑马鱼的一万倍。所以研究单个神经突触信号的同学一定不觉得自己可以搞明白大脑的工作机制。

另一方面, 所谓无损脑核磁共振成像, 现在最高分辨率的高清晰成像一个像素代表着8万个神经元, 100万个突触。而且既然是成像, 时间分辨率也惨不忍睹。  这好比是戴着老花镜, 研究远在几千公里之外的一只蜂鸟翅膀的震动。所以研究脑神经生理的同学也一定在吐槽, 觉得自己可能这辈子也不能搞明白。

所以这些脑科学的真正专家学者实际上都很谦卑, 他们大多持有本文一开始举例的第一种观点, 就是我们还差的太远太远。而作者表示因为自己是外行,所以无知者无畏。 作者持有的是第二种观点, 有生之年就能看清楚。 为什么呢? 之前的文章谈及计算时,提及到计算复杂性概念, 非常简单的规则通过计算就会产生无比复杂的结果。但正是因为计算复杂性的存在,这种计算无法通过建立模型来简化。你只能通过演算来模拟。 在没有足够的计算能力之前, 一切努力都是白费。 所以很多事情看上去毫无可能。 现在计算能力强大了, 我们开始看到一些效果,比如说深度神经网络。 当计算能力足够强大时, 也许就能揭开谜底找到答案。

请远离以上胡言乱语,我们来看看脑科学研究的最新进展,也许对AI研究也有一点点启示。 以下内容主要参考了2015年neuron上的一篇综述文章 Pleasure systems in the brain(大脑中的愉悦系统)。

大家都知道, 人生中快乐很重要。有一种哲学叫享乐主义(Hedonism)又叫伊壁鸠鲁主义(Epicureanism)。hedonism这个词甚至在现代脑科学里被引申为让大脑体会到快乐的神经回路。

有关这个享乐主义, 最有名的一个段子是 :有一位叫做第欧根尼的学者, 平时就是住在一个桶里, 被周围的人当作狗。 而史上最伟大的统治者之一亚历山大大帝巡游帝国时,遇到了正躺着晒太阳的第欧根尼,这位世界之王上前自我介绍:“我是大帝亚历山大。” 学者依然躺着,也自报家门:“我是狗儿第欧根尼。” 于是大帝肃然起敬,问:“我有什么可以为先生效劳的吗?”哲学家的回答是:“有的,就是——不要挡住我的阳光。” 据说亚历山大事后感叹道:“如果我不是亚历山大,我就愿意做第欧根尼。”。 这个故事虽然有名, 但是不管你信不信, 反正我是不信。 这是学者们喜欢给自己脸上贴金。

抛开纯粹的享乐主义不谈, 快乐仍然是很重要的。略微懂一点脑科学,心理学等等的人都知道多巴胺, 在现有的教科书里面都会写到, 多巴胺作为传递神经信号的物质,主要作用于大脑的快乐系统。因此能引起快乐。 而一些化学结构上模仿多巴胺的物质, 比如说著名的冰毒, 能够取代多巴胺刺激大脑的功能,带来极其强烈的刺激, 因此冰毒是毒品中最可怕的一种。 一旦染上,基本无解。

而neuron的文章总结说, 以上说法是非常片面的。 大脑真正的快乐机制不是这样。 大脑中引发快乐感受的神经回路主要有三种, 一种我们知道的最多的是多巴胺起作用的大脑皮缘层的A部位(抱歉一些专有名词就不翻译了, 都是特指大脑的某一块区域某种结构,对外人来说如同天书,也没有了解的必要,以下都以字母为代号)。这一块的主要作用,是刺激人想做某事(want),是想要, 是欲望。 欲望很重要, 没有欲望,人自然就各种消极, 什么都不想做。 但是欲望不是真正的快乐。

第二种回路,用所谓享乐主义的衍生词指代的神经系统B, 主导的真正的快乐, 快乐是一个满足的过程。 拿吃东西来举例, 突然想吃某种东西是欲望, 大脑的A系统起作用。 真正吃到了东西, 吃的过程是一种享受, 是真正的快乐, B系统在起作用。 但是B系统本身的效用是递减的, 好吃的吃好几遍就不那么好吃了, 入芝兰之室久而不闻其香。 再好的东西, 熟悉了就会腻味。都跟这个相关。

第三种回路, 是跟学习相关的, 称为C。 大脑是一个模式机器, 不断的在预测, 尝试匹配, 试图建立某种模式。 也就是学习的过程, 这个过程是苦的, 但是模式建立的一刻,也就是学会了, 是快乐的。有人说科学发现的一刻,是人类能够体验到的最大的高潮, 就是学习有所成就所能给予的极致奖赏。

这三种机制,都可以和生存竞争联系起来。可以说是自然选择的结果,详细讨论可以另写一篇,这里就不展开解释了。

有A欲望,B享受, C学习这三种划分, 就可以扩展开来理解很多现象。比如很多毒品因为刺激的是A欲望, 而没有B享受的过程, 所以并不是真正的快乐, 只是欲望让人欲罢不能。 一旦撤掉毒品, 副作用就是极大的折磨。 英文里有个专有名词坦塔罗斯就是指这个。

坦塔罗斯是希腊神话里的宙斯之子, 因为无法无天的各种恶行,得罪了众神,被打入地狱。 他站在一池水中间,波浪就在他的下巴下翻滚。可是只能忍受干渴,永远喝不上一滴。他只要一低头,水位就会下降,永远保持在他下巴的位置。同时他又饥饿难忍。在他身旁就是一排果树,结满了累累果实,吊在他的额前。他只能看着,一伸手大风就会把树枝吹向空中。欲望永远得不到满足。

佛家因此而说, 认识到了欲望是万恶之源。为此开出的药方是屏蔽一切欲望。然而按照大脑的机制, 没有A,  也就没有B,得不到事实上的满足。  这样的心态是脆弱的, 非常经不起诱惑。

有欲望,就去实践满足是一种实用主义的态度, 享乐主义就是其中之一。 很多人生哲学就停留在这里, 认为人生需要追逐快乐, 把自己保持在B状态里。 然而按照前述B的机制, 重复的东西不能带来同样的B享受, 必需时常换新。 因此追求B状态的保持很难, 需要极大的物质资源支持, 而且经常会腻。对一些富人贵人来说,  当一切的传统刺激都不起作用了, 就会胡作非为。

只有C学习,可以贯穿一生。 因此不断的学习, 特别是在艰苦的学习之后,因为技能的习得获得一点小小的但是真正的快乐,可以鼓励你继续走下去。学无止境,可以伴随一生。 这样的才是对以上大脑机制理解之后,推断出的正确人生态度。

掌握这样的理论,犹如掌握一把大锤,可以用来解决人生的各种疑难, 比如什么是真正的婚姻,如何让爱情永恒。 爱一开始是一种欲望A, 然后是互相拥有B, 这个阶段因为是真正的享受, 非常的快乐, 然而随后大脑的享受平衡机制开始起作用, 时间久了就腻,就有人开始追逐别的新鲜刺激。靠享受不能相伴一生。 唯有学习C, 互相学习,互相欣赏,共同提高,才是真正的人生良伴。 才是最高质量的婚姻生活。 比如杨绛,钱钟书,钱写的书,杨是第一个读者,并能给出很好的修改建议。两人互为精神伴侣,成为大家学习的榜样。 可以轻松举出无数的例证来证明这种观点。

电影阿甘正传里, 有一段时间因为女友不告而别的刺激, 阿甘开始横穿美国的跑步,其实他漫无目的, 因为跑都够久,就引来了很多追随者。他们觉得跑步本身也许就是一种人生意义。而当阿甘突然不跑了, 一众追随者都不知道该怎么办,问阿甘,我们下面该做什么。 阿甘也给不出什么建议。 而读完本文的诸位,都可以轻松给出建议, 去学习!

人类一思考,上帝就发笑!

(全文完)

2016年就要过去了, 我们终将怀念她

虽然已经是年底了,又起了这样一个标题, 这一篇并不是年终总结, 毕竟2016还有大半个月。 这一篇主要想聊聊政治,经济大局, 也就是所谓宏大叙事。按照定义,宏大叙事是一种无所不包,连贯统一的东西。 其中内含了人类历史是符合因果律, 有始有终的理想构架的思想。 其内容是从现在出发,描绘未来,一直到人类历史的终局。正因如此, 宏大叙事现在是个贬义词, 因为过去曾有过的试图描绘终局的宏大叙事都被变幻多端的现实击的粉碎, 不管是共产主义还是福山的民主历史终结论。因此我们不谈终局, 就说一点小小的预期。

我们小时候学的政治课, 其实给大家提供了很多思想武器, 其中内容大多是人类思想的精粹。 但是以小孩子的理解能力, 弄懂其中的真实涵义实在是勉为其难。 因此政治课对大部分人都是儿时最讨厌的一门课。可无论如何, 就算你小时候能逃课, 也逃不掉考试, 这些东西都得背过。 一个人经历过历史就会在自己身上落下抹不掉的烙印。 所以讨论政治经济的宏大叙事, 脑子里自动出现一句话: 经济基础决定上层建筑(政治), 上层建筑对经济发展有反作用力。 这里就先从经济说起。

2016年的经济总体是一团乱麻, 从世界角度上讲, 全球经济复苏迟迟未来, 美国人靠玩弄数字又混过一年; 日本人继续借债, 透支未来;  欧洲更是一片内乱, 上半年先有英国脱欧,下半年各国都在讨论怎么对付刚刚放进来的新移民。主要发达国家如此, 做为资源提供方的资源国家和人力资源国家和其余失败国家当然也好不到哪里去。 中国经济因为体量已经大到自成体系了, 所以日子虽然也不好过, 相比之下,已经算全球最好的之一了。 这一年政府一直在去产能,谈经济转型。 上半年房地产小高潮, 下半年大宗商品小行情, 是死灰复燃,还是下一波大跃进? 以下分别简述。

先说房地产, 中国的房地产经常被当做替罪羊。 媒体动不动就嚷嚷房地产绑架中国经济, 其实他们是狗屁不通。 人的基本需求, 衣,食,住,行, 衣和食都是可以再生的。 行的一半,各种车船和飞机也是可以再生的。 行的另一半:路, 和住的房子都是不可再生的, 因为其中依托的土地是不可再生的。 被称之为能够自动升值的资产。我们祖先的传统智慧也说:只有土地才是真正的财富。 所以各国经济必然依托于房地产, 房地产也一定要大力发展, 需要批判的只是不能过渡泡沫, 长成癌症挤占其他资源。

房地产上半年抬头,被打压下去了, 目前是回落低潮期。 明年会怎样? 知乎上君临团队最近有一片文章:“前瞻2017,中国经济绝地反攻” 其中有个说法很有意思。 看看中国的人口, 从1987年出生人口高峰(2800万),到1999年人口出生低谷(1100万),  新生人口一直在减少, 特别是1991年(2000万)比1990年(2600万)足足少了有600万, 可以称得上是断崖式下跌。 而10年之后, 正是90年代出生人口毕业找工作, 开始买房结婚提供主力消费的年代。 这种人口断崖式下跌导致了整体消费能力的各种不景气。 到了2017年, 1991年的出生人口26岁,中国人买房的平均年龄是27岁,所以房地产商还要继续苦一年, 2017年是最苦的一年。 文章的思路是对的, 但是数字预期有点勉强, 2017年也许是最苦的一年, 但是2018年可能更苦, 因为毕竟出生人口还在下跌啊, 也许要到2019年,20220年, 00后上场, 房地产才有新的春风。

房地产决定了资产基础价格。 第二个是路, 前面说过路因为土地属性也是一种独占资源。 现在中国的高铁成网, 高速公路已经修的差不多的, 下一波大修特修的是城市轨道交通。 按照各个城市的规划, 很快全世界轨道交通里程最长的城市里, 基本就是中国的城市了。外加东京,纽约,巴黎,伦敦,一个主要发达国家一个大都市。 主要的投资资产增长模式,也许要围绕轨道交通来做。

资产谈完, 说说工业和产业升级。 工业4.0是目前最热的概念, 但实际上是个伪概念, 中国先玩工业3.0也就是工业自动化吧(YH.Xu 语录),路漫漫!  工业自动化需要AI,是本专业创业的用武之地。 而所谓产业升级, 抛开工业自动化这一块, 实际上是从实体产业, 升级成虚拟产业。文化类产品, 还有虚拟现实, 都是用来供人民丰富精神生活的。 大有想象空间。 这里也不展开了。

经济最后要说的是金融。 金融是经济的皇冠。 可惜我对金融是狗屁不通。大概知道金融是最带全球化属性的, 资本家不想翻墙。 所以搞金融的最不喜欢墙, 哪怕现实中墙是确实存在的。希望金融资本家们能多学一点点政治, 不要动不动就讲自由, 自由是金钱的自由, 我们都懂。你们其实也早就懂。要自我节制, 这样对大家都有好处。 中国的金融总体还很落后, 很弱小, 其实大家对墙也是又爱又恨。既然弱小就可以大发展, 要好自为之。

最后总结一下, 08年泡泡吹破了导致金融危机之后, 各种经济危机其实一直没过去。 要过去, 按传统的做法必须打仗, 消灭过剩产能。 但是现在因为核威慑, 不能打全球大战了, 怎么消灭过剩产能还不太清楚。所以危机就这么一直拖着。 有人吓唬大家说马上就要二次危机。不用怕!其实一直在危机, 虱子多了不痒。那么怎么消灭过剩产能? 除了中国这样愿意自我牺牲的, 还要有更多人牺牲。 希望某些地区的人民会起来砸工厂, 砸机器。 这样避免了打仗, 善之善哉也。 真虚伪, 我呸!

经济说完,就可以说政治了。既然经济基调已定, 没有看到什么出路, 大家就得继续比烂, 看谁先烂。 各国人民比拼耐力, 耐力不好的先乱, 牺牲小我, 拯救大家。 2017年是关键一年, 美国,英国新的大统领上台, 欧洲主要国家领导人都要换一轮了。 我们拭目以待。 2017年中国要召开19大,又将是继往开来的一届胜利的大会。体制优越性在此关头显得如此亮眼。 不禁让人竖起大拇指夸赞一下。

再说说美国大统领上台导致的地缘政治变化。 因为美国大统领不按常理出牌,学习元首那一套, 日,韩,台湾变数, 中国周边不会太平。但是元首那一套也没什么新鲜新,无非是试探加疯狂。 台湾早已没有那么重要,只要在疯狂的开始以疯狂回击,应该也不会热战。 看上去更大影响的是美俄可能联手。中美俄三方, 俄罗斯的倒向还挺关键。 不过我们国运昌盛, 局座早已一切尽在掌握中。

写到这里,觉得日子过得真快, 又是五年。庸庸碌碌, 无所作为。饱食而终日游,泛若不系之舟。 还是得修身齐家, 格物致知, 自勉!

(全文完)

 

 

有关AI的一点随想

今天的文章没有主题, 想到什么写什么

这两天业余时间翻完了一本讲古典音乐的书, 叫”乐之本事”. 强烈建议古典音乐爱好者阅读, 如果对古典音乐有兴趣也可以翻翻, 原书作者说他是写给爱好者的入门书, 其实他高看了爱好者的基础知识水平. 也许是想说的东西太多, 用了很多专业名词, 说起用户体验, 对初学者并不那么友好(职业病犯了).  但是读过总比没看好, 帮着做个广告.

其实原书中说的最多的还是审美, 不光是音乐, 所有的艺术, 甚至人生的意义. 归根结底是美学. 所谓艺术的科学是美学, 科学的科学是哲学. 其实美学和哲学是相辅相成的, 二者合一, 就是道.

谈及美学, 绕不开的就是李泽厚先生的美学三书, 这本来是三本书, 美的历程, 华夏美学, 美学四讲.  三本书各种版本不知出了多少, 也有就叫美学三书的合计版本. 美学也罢, 哲学也罢, 琢磨起来都费劲, 因此这类书一般都小众. 能出这么多版本, 已经是超出想象的影响力了. 也就是所谓绕不开的理由.

但是个人看法, 美学三书终归只是入门读物级别的东西, 要想深入体会, 还是得到西方的经典著作里去找. 中国人的传统美学, 李泽厚先生讲了很多很多, 但是不透, 最后还是得看金刚经,道德经和易经. 玄之又玄, 众妙之门, 太高, 一般人可能也够不着. 阳春白雪,应者寥寥. 高手寂寞, 又想布道,  真的是很矛盾啊.

李泽厚先生在建国后和朱光潜, 蔡仪,有一场著名的美学论战, 本来美学可以有很多种, 但是最后无产阶级革命美学总要胜出, 所以这个嘴仗要打. 打起仗来情绪激动, 就会超水平发挥, 为了争取围观群众支持, 也会说的比较直白. 强烈建议好奇的群众翻出史料去围观一下.

说了一大通, 没有半句AI,  不是关于AI的随想么? 所谓随想, 就是这样的啊.

其实本文是想说, 因为美学和哲学最高, 可以说是人类最上等的知识和成就. 要想做出类人AI, 不能只在工程里打转, 一定要搞懂美学和哲学.

继续跑题. 乐之本事这本书里谈到对音乐的审美, 因为音乐本身是个序列, 不像画或者图像一样能让人一开始就人掌控全局. 音乐一开场你并不知道接下来会听到什么, 在听的过程中, 一般人的的工作记忆容量也有限, 听到后面, 前面的也许就忘了, 没有一个全局的上下文可以依托. 因此音乐的主题都要反复重复,  从信息论的角度看,有大量的冗余信息. 即使这样, 仍然表现力有限, 存在信息量不够的大问题, 所以古典音乐发展到后期, 主流越来越依重唱, 贝多芬的第九交响曲, 最后是大合唱, 而我们耳熟能详的音乐, 大多都来自歌剧.  因为结合文字, 信息量才能更多.

创作, 可以认为是作者和读/听/观者之间一个传达信息的过程. 作品就是要传达信息的媒介和载体. 音乐又是一个非常特殊的例子, 完整的传递信息, 需要作曲的人和演奏的人合作来提供, 通常是各占一半, 作曲的人需要把自己的丰富感受压缩在乐谱上. 演奏的人虽然自由些, 但是仍然受限于手中乐器的表现力 (钢琴因为表现力最强, 被成为乐器之王) . 所以就算作曲者和演奏者都尽力了, 仍然不能提供完整的信息, 还有很大一部分需要脑补. 这就是为什么欣赏古典音乐需要一个学习的过程. 当然, 不学也能欣赏到一部分, 有人天生就敏感, 能自通乐理, 但是大部分人需要训练.

音乐/美术/文学这些东西, 归根结底都是大脑的安慰剂. 大脑天生喜欢探寻模式, 通过观察模式, 结合自身的记忆, 如果能总结出所谓规律, 大脑就会兴奋.   寻找规律的极致是就是所谓借此体悟到人生的道理.  从信息量角度上讲, 音乐,美术, 文学依次扩大. 但是从悟道的角度上讲, 听到音乐有所触动,最有可能悟, 美术次之, 读完一本小说悟道的最少. 因为压缩后的信息才是最精华的部分.

那么人生的道理又是什么的,  能让大脑愉悦的是两类东西, 一类是以多巴胺为代表的兴奋剂. 正向刺激, 高潮体验. 一类是以内啡肽为代表的安慰剂. 在经历过痛苦不适后的反向刺激, 对应的是舒适.  两类典型的毒品, 冰毒是正向刺激, 兴奋狂躁, 极端的会去吃人咬人. 海洛因和鸦片是反向刺激, 舒坦,昏昏欲睡. 两者都会上瘾, 前者比后者更可怕. 辣椒和跑步的上瘾是后面一种. 换个控制论的角度, 一个是正反馈, 一个是负反馈.

从系统论的角度, 管理一个系统的终极奥义, 是用负反馈约束正反馈, 没有适当的正反馈, 就是死水一滩. 没有负反馈约束, 系统不够稳定, 早晚就爆掉了.  那些管理公司的真正高手都懂这个道理. 大脑也是这么管理的. 所有的复杂系统,都是这么管理的, 才能生机勃勃, 又存在秩序.

BTW, 说AI说的太少? 我全文都在说AI. 就喜欢故弄玄虚

暂时就想到这么多,  谢谢观赏.

AI 伦理学(By stephen wolfram)

本文是Wolfram/Mathematics 的创始人和总裁Stephen Wolfram 于今年10月14日-15日在纽约大学哲学系,脑,意识和认知研究中心举办的人工智能伦理学会议(Lecun, Russell等人有出席)上的讲话. 因为其中包含非常深刻的思想, 因此本着科学共享的精神在这里翻译传播, 尚未征得作者的允许(已经发出邮件,未收到回复). 原文链接在: http://blog.stephenwolfram.com/2016/10/a-short-talk-on-ai-ethics/.

简单介绍一下Stephen Wolfram, 此君的各种作为只能用神奇来形容, 早在个人电脑刚刚出现的80年代初期, 大家还在用命令行, 此人就搞出了一个能够做符号运算, 搞定因式分解,求导和积分等等公式推导的神奇软件Mathematics. 其后趁着互联网热潮又做了一个知识图谱的网站wolfram alpha, 号称要收集并且结构化人类的客观知识,苹果的siri回答知识相关的问题就用的这个网站. 在2002年此君写了一本1000多页的大书, 一种新科学, 试图从计算的角度解释世界(跟本文的思路一脉相承). 对错姑且不论(个人对纯数学哲学不是很感冒), 这份情怀是世间少有. 此君的核心思想是, 从简单模式中通过计算演化出来了复杂性, 而包括现实世界复杂性的所有复杂性都等价.  同时正是因为计算演化出来的复杂, 并不能跳过运算过程直接预测结果, 内含的哲学思想是,  虽然复杂性等价, 但现实因为计算演化的不同而不同.  也即一切都是历史, 历史成就当下, 未来不可预期.  这是一种透过现象看本质的思路, 值得更多思考. 括号内为翻译原文时帮助理解所加.

_________________历史感的分割线_________________________

谢邀!

要知道, 我出现在这里(纽约大学哲学系)本身就很有意思. 我妈妈是牛津大学的哲学教授, 所以我从小就下决心不讲或者研究有关哲学的任何东西(不知小时候受到什么压迫). 但是这次我来了.

在具体讨论AI之前, 我先谈谈自己的世界观. 我的人生基本上是在研究基础科学和开发工程技术之间摇摆. 自打有记忆起, 我就对人工智能产生了兴趣. 但我从孩提时代开始研究的却是物理和宇宙学(要跪!).之后我又搞了能够自动化数学计算的技术. 这件事情做的非常成功, 因此我开始思考是否可以面向所有事物提出理解和计算一切的理论. 大约是1980年我开始琢磨如何建造象大脑一样的东西, 因此研究了一点神经网络, 但不是太深入.

就在同时, 我又对科学中也许更大的问题产生了兴趣: 如何得到有关一切的普遍理论. 近代300年来占统治地位的思路是用数学和方程来描述. 但是我想在此之上走的更远. 我意识到这个更大的问题原来可以用类似程序的思路, 来考虑计算宇宙的全部可能程序.

Cellular automata grid

这导致了我个人的伽利略时刻(伽利略通过望远镜观察宇宙做出了伟大发现)出现, 我通过制造我的程序望远镜, 一些简单的计算程序, 其中之一规则30 能够从无到有制造出永不可穷尽的复杂.

Rule 30

(简单解释一下这两张图, Stephen 所谓的简单计算程序, 是从一个方块开始, 两种颜色表示0/1状态, 下一行的方块是0还是1, 根据上一行最相邻的3个方块来决定, 这样只要有一共2的三次方全部8种可能的组合规则.就可以无限计算下去, 第一张图是不同规则得到的计算结果(思考题, 一共有多少种不同规则?), 可见大部分规则都没有演化出复杂图案, 有一些非常简单, 稍复杂一点有类似分形的, 而其中用30号规则计算出现的图案就是上图, 是Stephen最喜欢的, 宣称是自己毕生最伟大的发现)

当我看到规则30时, 我意识到某种在计算宇宙–或者包括所有自然世界中普遍存在的东西出现. 这是令我们看到的现实世界如此复杂的真正秘密.  同时也是一扇窗户呈现出原始(Raw),无约束计算的模样. 而我们传统意义上在工程中使用的计算都是足够简单也可以预期行为的.

当我们真正跳进计算宇宙中, 所遇到的事物会更加宽广. 我的公司做了非常多的研究, 发现类似程序可以用于多种不同目的, 比如规则30可以用来产生随机数. 而现代机器学习也是对与传统工程方法不同且范围更加自由的计算模式的探索.

对一般意义上的计算宇宙我们能说什么? 好, 考虑所有的这类程序都在做计算, 我多年前就发现了我称之为计算等价性的原理– 具体是说, 如果某个计算明显不是简单的, 它通常就会对应于某种最大化复杂性的计算. (不是简单, 就是复杂, 简单可以不同, 但是所有的复杂都同样复杂)  基于这个原理可以做出非常多的推断. 比如计算宇宙是普适的, 也应当是不可预期的, 也就是我称之为计算不可规约性(computational irreducibly).

(这一段有点绕口, 简单解释两句, Stephen认为计算可以分为简单的和复杂的, 传统意义上都是简单的, 用公式来算, 而真正的现实世界的是所谓复杂的, 没有公式, 不能提前预判, 只能通过计算来一步一步算出来, 而且所有的复杂计算复杂性都相当, 都是极端复杂 🙂 )

An example of cellular automata

(见上图的结果) 你可以预期接下来会发生什么吗? 它或许就是计算不可规约的, 你不能提前判断发生什么(不存在简单规律和模式), 只能通过一步一步的计算过程来推导. 整个结果虽然都是确定性的, 但是某种意义上确实自由的, 因为(不通过每一步的计算)你并不能预期(某个特定未来时刻)会发生什么.

现在我们来谈另外一件事情, 什么是智能? 我的大一统原理说, 一切都是从微小的程序(规则)计算而来的. 我们的大脑也是可以被计算等价的. 在智能和大多数计算之间并没有明确的界限(Really?).  天气本身没有脑子. 但是天气变化所涉及到的计算并不比大脑更简单, 虽然对我们来说, 两者的计算非常不同. 因为天气的计算与人的目标和经验没有任何关联, 只是自己在演化自己的原始(Raw)计算.

如何来驯服计算呢? 我们必须把它和我们的目标融合起来. 而第一步就是描述我们的目标是什么. 过去30年我就是在做这样一件事情!

我建构了一种语言–称之为Wolfram语言- 用来表达我们要做什么.  这是一种计算机语言. 但是和其它计算机语言都不同. 因为它并不是用来告诉计算机每步做什么, 而是用来建构有关计算和世界的知识. 这样只要人类用我们的方式描述我们的目标(想干什么), 这个语言可以让实现目标所需的其他一切都尽可能的自动化.

其中的基本思想, 从mathematics这些年不断的发现和进展中来, 工作的非常好.  它同时也是Wolfram/Alpha(网站)的内核, 在那里(网站)处理纯自然语言问题, 理解问题, 并用关于我们文明(好大帽子)的某种精心组织好的知识和算法来回答问题. 而且, 同时, 它是非常典型的人工智能事物. 因为我们回答了十亿级别的用户提出的数以十亿计的问题.

我最近有个有趣的经历, 关于如何用我们的技术来教会孩子计算性思维. 我在给一本书写习题, 起初的题很简单, 类似”如何编程实现X”, 随后的问题开始复杂, 我知道怎么用Wolfram 语言来描述, 但是不知道怎么用英文来说. 当然这就说明了我们为什么要花30年来构建Wolfram语言(这广告做的…) .

英文包括大约两万五千个通用词汇, 而Wolfram 语言现在有大约五千条经过精心设计的基本构件(Built-in construct)–包括所有最近的机器学习进展– 以及描述了百万级不同的基于精心组织的数据的事物. 其中的思路是任何一个计算世界中的事物, 都应当可以很容易的用Wolfram 语言来描述. 最酷的是, 这真的有用. 人类, 包括孩子都可以用这种语言来读写, 计算机也一样可以. 这是某种高层次的桥梁, 用来连接计算和人类在自己文化上下文中的思考.

好, 那么关于AI呢? 技术通常是对已存在事物的发现, 并驯服事物自动达成人类的目标. AI 中我们驯服的是计算宇宙中的事物. 现在, 我们身边就有非常多可见的原始(Raw)计算. 因为自然界中这样的事情一直在发生(想象天气, 洋流). 我们感兴趣的是如何让它和人类的目标关联起来.

那么回到伦理学, 也许我们应当约束计算, 也就是AI, 只做符合伦理学的事情. 这意味着我们需要找到某种方式来描述它.

那么, 在人类世界, 我们做事情的方式是制定法律, 但是我们如何把法律和计算联系起来? 或许可以发明”合法代码”的提法. 但是今天的法律和合同都是用自然语言写的. 在财务领域有很多简单可计算的合同. 现在谈谈隐含存在的关于智能的合同. (原文比较口语化,不太好翻译, 大概意思是说怎么能让AI认可人的法律 )

对于大量存在的法律怎么办? 好, 莱布尼茨, 下个月是他逝世三百周年纪念日, 一直在讲要构建一种通用的, 我们正在探讨的, 能全部用计算的方式来表示的语言.  作为先驱他想的可能太早了, 但是现在正是我们该做这件事情的时候了.

上周我写了一篇长文, 这里总结一下, 用Wolfram 语言我们可以处理好对世间许多种不同事物如何来表示.  这些事物包括人们问siri的各种问题. 我想我们现在已经可以提出当年莱布尼茨想要的: 通用符号话语语言来表示人类世界的一切事物.

我意识到这是一个语言构建的问题, 是的, 我们可以通过自然语言获取线索, 但是最终会构建自己的符号化语言. 这实际上跟我最近几十年在Wolfram语言上做的事情同类. 比如就一个单词”加”(Plus)来说, 在Wolfram 语言中有个函数叫 Plus(加法), 和这个单词不是一个意思.   它是一个特殊版本, 必须是一个数学意义上的加法. 同样, 在我们设计通用的符号话语语言时, 英文中的单词”eat”(吃)有各种各样的含义. 我们需要一个概念, 也许同样用 eta(吃)这个符号来代表, 但是特指可以计算的吃.

所以当我们拿到一个以自然语言表示的合同时, 为了得到一个符号化的版本, 可以用所谓自然语言理解技术, 就像我们在Wolfram/Alpha 网站处理数以十亿计的请求所做的那样, 让人来区分歧义. 另外一种办法也许是类似用机器学习描述图片一样, 但是最好的方法就是用符号形态的语言来写. 而且我猜律师们不久以后就会这样做.

当然, 当你有一个符号形态表示的合同时, 就可以直接用来计算, 自动验证是否合规, 模拟预测不同的产出, 自动聚集条理化,诸如此类. 最终合同能从现实世界中自动获取输入, 而这些输入天生就是数字化的, 象计算机系统处理的数据, 或者交易比特币一样. 这些输入可以从各种传感器和不同测量中来, 通过机器学习转换成符号.

那么, 当我们把法律表示成可计算的形式之后, 我们就可以开始告诉AI 我们想要AI怎么做. 当然, 如果我们能把每一件事情都分解成基本原则会更好, 类似阿西莫夫的机器人三大守则. 或者功利主义之类的东西.

但是我不认为这样的事情会发生. 我们最终想做的是发现关于计算的完美约束. 但是计算在某种意义上是无限狂野的(wild)的东西(意指不可控). 哥德尔完备性定理已经展示过了. 就象我们看待整数, 通过建立习语来约束它们, 并且让它们按照我们想让它们做的那样做. 哥德尔指出没有有限的习语集合可以做到这一点(有限公理系统不完备). 任何一个你选定的习语集合, 不光包括你想要的整数, 还必然包括某些其它野(wild)的东西.

而计算不可规约现象意味者这件事情的更一般版本. 基本上给定任何法律集合, 必然会存在某些不想要的推论. 从人类法律的发展历史来看这并不稀奇, 关键点是从理论上就没办法规避,. 这是计算宇宙普适存在的. (这一大段是说简单的阿西莫夫定律不存在)

现在我想很清楚AI在今后的世界中会越来越重要-最终会控制有关人类事物的所有基础设施, 就象现在的政府. 或许也像政府一样, 该做的是建立AI的宪法来规范AI应当怎么做.

这个AI宪法会是什么?  它应当基于现实世界的一个模型, 而不可避免是不完美的.  这样可以说(AI)在各种不同条件下该如何做. 最终所做的是让对计算的约束与我们的目标一致(原文中有happen, 可以双关为碰巧, 个人理解是一种嘲讽). 那么这些目标又是什么? 我不认为现在就能给出合适的答案. 事实上, 我们列举目标就象在计算宇宙中列举程序一样.  不存在一个能抽象出来的挑选准则.

但是我们还是可以做出选择, 因为我们有特定的生物学, 有特定的基于文明和文化的历史. 这让我们从各种不同的不可规约计算中来到此处, 我们只处在计算宇宙的某个点上, 对应者我们现有的目标.

人类的目标在历史进程中可以看的很清楚, 是一直在演化的. 我猜测今后会演化更多. 我认为我们的意识不可避免的会和技术越来越多的融合.  最终我们的整个文明将终结于一个类似包含千亿计的人类灵魂上传的盒子(类似Matrix, 全部变成计算).

那么接下来的大问题是, 他们会选择这样做吗? 或许我们现在都没有语言来描述这个问题的答案. 让我们上溯到莱布尼茨的时代, 我们可以看到所有的现代的概念当时都还没有成形. 而当我们看看现在机器学习或者定理证明系统的内部, 应当可以谦卑的看到如此之多的概念和它们的有效形式尚未被我们当前的文化吸收. (这段是吐槽你们没有能力为未来操心)

以我们当下的视角来看, 那些未来没有实体的虚拟灵魂就像是在玩一个永远不停的游戏. 但是他们可能只是一开始在我们的现实宇宙的模拟中操作, 随后他们就会在计算多重宇宙的多种可能宇宙之间进行探索.

但是从某些层面来说, 他们所做的也只是计算- 就计算等价性原则来来说, 一个复杂计算本质上与其它任何复杂计算等价. 这有点让人失望,  我们的骄傲未来将终结于计算等价性, 或者说平淡的物理, 甚至是微小的规则30.

当然, 这只是关于我们并不是本质上不同的一群的一个很长的科学故事的扩展. 我们无法预期我们能够达到的终极. 我们无法定义一个终极目标, 或者终极伦理学, 某种意义上, 我们只能被我们的历史和现实的细节所包围.

不存在一个简单的原理可以在AI宪法中给我们提供想要的避风港.  将会有大量的细节对应于我们自己的历史和现实的细节. 而第一步只是要搞明白如何来表示这些细节. 我认为这正是我构建的符号话语语言.

还有, 是, 我碰巧花了30年建造框架去做这样的事情, 我更倾向于用它,也知道如何用它来构建我们的AI宪法.

所以我最好不要在继续谈哲学. 先回答一些问题吧.

(译后语, 翻译这篇文章的时候, 能感受到 Wolfram 本人一直在以神的视角观看人类. 估计一直在暗骂说你们这些笨蛋, 还想开个会来讨论怎么约束AI, 你们搞清楚你们想要干什么了吗?)

 

 

 

 

 

 

GPU,FPGA,还是ASIC? 浅谈深度学习计算的硬件选型

今天是Intel主导的边缘计算联盟成立的日子. 边缘计算这个中文名字有歧义, 往往让人产生靠边站,边缘人等不好的联想.其实边缘计算的含义就是在端上的计算, 为了与以服务方式提供的计算有所区别. 端上计算的概念喊了很久, 因为所谓物联网的起起落落, 也经历过波折. 目前物联网概念再次回暖,AI又 火的不能再火, 两者结合则让人越加兴奋. 因此相关公司要召开一次胜利的大会. 这里借势谈谈个人对深度学习计算硬件平台的理解, 企图从应用领域出发,梳理相关硬件选型和可能的机会. 学识所限, 错漏在所难免. 请批判性阅读, 如有不同意见, 欢迎留言讨论.

谈及硬件平台, 先看看市场上有什么. 目前在深度学习相关硬件平台上, Nvidia一马当前, 美其名曰AI时代的发动机. N家最先看好深度学习的应用机会, 并且在硬件特别是开发环境生态上全力投入. GPU硬件计算成为各家深度学习平台的必备品, 而大家似乎忘了AMD曾经在显卡比拼时代一直对标N家的GPU. 这是因为从开发环境上对比, CUDNN对OPENCL是秒杀.  N家的用心投入也得到了充分回报, 这体现在了不断飙涨的股价上. 可以说在深度学习模型训练上, N家的GPU平台是不二选择.

除了模型的训练, 更多的实际应用是用训练好的网络来做识别, 也就是inference. Nvidia在做inference上也有了充分的布局, 其推出的P4/P40系列和相应的面向INT8计算的支持, 又领先了一步, 在服务类应用上是新的标杆.  同时在端的应用上, 特别是安防相关的视觉计算领域, Nvidia 的TK1 又歪打正着. TK1本来是面向MID也就是pad设备推出的平台, 但是在平台竞争上被人殴打出局. 碰巧当时深度学习已经开始在视觉识别领域显出王者风范, 各家都使用Nvidia的计算库, 忽然发现因为nvidia的支持, 相关的计算很容易就可以迁移到TK1平台上, Tk1又适合部分端上比如智能相机的应用场景. 因此迅速占领了相关领域的应用市场. TK1和随后的TX1也成为类似应用的硬件选型参照物.

总结一下, 做深度学习的训练, GPU无敌, 做深度学习的Inference, N家在服务端有P4/P40, 在端上有TK1/TX1, 要想推出新平台, 要踏过参照物才能走下去. 那还有机会吗? 有的! 一旦结合具体应用, 就有数不清的机会, 市场还是非常大的.

以端上的应用来举例, 目前在市场上除了TK1之外, 唯一得到实际应用的就是Movidius. Movidius的芯片的特色是高度集成(片上集成了DRAM), 和低功耗(1W左右). 因此在特别强调体积和功耗的场合, 成为了唯一选择. 当然手机芯片在类似应用上也应有发挥空间, 奈何或许因为市场太小,手机厂家看不上, 手机芯片都没有面向计算的轻量级系统支持. 没有RTOS, 甚至没有嵌入式linux, 只能跑个andorid, 从内存占用, 启动时间等方方面面都不能忍受. 问题就是机会, 期望有良心企业有志于此类开发.

之前提到, 既然通用市场已经是GPU的地盘, 其它硬件存在的机会要看应用. AI相关或者深度学习相关从大的应用领域方面是三个方向, 语音,自然语言, 图像或者说视觉. 以下分领域再简单谈谈.

先说语音,  要坦白承认, 个人对语音应用并无深刻理解. 只是从基本概念上, 当年做动态贝叶斯网络时明白, 有向图的统计推断效率秒杀无向图. 所以语音相关的识别网络重在设计优化出特定的有向图结构. 同时考虑到语音的数据量传输在当前网络条件下不是问题, 所以语音的应用当以服务为主. 也就大致是GPU的市场.  考虑到网络仍然有延迟和连接等等种种问题,  在一些应用领域, 特别是所谓物联网, 也存在端上的机会, 而语音识别任务明确, 到目前为止相关技术和性能已经可以说比较成熟了, 算法一旦稳定下来,加上应用场景有量的支持,就可以考虑做芯片。 因此语音应用可能是最早做出面向深度学习应用ASIC的方向. 我们拭目以待.

再说自然语言理解和语义. 自然语言相关的领域应用是百度,搜狗等做搜索引擎公司理应探索的方向. 因此要做这个方向绕不开和这些搜索公司的竞争. 从应用特点上讲, 因为数据量极小, 因此基本不存在端上的机会, 应用应围绕服务展开. 而自然语言相关的深度学习应用特点是网络小,品种多, 百度为此开发了自己的深度学习库.  与这个领域应用相似的一个场景是服务器端的存储SSD, 因为要理解数据才能深度优化性能, 需要结合算法定制, 服务器端的存储SSD是FPGA应用的天下.  也许服务器端自然语言理解应用也存在FPGA的空间.

最后谈谈图像视觉,  大脑皮层里视觉相关的占一多半, 因此这一块是最复杂的. 从基本的应用场景出发, 大致可以分为感知类应用, 和交互类的应用, 感知类的应用, 又可分为被动感知, 比如监控, 辅助驾驶, 主动类的感知,  比如追踪, 机器人等等. 因为应用复杂,结合具体场景, GPU也好, FPGA也好, ASIC也好, 都存在机会. 举个例子, 交互类的应用强调实时性, 一定需要做在端上,  如果对功耗,体积没有要求, 需要GPU, 如果对功耗,体积有强烈要求, 可能要做AISC. 诸如此类, 可以单写一篇文章再谈.

写到这里, 基本可以收尾了. 在此特别想说的是, 深度学习相关应用领域相关的从业人员软件和算法出身的多, 很多人对硬件开发的周期不了解, 忽视了其复杂程度, 一言不合就要做芯片, 逻辑上很难成立.  一个硬件芯片的开发周期, 如果从零起步至少3年, 同时被忽视的还有面向应用不光需要芯片,还需要做出开发工具链toolchain, 这个可能比做芯片更难, 在有经验的人员操持下, toolchain以及相关的开发生态成熟可能又需要1-2年, 这样就是4-5的周期, 以深度学习领域的变化速度, 要看清4-5年后发生的事情而提前布局, 难之有难. 再加上各路大企业入局竞争. 小公司险中求胜可能是九死一生的荆棘之路. 这样就畏缩不做了吗?

知难而上, 与诸君共勉!

视觉计算-理论还是实践?

这两天, 朋友圈里朱松莼教授的一篇雄文”正本清源:初探计算机视觉的三个源头,兼谈人工智能”刷了一遍屏. 据了解为写此文朱老师酝酿了好久, 因为计算机视觉和人工智能长期积累之后终于做出了work的东西, 需要技术产业升级续命的金融资本主义如同苍蝇见了血,疯狂的扑了上来.学术圈也难免浮躁, 处在这个时代的CV学生们幸也不幸.幸运的是因为人才争夺战,以前无人问津难找工作的AI博士们,现在一毕业就能拿到难以想象的高薪.不幸的是过于功利的时代,本该打好基础的学生阶段大家都忙于不求甚解玩数据调参快速发文章,如果将来做研究难免后劲不足.

借一句师妹的评论: 朱老师一出场自带千军万马. 当头棒喝也许能帮到今后想从事科研的CV学生. 朱老师的文章里提到了CV创始人David Marr(本文按中文起名习惯译作马大卫)的视觉计算理论. 勾起了当年回忆.  因此这里也借机写一篇小文谈谈马大卫先生的生平和工作.

我不久之前写过一篇文章回顾了一下自己曾经做过研究工作.  这里要再次感谢一下朱老师对我研究思路给予的指导. 2000年夏天朱老师在MSR china 访问, 当时开班指点了一下我们这些迷茫中的研究众生. 印象深刻的是, 朱老师上课一开场就说你们以前学的东西全是错的! 并同时指出正确的路径是什么.  十几年过去了, 朱老师仍然用强大的气场镇压宵小, 要挑双手大拇指来赞!

回到马大卫先生, 网上能找到的生平介绍比较简单, 马大卫先生在二战的尾巴,1945年1月出生于英国伦敦, 应当算是十分幸运的一代人. 其后有baby boom的一代婴儿潮小弟托势, 非常容易做出成绩(类比中国生于80年代出生高峰之前的一代人较易成功).

马大卫先生的学生阶段是奔腾咆哮的五十年代. 社会发展欣欣向荣. 他中学毕业于拉格比(Rugby School)学校, 是英国历史最悠久的私立贵族学校之一. 其后进入剑桥三一学院学习数学. 他高中和大学毕业时都拿到了额外的荣誉奖励. 妥妥的精英学霸. 本科毕业后又对心理学产生了兴致, 跟随英国著名神经生理学者Giles Brindley 学习. Giles在视网膜和颜色视觉的生理机制上有突出贡献. 本人同时是个音乐学家, 还以某方面的出格行为而著称(感兴趣的请自行搜索).

经过本科硕士数学,博士研究生阶段心理学,和神经生理学的训练, 马大卫先生于1972年获得博士学位, 他的博士论文就是有关小脑和视觉神经生理机制的研究. 毕业后, 马大卫先生来到了MIT. MIT是人工智能研究的发源地, 当时是人工智能领域的创始人Marvin Minsky在主导工作, 有一众AI大牛.

在马大卫的遗作视觉计算这本书的序言里提到: 他到MIT是应Minsky 和 Seymour Papert的邀请. 来到MIT之后,因为DARPA和NSF给了非常慷慨的资助, 并且有Whitman Richards和Richard Held(当时主管vision基金的人)特别关照, 可以”便宜行事”, 加上一众出色的合作者, 以及本人跨领域的背景和天分, 才做出来了开创性的工作.  以上列出的这些条件应该是搞出了不起研究的必要条件. 如果再有合适的时机加成,比如有大量的实验结果, 而理论解释青黄不接时. 就可以突破.

然而幸与不幸, 天妒英才, 仅5年之后, 1977年底马大卫就被检查出了白血病, 当时是毫无办法治疗的绝症. 在用尽各种当时的医疗手段都无法治疗之后, 人生的最后一年, 马大卫写了视觉计算这本书. 严格的说, 这本书在他去世时(1980年11月17号)还没有写完. 部分内容是他的合作者和学生补充整理完成的, 首版出版于1982年.

我手头的中文译本是科学院生物物理所姚国正, 刘磊,汪云九三位翻译的, 出版于1988年. 姚先生的也因为癌症于2010年11月去世了. 他是受过中国传统文学训练的一代学人,文字功底很好, 为了翻译这本书, 也倾注了很大的心血. 他当时主办了针对这本书的讲习班, 每一章都自己或者请人来讲, 反复讨论, 务求做到充分理解. 翻译全书几个学者大概用了三年时间.  因此中译本的质量也很高.

马大卫先生在书里提过这本书是为阅读乐趣写的. 他说的乐趣也许是思考的乐趣, 因为这本书实在是不容易读. 尤其对初学者, 常常会有每个字都认得, 连起来不知道在说什么的感觉. 但是经过思考后, 尤其是体悟到其中隐含的深刻思想之后, 确实会有很大的乐趣. 每每在学界有了新的事实发现之后, 重读这本书又会感受到以前未曾体悟的认识. 朱老师说他每年都会重读一遍都有新发现. 此言非虚.

马大卫在书的导论里总结, 从哲学意义上, 全书写的是视觉的表象(representation)理论, 也就是如何从外部世界投射得到内部表示的计算框架.  因此这个计算框架是个自底向上的单向流水线. 目前应用领域里涉及到的视觉任务, 比如物体定位, 跟踪,识别, 三维重建等等都大概可以归纳在这个计算框架下.  对现在的这类研究工作仍然有指导意义.

另一方面, 当年就有人认识到, 人的视觉形成机制, 并不仅仅是一个被动接收的表示过程. 人与环境是互动的, 其中包含的不单单是自底向上的计算, 还有意识的参与, 自顶向下的指导和主动选择.  视觉里有一个门派, 主动视觉就是专门做这个的. 我们当年也基于人的眼球运动的生理现象, 做了有关注意力的主动视觉计算的研究, 并归纳其为选择性注意力形成机制的视觉. 受困于当年的计算平台, 大家只能在初级视觉里打转, 理论并没有多少应用价值.   而目前机器人大热, 在相关的视觉应用中, 这一类工作应大有用武之地.

除此之外, 在2010年视觉计算这本书出了再版,  马大卫当年的合作者,目前仍是MIT教授的Tomaso Poggio 在新版中的视觉计算框架下补充了一个学习层.  并认为学习是视觉计算高层表示中非常重要的成分. 这样就更好的呼应了最近几年所谓机器学习的研究热潮.

就研究的方法论而言, 先实践, 还是先理论,各有一派人坚持, 互相之间争执不休, 也不大可能吵出结果. 而按照中国人的传统智慧和后来西方哲学家总结的辩证法, 事物的发展总是在互相矛盾的事物之间摇摆并且最后螺旋上升的.  马大卫先生三十年前就给出了视觉计算的理论框架. 但受困于当年的计算能力, 并没有获得多少实践上的成功. 而最近的深度神经网络在实践中取得了大大的成功, 却又缺乏理论的指导. 按照事物发展的规律, 在考虑去创业挣钱发财之外, 学者们如果能静下心来认真思考DNN背后的道理, 是否能有再一次理论突破的机会?

 

智胜先师-人类能做出强AI吗?

看过我之前写的文章的读者应当知道, 我本人对于做出强AI是非常乐观的. 同时我也认为这并不是一件好事.  我的观点一直是在做出强AI引发系统内部剧烈冲突之前(AI和人的战争),必须先行拓展系统边界(宇航), 这些是由耗散结构的系统演化规律决定的, 不能以人的意志为转移. 不久前我也写过一篇文章, 大脑是如何工作的, 兼谈如何做出类人智能” 着重谈了谈思路.  整篇文章里最弱的地方是对记忆的解释. 当时想的也不是太清楚. 最近看了看有关知识表示相关的最新进展, 对睡眠的一些研究, 还有Jian提到的on intelligience, 觉得有必要再写一篇, 整理一下思路.

开宗名义, 飞机和鸟都会飞只是利用了同样的空气动力原理, 具体工作方式完全不同. 类比AI和人脑也一样.

前面一篇文章已经说过,目前最火热的深度神经网络是解决外界环境到内部表示的映射问题, 而且是头痛医头, 脚痛医脚, 只能是解决单一问题的工具, 一个子系统,最多是本我, 离强AI差很远, 而做出强AI的关键是通过知识表示把各个子系统连接起来, 其中的核心是记忆的机制. 有了记忆, 就有了自我. 下一步是解决多个AI之间的关系, 竞争合作, 是超我.

我的个人观点, 第一步, 学习各种映射,建立听觉,视觉, 五感运动等相关的子系统,这一步最难.这些功能大部分都是基因里自带的, 自然演化了数十亿年, 要靠人工赶上数十亿年的自然选择,当然难! 到了记忆自我意识,这些大脑皮层的功能, 大约只演化了数百万年, 学起来就容易很多. 而看似高级的一些东西, 比如艺术,文化,政治大约只有几千不到一万年的演化历史, 学起来就非常容易, 只要让有自我意识的AI自己玩,很短的时间就能玩出来. 而且AI玩出的东西无法预期, 也许是人不能理解的. 整个过程会越来越快, 并不那么遥远. 最近有报道说霍金,比尔盖茨反对AI的发展, 不知道霍金,比尔具体是怎么想, 但是我认为他们的担心是有道理的.

on intelligience 这本书主要就在谈记忆, 书中的观点, 大脑皮层的高级功能其实是通用的, 同样一块大脑皮层,既可以用来做视觉, 也可以用来做听觉. 这启发了大家思考是不是可以用一些比较简单的连接机制就能模拟. 书的作者为此建立了研究机构尝试了很多年, 受成书年代的时代局限, 书中建议的是一个7层的网络, 计算能力约束了想象力, 他们也不能做出什么东西, 然而相关想法是个很好的启示.

那么什么是记忆, 核心有两条,一是如何表示概念(系统的内部状态)以及概念的连接(知识,或者说是记忆), 一是如何有效学习获取知识(记忆).

对于知识表示方式, 长期以来一直有两派争执, 知识到底是确定性的还是不确定性. 不喜欢随机的人认为知识是确定性的, 而为了解决现实中大部分概念都没有清晰边界的问题, 他们搞出模糊逻辑等一套东西. 另外一派则认为自然的本质是随机的, 因此知识是对概率分布的表示, 推理只是对分布做采样. 这样往往会得到各种不确定的结果. 如果是在研究怎么做出工具, 当然确定性的东西大家更喜欢. 如果讨论模仿人, 那么引入随机性就是必然的.

最近搞知识表示的人终于扔掉了RDF, 三元组, 他们发现把实体和关系嵌入到一个子空间, 整体不光更有效率,而且效果也好. 这样终于往正确的方向迈出了一大步, 这两年在基础子空间表示方法上各种更新改进层出不穷, 效果也越来越好, 但是他们还是在搞确定的, 没有引入随机性. 需要再往前走一步.

至于知识如何学习, 简单的说, 任何模型在贝叶斯的框架下都可以学习, 关键是学习算法的效率是不是够高, 是不是能用当前的计算设备支持.  为此类比人的学习方式就很有意思, 人要学一个技能, 需要反复练习, 从一开始的主观意识, 练习再练习, 反复重复,最后变成潜意识, 就算学会了.

那么什么是潜意识?  人类学习经过总结最有效的方式就是刻意学习, 一万小时定律, 刻意学习其实就是在边界条件上学习, 要求太高学不会, 简单重复没意思, 比当前已经学会的稍难一点刚刚好, 会深度学习调参的人看到这里应当会心一笑. 你们别笑, 潜意识是结构学习, 主观学习是调参, 练习成为潜意识是学结构, 正确的结构一形成, 运算的效率就很高,  不再需要主观意识(监督指导信号)的干预, 技能就习得了.

另外一个跟学习过程紧密关联的事情是睡觉. 人为什么需要睡觉, 有各种解释, 也有各种相关研究. 最近的研究表明, 所有的高级生物都要睡觉, 甚至无脊椎动物也需要短时间睡觉. 有一种说法是说器官需要休息. 这个虽然正确但是没抓住重点, 需要休息的不是器官是脑. 脑为什么需要休息, 因为神经网络需要训练. 成批训练. 这不是空穴来风, 如果一个人长期睡不好, 典型症状就是记忆力下降, 学习能力下降, 各种东西看过就忘, 用的时候也想不起来. 同意上述说法就很容易解释这个现象, 因为没有训练好,所以没学会啊!

以上讨论记忆,知识表示和学习, 都是形而上的猜测, 也并不能推导出具体的算法或者计算模型. 但是我仍然觉得没有不可解决的障碍, 不同意作者观点的欢迎留言讨论.

从具体做事情的角度出发. 最最关键的还是效率, 包括计算的效率, 存储的效率, 计算和存储之间的通道效率. 尤其是存储, 做深度神经网络硬件实现的人已经意识到了, 把存储单元嵌入到计算单元中去, 整体的计算效率会更高.  现在的GPU甚至一些专门的神经网络硬件实现, 计算起来的瓶颈都在内存, DDR内存的带宽影响整个数据流的效率.

设计计算硬件需要考虑的核心问题是结合硬件实现和成本约束确定计算和存储单元的粒度以及架构方式. 目前存储仍然是分层结构的, 廉价大容量访问速度就慢, 访问速度越快,容量越小,成本越高. 这一是对计算很大的制约, 二是增加了架构设计的复杂程度.  因此除了摩尔定律以外, 新形态存储方式的进步, 将影响或者制约AI的进展,  直至所谓强AI, 奇点到来的时间.

回到本文的标题, 智胜先师来源于二十年前台湾一款游戏的名字, 游戏用这个名字也许是取了智胜和至圣的谐音. 先师孔圣人也被游戏当作封面. 这个游戏就是个做智力题的游戏, 没什么趣味. 但是标题含义深远, 人类学生都是可以胜过老师的, 一代更比一代强, 将来AI超过人类也是很自然会发生的啊!