周末看了些和AI大模型相关的资料,和你们分享下,不一定对。
最近国内爆火的幻方DeepSeek V3大约用十分之一的算力就基本实现了OpenAI最新版本的数理推理能力,被称为大模型界的pdd。这倒不是因为幻方的技术更好,而是用到了一种叫做“数据蒸馏”的技术。
什么叫做数据蒸馏?
个人理解,就是对着标准答案来做作业。
做难题的时候,很多时候都是在试错,就是用各种思路都做一遍,最后找到那个对的。类似于寻宝的时候有100条路,你可能要把前面99条路都走到尽头,才找到正确的那条。
但假如你预先知道标准答案(宝藏坐标),那很快就可以否定掉大部分路径,比方说坐标告诉你位置在北边,那就可以把通往东南西三个方向的路都直接删除掉。
在大模型领域,水平最领先的探索者不知道标准答案是啥,只能这100条路都走一遍。
但当领先者把答案已经做出来以后,后来者就只需要根据其提供的答案,就可以省略掉大部分的探索过程,所以算力成本只是领先者的几分之一。
嗯,总之“数据蒸馏”介于做作业和抄作业之间,他没有重头来做这个作业,也没有直接把解题过程和答案都抄全了,而是根据已有答案,大大提升自己解题过程的效率,就和经济上的“后发优势”差不多。
当然咯,也不是什么人都能用“数据蒸馏”这个技术,那必须你和领先者水平比较接近才行,领先者100分,你也得有90分,如果只有80分那就算给你答案你也推不出过程。
明眼人看到这里可能都笑了,因为这明摆着对我们最有利。
如果给全世界的AI水平打分,那美国100分,我们90分,其他大部分国家和地区在80分以下。
所以这个技术的存在,就使得即便美国一直领先,我们落后也不会太多,可能也只差半年到一年,这个差距也不小,但可以通过其他方面的努力来弥补,而且所付出的算力成本只需要十分之一。
如果以上推测没太大问题,那未来国内的大模型投资会重新躁起来,各种各样的应用也层出不穷,这当然会给我村带来很多机会。
最近雷军和李想都高调宣布杀入大模型这个领域,可能也是因为看到了这个前景。
这里还是要补充下,“数据蒸发”本质看是一种投机取巧的方法,类似于速成九阴真经,就和人一样,如果一辈子只走对路、没走过错路,实际上能力也是缺失的。
概括就是,在垂直细分领域能力训练上,数据蒸发效率很高;但在通用领域,依然会和领先者有较大差距。
所以巨佬们依然会砸很多钱在算力上,不惜代价来获取领先优势。
……
1、赵薇突然发微博表示,已经和黄有龙离婚多年,目前任何关于黄的事都和自己无关;背景是黄目前欠了很多钱,有报道的大约十几个小目标,没报道的可能更多。赵薇和我村扯上关系,则是因为2016年拟50倍杠杆空手套白狼收购万家文化,2018年被证监会顶格处罚。
根据Kimi的说法,黄有龙破产和万家文化案密切相关,当时上50倍杠杆的利率据说高达20%以上,一开始还能勉强还利息,拖了几年后就连本带利都还不起了。有一种说法是,离婚后赵薇过得还不错,反正还挺有钱,所以这个声明的意思其实就是赵某不可能来还黄某的债。
赌狗就是这样,哪怕赢了100次,最后输一次就失去所有。女明星嫁的赌狗还真不少,相对而言黄圣依嫁的杨子已经算非常靠谱。
2、老普和周受资通了电话,并已敦促美最高法院暂缓实施Tiktok强制出售令。这事老普说了不算,但肯定会有不小的影响力,下月10日美最高法院将讨论这事。
3、小米SU7年内交付量超过13万辆,提前完成全年目标。对了,我隔壁邻居(40多岁的中年夫妻)刚提了一辆蓝色的SU7,真的很好看,之前他家开的是老款奥迪,看着应该有10年以上了。十几年前就能买奥迪的家庭实力放在那里,现在也改买SU7了,难怪小米以年度涨幅119cm位列中概互联大票里的第一。
4、茅哥拟以30-60亿回购,回购价格不超过1771.9元,也就相当于目前一天的交易量,属于心理层面的利好。
周五晚美股大跌,带崩了中概指数,不过A50还好只微跌0.04cm,2024年还只剩2个交易日,只求别折腾吧。💸