更大的愿景,更严酷的现实。
采访丨朱丽琨程曼祺文丨朱丽琨编辑丨钱杨
中国的大模型创业者已经集结在十字路口。他们之中既有研究自然语言理解将近40年的科学家,也有已经功成名就的前创业者,还有刚刚博士毕业的年轻人。创业者们在各个层面展开竞争。这个十字路口甚至是物理的——就是清华大学东门外的那个十字路口。这些公司地理位置上也紧挨着彼此,最近的仅仅隔着几层楼板。
搜狐网络大厦在十字路口的一侧。它可能是国内大模型人才密度最高的写字楼。王慧文的光年之外在三层。孵化自清华计算机系的智谱AI租下七到十一层,九层以上都还空着,保留着搜狗在这里办公时的痕迹,楼道贴着“搜狗大事记”。搜狗创始人王小川在第二层的一个会议室里开了媒体沟通会,宣布开始大模型创业,成立新公司百川智能,但他准备在附近园区选址,“我不跟他们在这里卷”。这些公司忍受着比北京CBD均价还贵的写字楼租金,只为物理上“接近中国最顶尖的AI人才”。
路的另一侧有“清华系”代表团队聆心智能和深言科技。前者由清华大学计算机系副教授黄民烈创办,自年底开始自研“超拟人大模型”,后者创始团队几乎全部来自清华NLP实验室,实验室的学术带头人孙茂松教授担任公司的首席科学家。创始人兼CEO岂凡超想和教授交流时,只用走几百米回学校。
他们的创业契机不相同。智谱AI于年成立,是其中最早起步的公司。创业初期,他们基于谷歌年推出的BERT大模型做应用。光年之外年4月初正式启动。王慧文年初看到大模型的机会,“几天之内就做完决策”,决定再次创业。
他们都被ChatGPT显示出的“才能”震撼。一位大模型创业者让ChatGPT用动态规划方法列出从北京到上海的最短路径,每条路的里程数要被3整除。一位资深科技投资人让ChatGPT翻译日本唱片介绍。ChatGPT可以把“N响”准确地翻译成“NHK交响乐团”,这是相当资深的古典音乐发烧友才知道的“黑话”。一位AI创业公司的科学家请ChatGPT写人类和AI的故事,不断要求加入新角色,比如一只哈士奇,不断涌出的字词还是自然地组织起来。
真格基金设计了多个问题,包含“香蕉的平方根是多少”,以及要求大模型模拟抽塔罗牌占卜。3月中旬,刚发布几天的GPT4回答准确率超过70%,同期已发布的国产大模型平均准确率20%。5月,国产大模型的平均准确率已经追到50%以上。
被大模型能力震撼的创业者们将其比作“下一代计算机”“火的发明”“人类创造的上帝”;动用各式比喻来解释他们预计的变化量级,“寒武纪”“工业革命”“文艺复兴”“大航海”“苹果微软时刻”“黑莓时代”等等。
质变从年面市的GPT-3开始。这款模型参数量和预训练数据量比上一代增大百倍以上,展示出更强的语言理解和预测能力。OpenAI的设想被印证:当数据规模足够大,模型就能学到其中包含的翻译、算数、编程等各种任务的例子,因此变得更通用。ChatGPT沿着这条路更进一步。IDEA研究院认知计算与自然语言讲席科学家张家兴在一次活动上,引用《三体》里著名的那句“物理学不存在了”,在现场感叹,“传统的NLP(自然语言处理)技术不存在了”。
“大模型重点在数据、模型、可以规模化实施的算法,传统NLP研究重点在模型上做很多精巧的设计,但很多在大数据大模型上就不再有效了。”聆心智能创始人、清华大学计算机系副教授黄民烈解释。
原本就在AI领域的创业者也活跃起来。商汤、第四范式、科大讯飞等公司相继推出大模型。AI创业公司出门问问CEO李志飞感叹,“大模型的供给比想象中多多了”。他最初认为大模型的资金和技术门槛高,能做的国内公司最多两三家。一个半月之后,他预感大模型的市场竞争可能比上一波AI热潮更激烈。
怎么理解OpenAI的成功,部分意味着这些创业者将怎么对待他们的竞赛。李志飞认为OpenAI的成功是“把研究范式切换为产品驱动”。澜舟科技创始人、前微软亚研院副院长周明认为,这家公司把数据清洗、训练速度等各方面做到极致,并且集成所有能力,包括优秀的算法、工程甚至PR。而王慧文认为OpenAI的成功是“正确的使命、愿景、价值观,正确的组织方法的成功”。
创业者们对大模型的终极目标AGI(通用人工智能)的看法,从定义到理解都有很大差异。
王小川只跟ChatGPT简单聊了几轮,就确信“AGI已经来了”。他认为ChatGPT印证了他六七年前的判断:当机器掌握了语言,强人工智能就到来了。在一个小范围分享会上,几位AI领域创业者仅从功能上定义ChatGPT的进步。
“大家把这件事想小了。”王小川说。他会后接到一个在场者的电话,对方问,“小川,你是不是又在装?”几天后,那人又打来“这次你又说对了。”
王慧文认为,“对AGI的认知,随着对事实的掌握和结果的展开,可能会翻转很多次的。”
共同点在于,他们都确信大模型技术变革比他们经历过的任何一次变化都大,而他们站在这场可能长达几十年的变革浪潮的起点。
“这次AI的浪潮应该是一个持续几十年,由多个小浪潮波次构成的大浪潮。它不会一个波次就完成,会在不同的波次里出现不同的创新。”王慧文说。
他认同美国投资人埃拉德·吉尔(EladGil)的观点:在部分科技浪潮中,所有的价值都可以由初创企业捕获,而在另外的浪潮中,大部分价值会归成熟企业所有,或者会在初创企业和成熟企业之间分配。王慧文认为,AGI浪潮属于后者,因为大模型技术跟过去的技术差异化足够大,导致了市场的不可预测性,创业公司因此有了发展空间。
直到ChatGPT教育了国内市场
年10月,多个美国投资人跟李志飞提到一款叫Jasper的AIGC应用很赚钱。当时Jasper仅仅成立18个月,估值15亿美元。Jasper基于GPT-3模型,针对市场营销场景做了精调,靠生成营销文案打开市场,年ARR(衡量SaaS或订阅业务的收入指标)约万美元。
“看到它的那一刻,我真觉得自己是傻子。”李志飞说。
一位美国红杉的投资人跟李志飞说:“你的时代来了。”对方还提到美国红杉的管理合伙人只讨论AIGC项目,别的都不看。当时,投资界的
转载请注明:http://www.0431gb208.com/sjszyzl/6329.html