中国研发生成式AI 专家坦言与GPT-4差距非常大

0
540
OpenAI研发ChatGPT后,再推出升级版GPT-4。中国多名专家坦言,中国的模型与GPT-4差距仍非常大。(路透档案照)

【2023年5月30日讯】OpenAI研发的ChatGPT爆红后,再推出升级版GPT-4。中国虽有多家企业研发生成式AI,但多名专家坦言,中国的模型与GPT-4差距仍非常大;官员直言再不追上,以后看不到美国的车尾灯。

据陆媒第一财经报导,ChatGPT的出现,如同一场飓风席卷了整个科技圈,成为中国国内的最热门话题之一。为什么中国没有诞生ChatGPT?在这个问题出现后的近半年时间里,约30家科技大厂、创业公司、机构相继宣布推出大模型。

中国的大模型距离OpenAI有多远?一些企业家推测两三个月以及两三年都曾引发网路关注。尽管有一些乐观的看法,但身处一线的中国研究者们都较为谨慎。

上海复旦大学MOSS系统负责人邱锡鹏说:“不光是国内的模型,包括谷歌,离OpenAI的GPT-4都还是存在代差的,差距非常大,远远不是几个月就可以追赶上的”。

网梯科技创始人张震认为,在追赶OpenAI方面,算力并不是问题,核心是演算法、数据能不能真的产生智慧,这是挑战。“业界认为一年时间能追到GPT3.5,我觉得不一定追得上,除非把核心程式师挖出来,否则只是看起来很像”。

上海国创中心理事长、领中资本管理合伙人黄岩也指出,短期内并不存在追上的说法,因为这个领域需要巨额投入,目前中国没有哪家大模型厂商投下了OpenAI那样规模的资金,对于这个高投入、高风险、高回报的领域,中国的资本也还在场外观望。

在长三角科技产业创新论坛上,竹间智慧创始人兼CEO简仁贤认为,在过去的几个月,有十几个大语言模型的发布会,这些模型都大同小异,现状就是,在全球范围内只有OpenAI能够达到通用人工智慧的商业化,并且拥有绝大部分用户的市场。

“深思考”是中国网路巨头华为投资的人工智慧企业,此前发布了针对专业场景的多模态大模型。深思考创始人、AI演算法科学家杨志明也坦承,从通用层面来说,国内大模型与OpenAI大概有1至2代的代差,这个代差代表了整个模型层的技术,包括学习的知识、能力等等方面的差距。

报导提到,上海市徐汇区副区长俞林伟在长三角科技产业创新论坛直言,目前最重要的是大模型,因为这个是真正的“国之大者”。“也有充满危机感的行业的领军人物讲,如果我们今年下半年仍然不能做出中国的通用大模型,因为美国还在不断地往前走,以后可能我们连汽车的尾灯都看不见,这个绝对不是危言耸听”。

此外,大模型需要巨额投入,此前有投资人测算,对标一个GPT-3.5,基于目前已有的公开资源,大概需要的投入至少是1亿到2亿美金。

但与国外融资环境相比,中国生成式AI目前融资频次与体量有一定差距。黄岩认为,通用大模型有著高投入、高风险、高回报的投资特点,商业价值很难在短期内产生。“以微软130亿美元投资OpenAI为例,在没有看到其产品效果以及真正商业化之前,很难有机构敢去做这个规模的投资”。

据黄岩团队的统计,截至2023年4月,生成式AI赛道目前在国外已出现了13家“独角兽”(市值逾10亿美金的新创公司);在中国目前只有小冰公司已成为独角兽。

报导并提到,在中文语料库里,通过网路获得高品质数据并不占优。根据调研公司W3Techs的数据,全球网站有55%是英文的,而中文网站的比例只有1.4%,排名第12位,和越南相近。因此中文内容在人工智慧训练上没有优势。

商汤科技智慧产业研究院院长田丰也指出,国际上多边跨国数据政策互通、全球训练数据集易于获取,但中国尚缺乏大模型国际标准深度参与、多国数据流程动机制、国际标准互认、大规模中文语言开源训练术聚集。

田丰期待中国能在生成式AI时代发挥“举国体制”的巨大价值。他希望政产学研一起去做这个事情,龙头企业有行业数据,科技公司有较强的大模型基础研发能力与人才,国家实验室、国家数据局作为多方信任的中立机构,能够有效将全球中文数据集合法合规集中于一个国家共用开放生态。(中央社)