艺术家孙天宇于北京“船楼”这座中国近代处理高质量“数据”的标志性建筑前留影冷迦/摄
在北京南城的虎坊桥路口西北角,有一座西式的小白楼,从路口东南角遥望,好似一艘在海浪中航行的轮船,被老北京人称之为“船楼”。“船楼”上挂着“中国书店”四枚鎏金大字,楼角前,座碑上还刻有“1920”“商务印书馆分设”的字样,往事如烟已过百年。在此人工智能时代初到中国之际,让我们回望百年船楼这条当年“数据之船”,意味并不寻常。
关键词:汉语语料与数据集、自然语言处理(NLP)、大型语言模型(LLM)、中文数据中心、对齐或看齐、AGI版权;
民国初期的“船楼”留影
汉字是世界上最古老的文字之一,已有六千多年的历史。汉字以多音多义、言简意深为特点。煌煌六千年传承下来,从结字到成词,经历着不断变化才形成了今日的文字和言语方式。从秦皇的“书同文”,鸠摩罗什的“宗词入世”,再到五胡、隋唐、蒙元、满清多次的“民族语言融合”等,在汉语发展史上有太多的相互借鉴、引入、通用的范例。百余年前,民国初期的白话文运动以及前后长达百年的新汉语词汇的引入,又将传统汉语向现代化的变革推进了重要的一步。“船楼”这座矗立在首都北京的百年建筑,正是中国近现代语言变革历史的重要证物。
时至今日,新的变革再次来到我们面前——以语料与数据作为要素的人工智能时代悄然到来。此时回望百年“船楼”这条当年的“数据之船”,它曾经为古老的中国带来宽广视野与新鲜活力,不禁让人慨然、兴奋。
百年之间
“船楼”是京华印书局的旧址。它的前身是强学书局。1895年康有为等维新志士为了开通风气、宣传西学所设。后风云变幻,北京的强学书局遭到清政府封禁,随之改为官书局,原址设在虎坊桥乐平会馆。因经营不善于1905年,由上海的商务印书馆出资买断并改名为京华印书局。
辛亥革命后,新文化的书刊、报纸日渐增多,京华印书局于1918年在虎坊桥路口用10万元建了一座钢筋水泥大楼。这便是如今的“船楼”。这一中西合璧,别致气派的大楼使得京华印书局的业务更加繁盛。彼时如北大、清华等学术研究机构印书刊,协和医院、戊通航务公司等外文报告与表册、故宫博物院仿印文物书画集、月刊,鲁迅先生的《呐喊》《彷徨》等很多文化名流的书籍也都出自此地。当年“南有商务,北有京华”的说法广为流传。后印书局受抗战、解放战争的影响,境况不佳,直到新中国成立后才逐渐恢复。
语言、贡献与问题
以时代角度来看,商务印书馆和京华印书局都是优质“数据”的枢纽——这很像今天的数据中心。所不同是一切已经脱离了传统的编辑、排版、印刷、发行等步骤,变成了一种全新的方式。我们的个人终端和Internet成为了新的数据来源与媒介。特别是2000年之后,个人电脑、互联网、个人手机的普及让海量的数据资料成为了丰富资源。以生成式人工智能AIGC(Artificial Intelligence Generated Content)为代表新技术浪潮正在高效的使用着这些资源——人工智能三大要素——数据(语料)、算力、算法。十亿级以上的数据集,它的语料绝大部分来自于互联网。在自然语言处理(NLP)的过程中,语料和数据集是必备的,这是构建大语言模型的基础之一。而在整个互联网的语料,英语的语料占59.3%,汉语只有1.3%,我们都知道数据集的质与量可以直接决定大模型的效果。汉语中存在许多独特的语义和文化内涵,这些隐喻在汉语的表达中起着重要的作用。汉语和英语在语法结构和表达方式上存在差异。汉语是一种以词为基本单位的语言,具有丰富的词汇和表达方式。相比之下,英语更注重句法结构和语法规则。汉语的多义性、歧义性和复杂性对于AGI来说需要更多的算力和算法支持,为了不丢失汉语中的宝贵基因,这是一个长远而需要正视的问题。我们在这个提问比回答更加重要的时代,回望百年船楼,回望京华印书局,回望商务印书馆,以严谨科学的态度发问,希望能寻找到更多的启示和方法。
艺术家孙天宇于北京“商务印书馆”留影冷迦/摄
昭示再启航
从2022年的秋天开始到现在,转眼之间AI人工智能的大潮已经走过了三个阶段。
第一阶段是生成式人工智能的发布,数据库的开源姿态和应用的广泛使用,这一阶段是一个扫盲阶段,通过移动互联网,传统互联网快速的普及阶段,就像芝麻开门之后惊喜不已。
第二阶段是小型的初创企业,利用先进的开源技术进行各种各样的尝试。这种尝试不局限于小企业,也集中在巨头的各个团队组。在这种像大海一样众多,发现众多优秀的应用推广出来,就会有更优秀的应用覆盖掉,进而脱颖而出。最终优秀的结果就是我们所看到的大型的软件如Adobe等等都换上了全新的AI心脏。这使得这些软件和之前完全不同,区别非常像是同样是四个轮子,但之前是用马拉的,而现在是燃油发动机。
第三个阶段是我们已然开始迈进的——AI生成式人工智能对于制造业,工业重工业以及科研的深入影响。这将从研究效率,生产优化,生产效率等各个方面对传统的人类最重要的经济社会活动产生巨大的影响。
至此已经不是个人层面和小组层面的事情,它已经深入到了人类贯穿上万年的集体生产劳作当中,几乎所有的行业都会依赖它,依此所产生的影响将是真正巨大而深远的。可以想象,在未来的世界地球上,大量空旷而不宜耕作的地方,会布满大型的太阳能电路板和超级数据中心。这些就像是一个人脑中的神经元一样,每一个集合都在帮助整体的运算,而我们终将在那看着它运算不息。
当AI不断帮助我们完成任务的时候也需要不断的自我完善——数据标注、训练数据集、大模型训练等等,而其中有一项重要任务是永续进行的,那便是对齐,将输入的语言与内部模型的语言进行匹配和对应。我们可以将所有训练过程都交给AI——即用AI训练AI,但终有一些任务需要一个开放的参与机制来不断工作,这很可能还是对齐。而对齐当然不止一种方式,但所有对齐的本质是领航,朝着更准确、更智能和更高效的方向发展,也要明确在人类的活动中领航者是人类自身。作为联合国官方语言,全球近15亿人的常用语,在人类与AGI“超级对齐”的持续进程中,汉语不应缺失。
联合国的六种官方语言
汉语是中国使用人数最多的语言,也是世界上作为第一语言使用人数最多的语言。汉语历史悠久,世界上使用汉语的人数至少15亿,占据世界总人口的20%。
汉语是中国的官方语言,是新加坡的四种官方语言之一,亦是六种联合国工作语言之一。汉语主要流通于中国,以及新加坡、马来西亚、日本、缅甸、泰国、美国、加拿大、澳大利亚、新西兰等国的华人社区。随着中国的国际影响力以及国力的不断攀升,汉语的重要性自然不断地在提升,很多外国人开始学习中文。
汉语·新技术·未来
在人工智能浪潮中,在多数派语种的语料优势面前,我们这个有着5000多年文明史的语言文字宝库,显得是那么的“笨嘴拙舌”。对于一个国家来说自身的语言是一座宝藏,历史、文化、生活、艺术等等经由语言得以保存,经由交流得以传播。在AI的时代,在全世界的人工智能训练中,汉语语料库不可或缺。这些承载着民族语言文化的基础信息,记录着语言文化发展的历史,包含着多元文明、悠久文化的博大信息库,应该为人类与AI的对齐训练中做一份持久而多元的补足工作。
摆在国人面前的课题一方面是如何在借鉴国际上成熟语料库建设经验的同时,更好地立足于我国语言文化的主体性,建立基于中华语言文字特点的语料分类体系,全面融通现代语言学成果和我国文化特点,搭建好综合性、开放性、多元性、适应性、共享性兼具的国家级语料库。另一方面是净化网络信息,提高信息质量,标定源流权属。
前者已经悄然潜行,目前已建成了多个汉语语料库,如高校和科研院所独立建设的规模不等的语料库,这些语料库对国家通用语教育与研究发挥了积极作用,对于光速变化演进的AIG技术与需求,我们仍需加快步伐。而后者则更加任重道远。无论怎样,未来已来。
文/孙天宇
作者简介
孙天宇 1982年生于北京
毕业于北京大学艺术学系;
中国“现代艺术”青年学者;
中国首批AIGC数字知识产权保护管理人
北京青年科技&艺术跨界研讨论坛创始人
直接触控艺术与AI提示工程结合研究者
相关法规建设
2022年4月由中共中央办公厅印发的《国家“十四五”时期哲学社会科学发展规划》强调,要推动大数据、云计算、人工智能等在哲学社会科学领域的应用,促进社会科学与自然科学的交叉渗透和融合创新,进一步拓展学科内涵,创新研究方法和技术手段。
2023年7月13日,中国国家网信办联合国家发展改革委、教育部、科技部、工业和信息化部、公安部、广电总局公布了《生成式人工智能服务管理暂行办法》。其中,明确生成式人工智能服务提供者应当依法开展预训练、优化训练等训练数据处理活动,使用具有合法来源的数据和基础模型;涉及知识产权的,不得侵害他人依法享有的知识产权;涉及个人信息的,应当取得个人同意或者符合法律、行政法规规定的其他情形;采取有效措施提高训练数据质量,增强训练数据的真实性、准确性、客观性、多样性。此外,明确了数据标注的相关要求。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
文章投诉热线:182 3641 3660 投诉邮箱:7983347 16@qq.com