弗若斯特沙利文(Frost & Sullivan,业界简称“沙利文”)携手头豹研究院,正式拉开帷幕2024年(年中)中国大模型行业研究能力评估测试的序幕。此次评估测试旨在通过“企业专业认证”的维度,邀请并鼓励各相关企业积极参与,深入剖析中国大模型产业在行业研究与应用领域的现状与发展趋势,共同推动产业向更加专业化、高效化的方向迈进,为行业的持续繁荣与向阳发展贡献力量。
评测背景
自2022年底ChatGPT向公众发布以来,AI技术从科技企业的闭门探索正式走向全人类的视野。为梳理中国大模型能力梯队与企业背景,沙利文及头豹研究院于2023年12月组织百人分析师团队,采用匿名投票制,首次对大模型行研能力进行了多维度综合评测。半年后,随着大模型能力持续迭代升级,市场竞争格局经历多轮洗牌,当下的大模型市场已焕然一新。不仅百度、阿里、腾讯等互联网大厂继续引领市场。为反映当前最真实的竞争态势,沙利文及头豹研究院在2024年6月基于最新的大模型能力,对市场上领先的21家大模型进行了梳理和评估,并深入分析其在行业研究的综合能力。
评测介绍
在报告撰写层面,本次评测覆盖20篇不同主题的报告,涵盖360 道问题,并附加分析师长期跟踪的报告问题累积超2,500道;模型能力层面,本次评测覆盖6大文本产出核心能力,涵盖108道问题,其中40%为客观题,60%为主观题;行业理解方面覆盖15大核心行业,每个行业涉及12个问题,总计180题。三大板块总计超3,100道题目。分析师团队均由沙利文及头豹研究院各团队资深分析师组成,且均具备超过14个月的大模型使用经历。评测内容具体包括:
1、报告撰写能力:
沙利文及头豹研究院联手打造的行企研究8-D方法论,是一种全面而系统的研究方法,包含了八大关键模块,用于对行业进行深入分析。在这一框架下,百名分析师经历了八个月的集中工作与多轮优化,最终研磨出了一套专业的8D模块提问方法,作为评估工具,通过向21个大模型提出问题,来测试和评价模型报告撰写的能力。
2、模型基础能力:
从AI辅助行研角度出发,结合大模型基础核心能力,归总出对于行研报告撰写角度最重要的六大能力维度。
逻辑推理:逻辑推理是指通过系统性地分析和演绎现有信息,推导出合理结论的能力。这包括识别因果关系、评估假设的有效性、解决复杂问题以及进行有效决策。
总结提炼:总结提炼是指从大量且复杂的信息中提取出关键要点和核心观点的能力。这要求能够迅速识别信息的重点,去除冗余,确保最终信息简洁明了且具有针对性。
知识储备:知识储备是指广泛掌握并灵活应用各领域信息和概念的能力。这不仅包括记忆和理解大量事实和概念,还包括将这些知识应用于实际问题和情境中,以提供准确的解答和分析。
长文本生成:长文本生成是指基于给定主题或信息,撰写结构化、连贯且详细长篇文章的能力。这涉及组织逻辑清晰的段落,保持一致的主题,确保内容丰富且有深度,满足多种内容创作需求。
意图理解:意图理解是指准确识别和理解他人表达的目的、需求和期望的能力。这需要通过语言、语境和非语言线索,解读隐含的信息,确保交流的有效性和针对性。
角色扮演:角色扮演是指在特定情境中模拟和扮演特定角色,以实现目标或深入理解情境的能力。这包括灵活适应多样化的交互需求,通过模拟不同角色的视角和行为,提供有效的解决方案和反馈。
3、行业理解能力:
头豹研究院成立至今,平台共积累超20万+注册用户,6,000+行业及企业研究报告积累,覆盖145大类行业,以及上千个细分小类行业。在本次大模型行研能力评测中,沙利文联合头豹上海、南京和深圳三大研究院,汇聚了跨越多个行业领域的百余名分析师,利用自身对竞争格局、发展趋势、制约因素、以及行业壁垒等关键知识领域的深厚理解,并结合丰富的行业报告撰写经验,向模型提出了针对15个主要行业的细致问题,最终对21大模型在行业理解和内容产出方面进行深度评估。
评测流程
《2024年中国大模型行研能力评测》从研究启动到最终结果呈现分为四个阶段:
1)第一阶段,模型选择:沙利文联合头豹进行了深入的市场调研,借助数字行研的研究与实践经验,结合分析师团队的投票结果,选取21个当前市场主流大模型作为评测对象。
2)第二阶段,内容收集:沙利文联合头豹组建报告测评团队,随机匿名分配大模型至团队成员进行大模型测评答案搜集,并将答案交付至评估团队深入分析。
3)第三阶段,分析师评测与裁判模型打分:首先,由来自不同行业背景的资深分析师组成的团队,共20人对大模型测评答案进行仔细审阅和评估。为杜绝评测人员的模型偏见问题,答案采用完全随机方式展示,模型名称以代码名称代替,以确保评测人员在审阅时不了解其背后的具体模型从而最大程度杜绝模型偏见。其次,会调用10个大模型API作为裁判模型对答案进行评分。最终,结合20人分析师团队评分结果与10个裁判模型的打分结果进行综合详细的分析和处理,以得到当前大模型在行研能力的评测结果。
4)第四阶段,结果发布:发布《2024年中国大模型行研能力评测》报告结果,并通过多个媒体宣传渠道,包括官方网站、金融服务平台以及公众号等,广泛传达评测报告中的关键发现和深度行业见解,旨在深入向公众传递对中国大模型在行业研究的能力展示。
评测规则
基于研究内容独立、公正及客观性的原则,沙利文及头豹研究院评测团队以严格的双盲形式进行评估打分,经过严谨公正的评分规则进行结果产出。
研究计划
●《2024年中国大模型行研能力测评》研究启动—2024年6月
● 确认参选大模型并进行问题涉及以及答案搜集—2024年7月
● 沙利文联合头豹研究院资深分析师团队评审—2024年7月
●《2024年中国大模型行研能力评测》报告发布(预计)—2024年8月
随着数字化浪潮的不断推进,AI已成为推动全球科技创新和产业升级的关键力量。当前,全球范围内对AI的研究和应用正以前所未有的速度发展,中国作为全球AI发展的重要参与者和贡献者,正以其独特的优势和战略眼光,加速构建一个开放、合作、共赢的AI发展环境。政府的政策支持、企业的创新活力、学术界的深入研究以及公众的广泛参与,共同构成了中国AI发展的坚实基础。从基础理论研究到应用场景的广泛实践,中国AI正展现出强大的生命力和广阔的发展前景。
在此背景下,2024沙利文新投资大会特别策划并推出AI重构数字经济分论坛。论坛由弗若斯特沙利文、头豹联合主办,中国信通院协办,将于8月30日举办,旨在集结AI行业专家学者、行业领袖、创新企业、投资机构及专业服务机构等多方力量,深入剖析AI的发展现状,探讨全球创新发展的新趋势。通过深入交流和智慧碰撞,激发宝贵的思想和实践方案,共绘AI新未来的美好蓝图。《2024年中国大模型行研能力年中评测》将于会上发布!欢迎关注!
扫描二维码
即刻报名沙利文新投资大会
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
文章投诉热线:157 3889 8464 投诉邮箱:7983347 16@qq.com