开yun体育网即使输出的token可以很长-2024欧洲杯官网- 欢迎您&

著述转自公众号老刘说NLP开yun体育网
先看一个意念念意念念的话题。特定大模子的输出是有一个「信息量」的上限的,即使输出的token可以很长,关联词其包含的信息量并莫得骨子各别,只不外是车轱辘话往还说结果,大概等于一些无关痛痒的话来填充,信息密度本质上是下落的。
这是一个很意念念意念念的额问题,咱们可以从PPL、词汇丰富度、主题数来看,也有社区一又友说,可以适用信息熵来作念,但这个其实是用来揣测不细目性的,是以群众怎样看这个事情呢?
今天,咱们来望望几个问题。一个是工业大模子行业落地的三个不雅点,讲的还可以。
另一个对于视频相识多模态说明综述,对于相识多模态视频这块的本事、已毕范式和数据有匡助。
一、对于工业大模子行业落地的三个不雅点
最近看到一个很可以的工业大模子行业阐发,2024年中国工业大模子行业发展究诘阐发:https://www.idigital.com.cn/report/4385?chk=1&type=0,其中有个三个不雅点,回来的相比好,供群众一齐参考。
不雅点1:大模子落地工业运用的几种念念路
简陋prompt教唆词法、RAG(检索增强)、主动发问与函数调用、微调四种念念路,其中RAG和微调为当今工业界限较为常见的运用念念路
不雅点2:大模子落地工业运用无间见的几种架构
对于大模子落地工业运用时间,常见的可以分为以下几种架构:
路由分发架构口头、大模子代理架构口头、基于缓存的微调架构口头、面向指场地Agent架构口头、智能体组合架构口头架构,每个具体行径和优裂缝如下:
不雅点3:对于大模子和小模子的隔离
在进行工业运用时,大小模子各有长处,其才调皆不行淡薄,现时也不存在谁替代谁的情况。
大模子落地工业运用时,主要依托于高大的生成才和解针对复杂信息的捕捉与构建才调,因此在常识问答、文本/图片生成等以创造见长的场景运用相比多。
而小模子则凭借高性价比、瞻望遵守相瞄准确等上风,在工业质检、缔造珍摄等场景高度训练。
二、对于视频相识多模态说明综述
最近的使命《From Seconds to Hours: Reviewing MultiModal Large Language Models on Comprehensive Long Video Understanding》(https://arxiv.org/abs/2409.18938),这个使命综述长视频理免除务,重心分析其独到挑战并回来模子与磨练本事说明,咱们可以望望。
可以望望几个中枢的点:
1、视频相识大模子的演化
2、图像-、短视频-和长视频-多模态大型言语模子(MM-LLMs)之间的相比
3、图像、短视频和长视频的视觉相识经由
4、图像、短视频和长视频的视觉相识的多模态模子
5、主流磨练范式和代表模子对比
"PT" 和 "IT" 别离代表模子磨练过程中的预磨练和指示休养两个阶段。字母 "Y"(是)和 "N"(否)暗示在这些阶段是否使用了图像、短视频和长视频言语数据集。"E2E" 代表端到端的磨练经由。
6、Long video长视频的预磨练阶段和微调阶段的数据样本
参考文件
1、https://www.idigital.com.cn/report/4385?chk=1&type=0
2、https://arxiv.org/abs/2409.18938开yun体育网
