好多公司为啥只做网站不考虑推广广元市建设局网站首页-彰化县网站建设公司-Seo优化

好多公司为啥只做网站不考虑推广,广元市建设局网站首页,上市公司网站的作用,wordpress 钩子列表【SAM2系列01】SAM2概述——从图像分割到视频分割的飞跃本文是SAM2系列博客的第一篇#xff0c;介绍SAM2#xff08;Segment Anything Model 2#xff09;的诞生背景、核心改进、与SAM的对比分析#xff0c;以及其在视频分割领域的突破性贡献。1. 引言 2024年7月#xff0…【SAM2系列01】SAM2概述——从图像分割到视频分割的飞跃本文是SAM2系列博客的第一篇介绍SAM2Segment Anything Model 2的诞生背景、核心改进、与SAM的对比分析以及其在视频分割领域的突破性贡献。1. 引言2024年7月Meta AI发布了Segment Anything Model 2SAM2这是SAM的重大升级版本。SAM2不仅继承了SAM在图像分割上的强大能力更将其扩展到了视频分割领域实现了对任意视频中任意对象的实时分割与追踪。SAM2的发布标志着视频基础模型时代的到来。2. 视频分割的挑战2.1 视频分割任务概述视频分割是计算机视觉中的核心任务之一主要包括任务类型描述典型应用视频对象分割VOS分割并追踪指定对象视频编辑、特效制作视频实例分割VIS检测并分割所有实例自动驾驶、监控分析视频语义分割像素级类别标注场景理解视频全景分割统一实例和语义分割综合场景分析2.2 从图像到视频的核心挑战1时序一致性Temporal Consistency视频中的对象需要在时间维度上保持一致的分割结果避免出现掩码闪烁Flickering身份切换ID Switch分割漂移Drift2遮挡处理Occlusion Handling视频中对象经常被遮挡系统需要能够在遮挡时保持对象记忆遮挡消失后重新识别对象3外观变化Appearance Change对象在视频中的外观会发生变化姿态变化光照变化尺度变化形变4实时性要求Real-time Processing许多应用场景需要实时处理直播编辑AR/VR应用自动驾驶2.3 SAM在视频分割上的局限原始SAM针对单帧图像设计直接用于视频分割存在以下问题无时序建模每帧独立处理无法利用时序信息需要逐帧提示用户需要在每帧提供交互无法处理遮挡对象被完全遮挡后无法恢复效率问题逐帧编码计算量大3. SAM2的核心设计理念3.1 统一的图像-视频架构SAM2采用了统一架构来同时处理图像和视频图像被视为单帧视频视频分割利用帧间信息同一模型适用于两种场景这种设计带来以下优势架构简洁统一图像分割能力不受影响视频分割自然继承图像分割能力3.2 流式处理架构SAM2采用**流式Streaming**处理方式帧1编码解码预测记忆更新帧2编码记忆注意力解码预测记忆更新帧3编码记忆注意力解码预测特点逐帧处理支持流式输入通过记忆机制传递时序信息支持任意长度视频3.3 记忆机制SAM2引入了**Memory Bank记忆库**来存储和检索历史信息Memory Bank{(Mi,Fi)∣i∈selected frames}\text{Memory Bank} \{(M_i, F_i) | i \in \text{selected frames}\}Memory Bank{(Mi,Fi)∣i∈selected frames}其中MiM_iMi是掩码信息FiF_iFi是特征信息。记忆机制解决了时序信息传递遮挡恢复长期依赖建模4. SAM2与SAM的对比4.1 架构对比组件SAMSAM2图像编码器ViT-H (MAE预训练)Hiera (层级编码器)提示编码器点/框/掩码编码相同解码器Transformer解码器Memory-Conditioned解码器记忆模块无Memory Bank Memory Attention时序建模无流式处理记忆机制4.2 能力对比能力SAMSAM2图像分割支持支持性能提升视频分割不支持支持遮挡处理不支持支持实时处理部分支持支持零样本迁移支持支持交互式修正支持支持时间维度4.3 性能对比图像分割性能在SA-23数据集上模型mIoU参数量SAM ViT-H70.4636MSAM2 Hiera-L72.1224MSAM2 Hiera-B71.080MSAM2在参数量更少的情况下图像分割性能反而更好。视频分割性能在SA-V数据集上指标SAM (逐帧)SAM2JF52.376.4J49.874.1F54.878.7SAM2在视频分割上大幅领先。4.4 效率对比指标SAM ViT-HSAM2 Hiera-L参数量636M224MFLOPs2973G799G推理速度~20 FPS~44 FPSSAM2在速度和效率上都有显著提升。5. SAM2的关键改进5.1 Hiera图像编码器SAM2使用**HieraHierarchical Vision Transformer**替代原始的ViTHiera的特点层级结构支持多尺度特征去除冗余的位置嵌入MAE预训练高效训练更好的速度-精度权衡Hiera的层级结构输入图像 ↓ Stage 1: 高分辨率浅层特征 ↓ (下采样) Stage 2: 中分辨率中层特征 ↓ (下采样) Stage 3: 低分辨率高层特征 ↓ (下采样) Stage 4: 最低分辨率语义特征多尺度特征用于提供给Memory Attention生成最终掩码5.2 Memory Attention模块Memory Attention是SAM2的核心创新它让当前帧的特征能够查询历史记忆OutputAttention(QFcurrent,KMmemory,VMmemory)\text{Output} \text{Attention}(QF_{current}, KM_{memory}, VM_{memory})OutputAttention(QFcurrent,KMmemory,VMmemory)记忆库当前帧QueryKey,ValueKey,ValueKey,ValueKey,Value当前帧特征帧t-1记忆帧t-5记忆帧t-10记忆提示帧记忆Memory Attention增强特征5.3 Memory Bank设计Memory Bank存储多种类型的记忆1Spatial Memory空间记忆存储历史帧的空间特征用于空间对应和匹配2Object Pointer对象指针轻量级对象表示用于长期追踪3Temporal Position Encoding时序位置编码编码帧的相对时间位置帮助模型理解时序关系记忆更新策略保留最近的N帧记忆保留用户提示帧的记忆动态调整记忆大小5.4 遮挡感知机制SAM2能够处理对象被完全遮挡的情况遮挡检测通过预测的IoU分数判断对象是否被遮挡记忆保持遮挡期间保持对象记忆不更新重识别遮挡消失后通过记忆匹配重新识别对象Occlusion Score1−IoUpred\text{Occlusion Score} 1 - \text{IoU}_{pred}Occlusion Score1−IoUpred当遮挡分数超过阈值时模型进入遮挡模式。5.5 多对象追踪SAM2支持同时追踪多个对象每个对象独立维护记忆共享图像编码计算支持对象间交互建模# 概念示意objects{obj_1:{memory:[...],mask:...},obj_2:{memory:[...],mask:...},obj_3:{memory:[...],mask:...},}6. SA-V数据集6.1 数据集概述SAM2配套发布了**SA-VSegment Anything Video**数据集统计项数值视频数量50,900总帧数约6.4M掩码标注数35.5Mmasklet平均视频长度14秒标注对象数190,0006.2 数据集特点1高质量标注专业团队手工标注关键帧密集标注自动传播人工修正2多样性涵盖各种场景各种对象类型各种运动模式3挑战性场景遮挡场景快速运动形变对象相似对象6.3 标注流程SA-V使用SAM2辅助的标注流程否是选择关键帧人工标注关键帧SAM2自动传播人工审核修正质量合格?补充标注完成7. 应用场景7.1 视频编辑与特效对象移除追踪并移除视频中的对象背景替换分割前景替换背景颜色校正对特定对象进行颜色调整特效添加为追踪对象添加特效7.2 视频分析行为分析追踪人物进行行为识别运动分析体育视频中的运动员追踪交通监控车辆追踪和计数7.3 AR/VR应用实时分割AR中的实时对象分割虚实融合将虚拟对象与真实场景融合交互式体验用户与视频中对象交互7.4 自动驾驶场景理解道路场景的实时分割对象追踪行人、车辆追踪预测规划基于追踪结果进行轨迹预测7.5 医学影像器官追踪手术视频中的器官追踪病灶监测追踪病灶变化手术导航实时分割辅助手术8. SAM2的局限性尽管SAM2取得了显著进步仍存在一些局限8.1 仍存在的挑战极端遮挡长时间完全遮挡后的恢复快速运动运动模糊导致分割困难相似对象多个相似对象的区分小目标追踪小尺寸对象的长期追踪计算资源虽然比SAM快但仍需要GPU8.2 潜在的改进方向结合光流等显式运动建模引入对象级语义理解进一步优化效率3D视频分割9. SAM2生态系统9.1 官方资源代码仓库https://github.com/facebookresearch/segment-anything-2模型权重多种规模可选在线Demo交互式体验9.2 社区贡献SAM2-Studio视频编辑工具SAM2-WebUI网页版界面Mobile-SAM2移动端优化版本10. 总结SAM2是视频分割领域的重要里程碑其核心贡献包括统一架构首次将图像和视频分割统一到单一模型记忆机制创新的Memory Bank和Memory Attention设计遮挡处理有效处理视频中的遮挡问题效率提升更快的速度和更少的参数SA-V数据集大规模高质量视频分割数据集SAM2的发布预示着视频理解的基础模型时代的到来将对视频编辑、AR/VR、自动驾驶等领域产生深远影响。参考文献Ravi, N., et al. “SAM 2: Segment Anything in Images and Videos.” arXiv 2024.Kirillov, A., et al. “Segment Anything.” ICCV 2023.Ryali, C., et al. “Hiera: A Hierarchical Vision Transformer without the Bells-and-Whistles.” ICML 2023.Oh, S. W., et al. “Video Object Segmentation Using Space-Time Memory Networks.” ICCV 2019.Cheng, H. K., et al. “XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin Memory Model.” ECCV 2022.上一篇【SAM系列04】SAM代码实践——从安装到应用的完整指南下一篇【SAM2系列02】SAM2模型架构详解——Hiera编码器与Memory机制

好多公司为啥只做网站不考虑推广广元市建设局网站首页

做网站备案需要多长时间网站收录差

企业建设网站公司名称大全怎么注册公司微信

网站美工主要工作是什么joomla3.8与wordpress

深圳华企网站建设温州排名推广

受雇去建设网站类网站网站建设百强企业

青海网站建设网站模板能自己做吗

好多公司为啥只做网站 不考虑推广广元市建设局网站首页

做网站备案需要多长时间网站收录差

企业建设网站公司名称大全怎么注册公司微信

网站美工主要工作是什么joomla3.8与wordpress

深圳华企网站建设温州排名推广

受雇去建设网站类网站网站建设百强企业

青海网站 建设网站模板能自己做吗

好多公司为啥只做网站不考虑推广广元市建设局网站首页

青海网站建设网站模板能自己做吗