自建网站三种模式益阳房产网站建设

张小明 2026/1/19 20:37:08
自建网站三种模式,益阳房产网站建设,河南做网站优化,公司做网站需要什么条件在Windows应用程序中于NVIDIA RTX AI PC上部署高性能AI模型 如今#xff0c;某中心正面向开发者提供Windows ML。Windows ML使C#、C和Python开发者能够利用PC硬件#xff08;从CPU、NPU到GPU#xff09;在本地高效运行AI模型。在NVIDIA RTX GPU上#xff0c;它利用为RTX定制…在Windows应用程序中于NVIDIA RTX AI PC上部署高性能AI模型如今某中心正面向开发者提供Windows ML。Windows ML使C#、C和Python开发者能够利用PC硬件从CPU、NPU到GPU在本地高效运行AI模型。在NVIDIA RTX GPU上它利用为RTX定制的NVIDIA TensorRT执行提供程序并借助GPU的Tensor Core以及FP8和FP4等架构优势为基于Windows的RTX AI PC提供最快的AI推理性能。“Windows ML为GeForce RTX和RTX Pro GPU解锁了完整的TensorRT加速功能在Windows 11上提供了卓越的AI性能”某中心副总裁、杰出工程师Logan Iyer表示。“我们很高兴它今天正式向开发者开放以便大规模构建和部署强大的AI体验。”Windows ML与为RTX优化的TensorRT EP概述Windows ML构建于用于推理的ONNX Runtime API之上。它扩展了ONNX Runtime API以处理PC上跨CPU、NPU和GPU硬件的执行提供程序的动态初始化和依赖管理。此外Windows ML还会根据需要自动下载必要的执行提供程序从而减少了应用开发者跨多个不同硬件供应商管理依赖项和软件包的需求。为RTX优化的NVIDIA TensorRT执行提供程序为使用ONNX Runtime的Windows ML开发者带来了多项优势与之前在NVIDIA RTX GPU上的DirectML实现相比以低延迟推理运行ONNX模型吞吐量提升50%如下图所示。通过其灵活的EP架构以及与ORT的集成直接与WindowsML集成。为最终用户设备上的简化部署提供即时编译。了解更多关于TensorRT for RTX内的编译过程。此编译过程在ONNX Runtime中作为EP上下文模型受支持。利用Tensor Core上的架构进步如FP8和FP4。轻量级软件包仅不到200 MB。支持多种模型架构从LLM通过ONNX Runtime GenAI SDK扩展、扩散模型、CNN等。了解更多关于TensorRT for RTX的信息。选择执行提供程序与WindowsML一同提供的ONNX Runtime 1.23.0版本提供了与供应商和执行提供程序无关的设备选择API。这极大地减少了为每个硬件供应商平台利用最优执行提供程序所需的应用程序逻辑。请参阅以下代码摘录了解如何有效实现此操作并在NVIDIA GPU上获得最佳性能。// 注册所需的各种供应商执行提供程序库autoenvOrt::Env(ORT_LOGGING_LEVEL_WARNING);env.RegisterExecutionProviderLibrary(nv_tensorrt_rtx,Lonnxruntime_providers_nv_tensorrt_rtx.dll);// 选项 1: 依赖ONNX Runtime执行策略Ort::SessionOptions sessions_options;sessions_options.SetEpSelectionPolicy(OrtExecutionProviderDevicePolicy_PREFER_GPU);// 选项 2: 遍历EpDevices以执行手动设备选择std::vectorOrt::ConstEpDeviceep_devicesenv.GetEpDevices();std::vectorOrt::ConstEpDeviceselected_devicesselect_ep_devices(ep_devices);Ort::SessionOptions session_options;Ort::KeyValuePairs ep_options;session_options.AppendExecutionProvider_V2(env,selected_devices,ep_options);# 注册所需的各种供应商执行提供程序库ort.register_execution_provider_library(NvTensorRTRTXExecutionProvider,onnxruntime_providers_nv_tensorrt_rtx.dll)# 选项 1: 依赖ONNX Runtime执行策略session_optionsort.SessionOptions()session_options.set_provider_selection_policy(ort.OrtExecutionProviderDevicePolicy.PREFER_GPU)# 选项 2: 遍历EpDevices以执行手动设备选择ep_devicesort.get_ep_devices()ep_deviceselect_ep_devices(ep_devices)provider_options{}sess_options.add_provider_for_devices([ep_device],provider_options)提供快速加载时间的预编译运行时模型运行时现在可以使用ONNX Runtime内的EP上下文ONNX文件进行预编译。每个执行提供程序都可以利用此功能优化ONNX模型的整个子图并提供EP特定的实现。此过程可以序列化到磁盘以便与WindowsML实现快速加载通常这比之前Direct ML中传统的基于算子的方法更快。下图显示TensorRT for RTX EP需要时间进行编译但由于优化已经序列化加载和模型推理速度更快。此外TensorRT for RTX EP内的运行时缓存功能确保编译阶段生成的内核被序列化并存储到目录中这样在后续推理时无需重新编译。通过ONNX Runtime设备API和Windows ML实现最小的数据传输开销新的ONNX Runtime设备API在Windows ML中也可用枚举了每个执行提供程序的可用设备。利用这个新概念开发者现在可以分配设备特定的张量而无需额外的依赖于EP的类型规范。通过利用CopyTensors和IOBinding此API使开发者能够以最小的运行时数据传输开销执行与EP无关的GPU加速推理从而提高性能并实现更清晰的代码设计。图5展示了利用ONNX Runtime设备API的Stable Diffusion 3.5 Medium模型。下面的图4展示了同一模型在扩散循环中单次迭代所需的时间分别在有设备IO绑定和没有设备IO绑定的情况下。使用Nsight系统可以可视化在不使用IO绑定时由于主机和设备之间重复复制而产生的性能开销在每次推理运行之前都会执行输入张量的复制操作在我们的性能分析中以绿色高亮显示而输出的设备到主机复制也大约需要相同的时间。此外ONNX Runtime默认使用可分页内存对于这种内存设备到主机的复制是隐式同步的尽管ONNX Runtime使用了cudaMemCpyAsync API。另一方面当输入和输出张量被IO绑定时输入的主机到设备复制仅在多模型推理流水线开始之前发生一次。输出的设备到主机复制同样如此之后我们再次同步CPU和GPU。上面的异步Nsight跟踪描述了循环中的多次推理运行期间没有任何复制操作或同步操作甚至在此期间释放了CPU资源。这导致设备复制时间为4.2毫秒一次性的主机复制时间为1.3毫秒使得总复制时间仅为5.5毫秒与推理循环中的迭代次数无关。作为参考这种方法使30次迭代循环的复制时间减少了约75倍TensorRT for RTX特定优化TensorRT for RTX执行提供自定义选项以进一步优化性能。最重要的优化如下CUDA图通过设置enable_cuda_graph来启用以捕获TensorRT启动的所有CUDA内核到一个图中从而减少CPU上的启动开销。如果TensorRT图启动许多小内核以致GPU执行这些内核的速度快于CPU提交它们的速度这一点就非常重要。此方法为LLM带来约30%的性能提升并且对许多模型类型包括传统AI模型和CNN架构都有用。运行时缓存nv_runtime_cache_path指向一个目录与使用EP上下文节点结合可以在其中缓存编译好的内核以实现快速加载时间。动态形状通过设置三个选项profile_{min|max|opt]_shapes来覆盖已知的动态形状范围或者通过指定静态形状使用AddFreeDimensionOverrideByName来固定模型的输入形状。目前此功能处于实验模式。总结很高兴与某中心合作为Windows应用程序开发者带来Windows ML和TensorRT for RTX EP以在NVIDIA RTX GPU上实现最大性能。包括Topaz Labs和Wondershare Filmora在内的顶级Windows应用程序开发者目前正在努力将Windows ML和TensorRT for RTX EP集成到他们的应用程序中。通过以下资源开始使用Windows ML、ONNX Runtime API和TensorRT for RTX EPWindows ML文档Windows ML示例ONNX Runtime API示例构建专为ONNX Runtime GenAI和NVIDIA TensorRT for RTX优化的LLM模型ONNX Runtime的API文档TensorRT for RTX EP文档请持续关注未来的改进并通过我们的示例演示的新API加快学习速度。如果您有任何功能请求欢迎在GitHub上提出问题并告知我们致谢感谢Gaurav Garg、Kumar Anshuman、Umang Bhatt和Vishal Agarawal对本博客的贡献。更多精彩内容 请关注我的个人公众号 公众号办公AI智能小助手或者 我的个人博客 https://blog.qife122.com/对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号网络安全技术点滴分享
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

dw做的网站乱码做网站要不要用控件

ComfyUI背景移除革命:BiRefNet插件深度解析与实战指南 【免费下载链接】ComfyUI-BiRefNet-ZHO Better version for BiRefNet in ComfyUI | Both img & video 项目地址: https://gitcode.com/gh_mirrors/co/ComfyUI-BiRefNet-ZHO 还在为抠图烦恼吗&#x…

张小明 2026/1/17 15:32:17 网站建设

长春建设网站公司WordPress插件Discuz

学习目标:掌握链式法则,理解优化理论基础 预计时间:15-20分钟 前置知识:导数基础(3.1)、偏导数与梯度(3.2)📋 本篇内容 链式法则 → 多层链式法则 → 极值点 → 凸函数 →…

张小明 2026/1/17 15:32:17 网站建设

做网站 (公司)wordpress主题 时间轴

当你面对千亿参数大模型训练时,是否经常遇到损失尖峰、训练中断的困扰?DeepSeek-V3在671B参数规模下实现了零损失尖峰的奇迹,这背后究竟隐藏着哪些关键技术?本文将为你深度解析5大核心技术,彻底改变你对大模型训练稳定…

张小明 2026/1/17 15:32:20 网站建设

做美容有哪些网站wordpress谷歌seo

如何快速提升macOS效率:免费剪贴板管理工具Clipy完整指南 【免费下载链接】Clipy Clipboard extension app for macOS. 项目地址: https://gitcode.com/gh_mirrors/cl/Clipy 在macOS平台上,想要真正实现效率提升,一个优秀的macOS剪贴板…

张小明 2026/1/17 15:32:21 网站建设

建网站与发布网站常德网站建设哪家权威

C# 调用 GLM-4.6V-Flash-WEB 模型接口:Windows 平台开发实践 在企业级智能系统日益普及的今天,如何让传统业务软件“看懂”图像内容,已成为办公自动化、文档处理和智能客服等领域的重要课题。许多开发者面临这样的困境:已有成熟的…

张小明 2026/1/17 15:32:22 网站建设

小学学校网站建设培训资料百度收录哪些网站吗

Blender插件终极指南:3MF格式工作流高效优化方案 【免费下载链接】Blender3mfFormat Blender add-on to import/export 3MF files 项目地址: https://gitcode.com/gh_mirrors/bl/Blender3mfFormat Blender作为业界领先的开源3D建模软件,通过与3MF…

张小明 2026/1/17 15:32:22 网站建设