网站有风险提示怎么办军事新闻最新消息11

张小明 2026/1/19 19:15:24
网站有风险提示怎么办,军事新闻最新消息11,广州网站制作托管,做电脑租赁网站day26 回答准确率测试 回答准确率测试 1️⃣ 定义#xff08;通俗版#xff09; 回答准确率测试#xff0c;就是#xff1a; 给模型一批「有标准答案的问题」#xff0c;看它给出的回答有多少是“对的”本质是一个 评测#xff08;Evaluation#xff09;问题。2️⃣ 数学…day26 回答准确率测试回答准确率测试1️⃣ 定义通俗版回答准确率测试就是给模型一批「有标准答案的问题」看它给出的回答有多少是“对的”本质是一个 评测Evaluation问题。2️⃣ 数学定义简单版假设你有N 个问题模型答对了 K 个那么Accuracy K / N例如100 个问题答对 83 个 准确率 83%3️⃣ 在 LLM 领域的特殊性和传统分类不同LLM 的回答是 自然语言❌ 不是 “A / B / C” ✅ 而是 “一段文本”因此 “什么叫答对” 就成了核心难点。二、回答准确率测试的关键概念LLM 视角1️⃣ 三种常见“准确”的定义✅ 1. Exact Match严格匹配模型回答 标准答案✔ 简单❌ 对 LLM 非常不友好✅ 2. 语义等价Semantic Match含义一致即可例如标准答案“巴黎是法国的首都”模型回答“法国的首都是巴黎”✔ 更符合人类判断❌ 需要额外模型判断✅ 3. LLM-as-a-Judge主流方案用 另一个 LLM 来判断“模型回答是否正确”这是目前工业界、论文里最常见的方法。2️⃣ 回答准确率 ≠ 检索准确率如果你用了 RAG检索增强生成要分清指标衡量什么检索准确率找到的文档对不对回答准确率最终回答对不对三、整体 Demo 架构┌────────────┐ │ Questions │ └─────┬──────┘ │ ┌─────────▼─────────┐ │ Chroma 向量数据库 │ ← 知识库 └─────────┬─────────┘ │ ┌─────────▼─────────┐ │ Qwen-Plus │ ← 生成回答 └─────────┬─────────┘ │ ┌─────────▼─────────┐ │ Accuracy Judge │ ← 再用 Qwen-Plus └─────────┬─────────┘ │ Accuracy四、 Demo可运行Step 0准备 requirements.txtopenai1.0.0 chromadb0.4.22 tqdm python-dotenv安装pipinstall-r requirements.txtStep 1配置 Qwen-Plus⚠️ Qwen 使用 阿里云 DashScopeOpenAI 兼容接口importosfromopenaiimportOpenAI clientOpenAI(api_keyos.getenv(DASHSCOPE_API_KEY),base_urlhttps://dashscope.aliyuncs.com/compatible-mode/v1)Step 2构建一个最小知识库Chromaimportchromadb chroma_clientchromadb.Client()collectionchroma_client.create_collection(namedemo_kb)docs[巴黎是法国的首都。,东京是日本的首都。,北京是中国的首都。]collection.add(documentsdocs,ids[fdoc{i}foriinrange(len(docs))])Step 3定义测试问题带标准答案eval_set[{question:法国的首都是哪里,answer:巴黎},{question:日本的首都是哪里,answer:东京},]Step 4RAG Qwen-Plus 生成回答defanswer_question(question):# 1. 检索resultscollection.query(query_texts[question],n_results1)contextresults[documents][0][0]# 2. 生成promptf 已知信息{context}问题{question}请给出简洁准确的回答。 respclient.chat.completions.create(modelqwen-plus,messages[{role:user,content:prompt}])returnresp.choices[0].message.content.strip()Step 5用 LLM 判断“是否正确”核心defjudge_answer(question,gt_answer,model_answer):judge_promptf 你是一个严格的评测员。 问题{question}标准答案{gt_answer}模型回答{model_answer}请判断模型回答是否正确。 只回答 YES 或 NO。 respclient.chat.completions.create(modelqwen-plus,messages[{role:user,content:judge_prompt}])returnresp.choices[0].message.content.strip().upper()YESStep 6计算准确率correct0foritemineval_set:model_ansanswer_question(item[question])is_correctjudge_answer(item[question],item[answer],model_ans)print(item[question],model_ans,is_correct)ifis_correct:correct1accuracycorrect/len(eval_set)print(fAccuracy:{accuracy:.2%})
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

中国软件外包公司排行保定seo排名

Auto-Subtitle:3分钟为视频添加智能字幕的完整指南 【免费下载链接】auto-subtitle Automatically generate and overlay subtitles for any video. 项目地址: https://gitcode.com/gh_mirrors/au/auto-subtitle 在当今视频内容主导的数字时代,你…

张小明 2026/1/17 17:45:20 网站建设

国通快速建站建设网站费怎么入账

客户使用苹果手机&#xff0c;出现底部固定定位按钮看不见问题。是渲染了的&#xff0c;下拉的时候能看到有&#xff0c;正常页面上没有看见 解决封装成一个组件方便后续使用。 代码&#xff1a; <template><view class"my-fixed-container"><view r…

张小明 2026/1/17 17:45:21 网站建设

重视网站阵地建设广州游戏网站建设

MySQL 事务执行链不是“BEGIN → SQL → COMMIT”&#xff0c;而是一条跨越连接层、SQL 层、存储引擎层、日志系统、锁管理器的精密协作路径。一、事务执行的 5 个阶段&#xff08;以 START TRANSACTION 到 COMMIT 为例&#xff09; 1. 事务启动 → 2. 语句执行 → 3. 写日志 →…

张小明 2026/1/17 17:45:24 网站建设

广东专业做网站空间域名免费申请

Transformer 模型训练中的梯度裁剪&#xff1a;从原理到实战 在构建大规模语言模型的今天&#xff0c;一个看似微小的技术细节&#xff0c;往往决定了整个训练过程是平稳收敛还是彻底崩溃。你有没有遇到过这样的情况&#xff1a;模型刚开始训练&#xff0c;损失值突然飙升到 N…

张小明 2026/1/17 17:45:25 网站建设

住房城乡建设部网站首页汕头seo外包机构

一、环境配置与初始化命令功能说明示例git config --global user.name "用户名"配置全局提交者姓名&#xff08;仅首次使用需配置&#xff09;git config --global user.name "lucideyes"git config --global user.email "邮箱"配置全局提交者邮…

张小明 2026/1/17 17:45:25 网站建设

制作单页网站多少钱外包公司什么意思

函数只需要 “哪个 ADC” 的地址&#xff08;指针&#xff09;&#xff0c;而 XT_ADCx 本身就是指针&#xff0c;直接传就行&#xff1b;只有当你要 “修改 / 访问 ADC 内部的寄存器&#xff08;结构体内容&#xff09;” 时&#xff0c;才需要加 *&#xff08;或用 -> 简写…

张小明 2026/1/17 17:45:26 网站建设