抚顺外贸网站建设企业培训心得

张小明 2026/1/19 15:57:24
抚顺外贸网站建设,企业培训心得,网站设计的关键,咸宁制作网站原文#xff1a;towardsdatascience.com/how-to-improve-graphs-to-empower-your-machine-learning-models-performance-f7a533a73fc2 由拓扑信息定义的图在许多机器学习场景中很有帮助。它们可用于社区检测、节点影响、分类和其他任务。机器学习模型在这些任务上所能达到的性…原文towardsdatascience.com/how-to-improve-graphs-to-empower-your-machine-learning-models-performance-f7a533a73fc2由拓扑信息定义的图在许多机器学习场景中很有帮助。它们可用于社区检测、节点影响、分类和其他任务。机器学习模型在这些任务上所能达到的性能将强烈依赖于图的质量这使得提高图的质量变得非常重要。鉴于图质量的重要性本文将讨论如何提高用于机器学习的图的质量。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/859ecd50cd117e653ba046f026e0bf61.png在本文中学习如何改进图。图片由 ChatGPT 提供。“为以下标题创建一篇文章的图片如何改进使用拓扑信息定义的图”提示。ChatGPT4OpenAI2024 年 4 月 3 日。chat.openai.com.动机本文的动机在于我正在从事一个涉及图的项目。我创建的图的质量对于我的社区聚类算法的性能至关重要这就是为什么我花费了大量时间理论化如何提高图的质量。我在自己的图上测试了本文中提到的每个想法。有些想法提高了我的图的质量有些降低了质量有些则没有明显影响。如果您想了解更多关于每个想法对您的图可能产生的影响您可以阅读以下我发表在 Towards Data Science 上的关于测试图质量的文章如何测试图质量以提升图机器学习性能本文的结构是每个部分将涵盖一个用于提高图质量的想法。其中一些想法可能对您有所帮助而另一些可能需要更有帮助。本文的目的是为您提供如何提高图质量的想法。在机器学习中您很少能保证某个特定的实现会有效。相反您必须尝试不同的理论看看它们在您的用例中表现如何。随着时间的推移您将建立起对什么可能奏效的直觉尽管亲自实现理论是发现您的机器学习算法性能如何随着新实现而变化的一种可靠方法。此外为了缩小文章的范围我将专注于拓扑定义的图。也就是说节点之间的边定义了图。相比之下你有由节点嵌入定义的图。你可以在下面看到这两种图之间的区别https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/476b57e5a18a18289333c1c82955f048.png这里是一个使用节点嵌入定义的图左和由拓扑信息表示的图右的示例。节点嵌入图中的每个节点都有一个 X 坐标和一个 Y 坐标。拓扑图仅由连接每个节点的边和每个节点的索引定义。图片由作者提供。虽然逐个应用建议的更改可能会有所影响但更改的组合将对图的质量产生显著贡献。例如减少图中的边数可能会损害质量。质量下降可能是因为减少边数可能会隔离一些节点。如果你减少边数并强制图保持连通你可能会看到图质量的改善。重要的是要记住由于难以知道哪些更改组合将对你的特定图质量产生显著影响因此可能需要组合更改以改善性能。目录· 动机 · 目录 · 什么是高质量图 · 实施测试 · 组合图 · 限制节点影响 · 调整边数 · 避免孤立节点 · 使图保持连通 · 查看创建图所用的数据 · 使用其他 ML 模型改进图 · 结论什么是高质量图首先为了确定什么可以改善图质量我们必须定义一个好的图。一个好的图是什么将取决于你使用图的目的。如果你执行社区检测一个典型的图倾向于比不相似的节点更紧密地连接相似的节点。如果你执行节点分类一个好的图可以定义为允许机器学习算法根据节点的邻居预测类别的图。当考虑节点影响时一个好的图可以是高度有影响力的节点具有高度数的图。一个好的图会因任务而异你应该定义什么使你的特定用例中的图成为好的图。在提高图质量的同时你应该始终牢记这一点。实施测试在定义你认为的高质量图之后你应该实施定量测试来反映其质量。然后你应该编写代码。例如当处理社区检测问题时我定义了一个优秀的图形其中属于同一社区的节点比属于不同社区的节点连接得更紧密。考虑到这一点我可以为图形质量开发一个量化指标有多少百分比的节点与同一标签的节点最强连接下面的图像显示了一个例子我的指标会评分为 60%因为五个节点中有三个节点与同一标签的节点最强连接。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/b2544bf193c6a5ef83354b4ace53c4ee.png一张显示与同一标签最强连接的概念的图形。每个节点中的字母是节点的真实标签边上的数字是边的权重。节点颜色表示节点是否与同一标签最强连接绿色或不同标签红色。你可以看到有三个节点是最强且连接最紧密的它们的边权重在同一标签上。图片由作者提供无论何时你想测试新的实现是否提高了我的图形质量你都可以计算我的评分指标。如果它增加这表明新的实现提高了你的图形。然后你可以通过迭代过程进一步改进你的图形。创建此类测试的重要性不容小觑。虽然最初创建此类测试可能是一种浪费时间的行为但它们在整个项目过程中可以为你节省大量时间。例如你不必手动检查通过视觉检查在新的实现之后图形质量是否有所提高你可以计算自己的评分指标。另一种测试你图形质量的方法是运行下游任务在我的情况下是社区检测。然而运行下游任务通常比计算你的评分指标花费的时间要长得多这突出了通过开发自己的指标可以节省的时间。通常很难为你的图形质量开发一个完美的评分指标。例如我用来找到与同一标签节点最强连接的节点百分比的评分指标并不完美地与我的社区检测结果相关。然而你开发的评分指标应该作为下游任务结果的代理。这意味着该指标不需要与下游任务的评分完美相关而是给出下游任务评分的指示为你节省大量时间和精力。结合图形提高你的图表质量的第一种方法是结合来自不同图表的信息。结合图表可能发生在你从不同的模态创建不同的图表时。你可以在我的《数据科学之路》文章中了解更多关于结合多模态信息的内容。从不同的图表中结合信息可以通过几种方式实现。如果你认为你的图表具有相同的重要性你可以将所有边权重相加就像你在下面的图片中看到的那样https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7abfcdcbf02ada237dd035bcfd5cfcbe.png这是两个图表结合形成一个图表的例子。左侧两个图表的边权重已经相加形成了右侧的图表。图片由作者提供。结合图表的另一种方法是只添加存在于你不同图表中的边。这是一个更严格的方法但通常会导致更正确的边在机器学习意义上更注重精确度而不是召回率。此外如果你认为你的图表具有不同的重要性这在现实世界的场景中通常是情况你可以考虑另一种方法。例如如果你有一个图像你从图像中的文本创建了一个图表并从图像中的文本创建了一个图表那么不同重要性的图表可能是这种情况。对于特定的任务如文档分类文本可能比图像更重要。在这种情况下你应该比图像图表更重视文本图表。在这种情况下提高图表质量的方法是如果边同时存在于文本和图像图表中则将其相加并忽略仅存在于图像图表中的边。此外你还可以在此处添加权重例如将图像边乘以 0.5表示假设图像的重要性是文本的一半。限制节点影响提高你的图表质量的另一种方法是限制特定节点的影响。在许多现实世界的场景中节点的度分布将遵循幂律。这意味着少数节点具有高度而大多数节点具有低度。例如幂律分布在社会网络图表如 Instagram中很典型。在这里你可以看到被大量人关注的名人。然而名人只占 Instagram 上总人数的一小部分。大多数人将拥有比名人更少的 Instagram 账户。在社会网络的情况下少数高度节点是名人而许多低度节点是其他非名人。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ce6a36dade03e8d3418d458d0f88f79a.png这是幂律分布的一个例子。在左侧大多数值高频率具有低值而在右侧较少的值低频率具有高值。这类似于社交网络图中人的连接分布。图片由作者提供。由于一些节点具有高度它们通常会显著影响图。例如在社区检测中这可能是一个缺点因为您不一定希望任何节点连接到 50%的其他节点。这是因为高度节点只能属于一个社区假设我们正在查看排他性社区检测。然而当这个节点连接到图的大部分时它可以影响属于不同社区的大量节点。在某些情况下这可能是理想的情况但在我个人的情况下并非如此。为了减少最高度节点的影響我设定了一个节点可能拥有的最大度数限制。您应该选择哪个限制将取决于您的图。由于我是从嵌入之间的相似性我将称之为相似性图创建我的图的我只保留了最高相似度的边。如果您无法优先考虑边的的重要性考虑随机移除边尽管这可能会因为自然原因而具有风险。相反我建议阅读以下部分该部分讨论了移除边的选项。如果您想了解更多关于图中节点影响力的信息您可以阅读我下面的 Towards Data Science 文章关于选择图中最有影响力的节点集如何在图中选择最有影响力的节点组合调整边的数量。此外您可以通过调整边的数量来提高图的质量。这与上一节类似但这种方法也针对低度节点。调整节点的数量可以通过增加或减少边来显著改变您的图使其更加连通或更不连通。在社区检测的情况下我根据图中边的数量经历了显著的准确性变化这就是为什么调整图中边的数量可能是一个重要的改进。调整图中边的数量有几种选择。如果你有一个具有嵌入相似性的图你可以通过只选择最相似的边来减少边的数量。例如通过设置相似性阈值保留相似度高于阈值的边。你还可以设置百分位数例如将百分位数设置为 80只保留最相似的 20%的边。例如如果你的图是一个社会网络图减少边的数量可以通过不同的方式来完成。你可以在社会网络图中移除最新的连接这意味着持续时间较长的连接比新的连接更重要。你也可以根据熟悉朋友的数量来移除边如果社会网络图中的连接与一个节点有很多共享连接那么你可以假设该节点比其他节点更重要。我建议寻找一种移除边的启发式方法而不是随机移除它们。通过随机选择来消除边会使你的管道更具随机性这通常是你想避免的。此外你通常可以找到调整边数量的良好启发式方法正如我在具有阈值和百分位数的相似图以及具有共享连接的社会网络中描述的那样。你还可以考虑增加边的数量。在相似图中你可以通过降低阈值或百分位数来增加边的数量。在社会网络图中你可以在节点之间添加许多共同连接的边。避免孤立节点避免孤立节点是一种简单而有效的技术可以提高你的图质量。当与仅由拓扑信息定义的图一起工作时每个节点的信息是由节点的邻居定义的。因此孤立节点将没有可用的信息因为它们没有邻居。强制所有孤立节点至少连接到一个节点可能是一种强大的技术。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/98b836e295a99cd27408bffbf9aca546.png这里是一个示例展示了用红色标记的两个孤立节点。孤立节点没有与节点相连的边。图片由作者提供。如果你创建自己的图并想避免孤立节点你可以在遵循上一节的情况下在图中添加更多边从而降低孤立节点的可能性。然而除非你的图是完全连接的否则节点仍然有可能孤立。你可以通过为每个孤立节点添加至少一个节点来避免孤立节点。我会在相似图中检查每个孤立节点并将其连接到其最相似的节点。另一种方法是删除所有孤立节点这在某些情况下可能是一个可行的选择。在社会网络中孤立节点价值很小并且可能对正在执行的任务不太重要。因此在社会网络中删除孤立节点可能是一个可行的策略。使图保持连接继续避免孤立节点的趋势您也可以确保图是连接的。一个连接图是一个图中每对节点之间都存在路径的图。从图中的任何节点开始您可以遍历边并最终到达任何其他节点。相比之下一个不连接的图将至少包含两个节点孤岛并且每对节点之间不存在路径。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/d5498bd7993fdcbdb0caacd85bcf77ba.png这里是一个完全连接图左、一个连接图中和一个不连接的两个节点孤岛图右的示例。图片由作者提供。然而强制图保持连接可能具有挑战性。特别是在基于相似性的图中找到要添加的最佳边集最少且最相似的边可能很困难因为您可以添加无数种可能的边集来连接图。然而如果您不需要完美的解决方案您可以简化问题。在相似性图中您首先可以找到最大的节点孤岛。然后您可以遍历所有不在最大节点孤岛中的节点并将它们连接到最大节点孤岛中最相似的节点。这将确保遍历所有不在最大节点孤岛中的节点后只有一个节点孤岛存在。上一段描述的方法是贪婪的它很简单但通常不是最优的。您可以通过一个优先考虑更多相似节点之间边的搜索算法来改进这个算法尽管这些边不在主岛上。然而这使得问题变得更加具有挑战性因此我不会深入探讨这个主题。我阅读了关于这个主题的这篇有趣的 Stack Overflow 帖子我推荐您阅读。查看创建图所用的数据另一个需要记住的重要点是图的构建方式。如果您不是自己创建图例如使用相似性图您可以忽略这一部分。如果您确实在创建图这是一个需要记住的重要点。您创建的图的质量只能与制作它的数据质量一样好。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f19cb9e4e7884e36bd9426278c0130fc.pngChatGPT 对机器学习概念“垃圾输入垃圾输出”的图像。这意味着某物只能与其制作所用的质量一样好。图由 ChatGPT 制作。“从机器学习中制作“垃圾输入垃圾输出”概念图像”提示。ChatGPT4OpenAI2024 年 4 月 3 日。chat.openai.com.我建议测试并检查你用于图表的数据。例如如果你是从嵌入中创建相似性图我写过一篇关于测试嵌入质量的文章。理解你用于创建图表的数据对于理解图表本身的质量至关重要。你不能期望创建一个比用于创建它的数据更好的图表。通过检查数据你可以发现诸如以下关键问题数据未进行归一化导致一些边权重过大严重的类别不平衡使得创建一个好的图更具挑战性没有清理文本导致文本相似度不准确这些只是你在检查数据时可以找到的一些问题的例子你自己的数据中的问题可能会自然地偏离这些。使用其他机器学习模型改进图你还可以使用其他机器学习模型来提高你图的质量。PapersWithCode 有 106 个与图相关的任务如链接预测和图结构学习。你还可以在HuggingFace上找到图机器学习模型。使用这些模型例如你可以使用预训练的链接预测模型来找到你图中的新链接。检测到你没有找到的边或图中已经存在的边可能很有趣。应用这些最先进的机器学习模型可以是一种提高图质量的创新方法。找到一个针对你需要的特定用例训练的模型以及一个预训练的模型可能具有挑战性。然而有无数种不同方式和不同任务上训练的模型这使得你最终可能找到适合你的模型。你还应该记住有些模型不可用于商业用途。例如如果你是在大学的研究工作中工作的一部分这并不是问题。如果你是在公司工作或从你的工作中赚钱你应该警惕模型许可证的商业限制。我多次吃过亏花时间整合了一个后来发现不可用于商业用途的模型。然后我不得不放弃我所做的工作浪费了几个小时这就是为什么我在这里写这个警告的原因。结论在这篇文章中我讨论了什么使图表具有高质量以及你可以和应该实施哪些测试来评估你图表的质量。此外我还提供了以下你可以采取的方法来潜在地提高你图表的质量结合图表限制节点影响调整边的数量避免孤立节点使图表连通查看创建图表所使用的数据使用其他机器学习模型改进图表这些方法中的任何一种或者它们的组合都可以提高你的图表质量。考虑这些方法是否可以帮助你解决的问题如果是的话就在你自己的图表上实施它们。你还可以阅读我在WordPress上的文章。
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

单页网站案例分析网站开发框架系统

IndexTTS2终极配置指南:快速提升语音合成质量的完整方案 【免费下载链接】index-tts An Industrial-Level Controllable and Efficient Zero-Shot Text-To-Speech System 项目地址: https://gitcode.com/gh_mirrors/in/index-tts 还在为语音合成效果不佳而烦…

张小明 2026/1/17 21:02:49 网站建设

做网站练手做彩票网站怎么样

3大性能突破:PyTorch如何重塑AI绘画框架的技术格局 【免费下载链接】stable-diffusion-webui-forge 项目地址: https://gitcode.com/GitHub_Trending/st/stable-diffusion-webui-forge 当谈及AI绘画框架的技术选型,你是否曾困惑于为何众多项目纷…

张小明 2026/1/17 21:02:49 网站建设

微网站开发提供的服务器深圳市企业网站seo点击软件

static关键字static关键字是什么static修饰变量static修饰方法static 修饰代码块类的加载顺序static关键字是什么 static 是 Java 中的修饰符,用于表示某个成员(变量、方法、代码块、内部类)属于类本身,而不是属于类的某个特定实…

张小明 2026/1/17 21:02:50 网站建设

本地搭建asp网站学校网站英文

还在为小爱音箱只能播放固定歌单而烦恼吗?小米音乐助手(xiaomusic)为你带来全新的音乐体验!这个基于Python开发的智能工具,通过整合下载引擎和小米智能设备生态,让你的小爱音箱真正成为懂你音乐口味的私人管家。无论你是技术爱好者…

张小明 2026/1/17 21:02:50 网站建设

网站右侧浮动微信二维码惠州seo排名外包

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

张小明 2026/1/19 8:23:44 网站建设

网站建设专业吗建设网站费用如何做账

在神经科学探索的征途中,精确的脑部定位犹如航海者的罗盘,而《小鼠大脑立体定位图谱》正是这样一款为研究者量身打造的精准导航工具。这部源自澳大利亚新南威尔士大学Paxinos教授权威著作的资源,通过78幅精心绘制的立体定向解剖图&#xff0c…

张小明 2026/1/17 21:02:54 网站建设