<?xml version="1.0" encoding="utf-8" standalone="yes"?>
<rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom">
	<channel>
		<title>KubeCon on chengzhycn&#39;s blog</title>
		<link>https://blog.jinzhi.site/tags/kubecon/</link>
		<description>Recent content in KubeCon on chengzhycn&#39;s blog</description>
		<generator>Hugo</generator>
		<language>en-us</language>
		
		
		
		
			<lastBuildDate>Sun, 23 Nov 2025 15:18:28 +0800</lastBuildDate>
		
			<atom:link href="https://blog.jinzhi.site/tags/kubecon/index.xml" rel="self" type="application/rss+xml" />
			<item>
				<title>KubeCon North America 2025 Review</title>
				<link>https://blog.jinzhi.site/posts/2025-11/kubecon-north-america-2025-review/</link>
				<pubDate>Sun, 23 Nov 2025 15:18:28 +0800</pubDate>
				<guid>https://blog.jinzhi.site/posts/2025-11/kubecon-north-america-2025-review/</guid>
				<description>&lt;p&gt;KubeCon North America 2025 13号结束了，官网上也有了些会议资料。挑了几个感兴趣的话题总结下。&lt;/p&gt;&#xA;&lt;h2 id=&#34;dynamic-routing-with-multi-cluster-inference-gateway&#34;&gt;Dynamic Routing with Multi-Cluster Inference Gateway&lt;/h2&gt;&#xA;&lt;p&gt;&lt;a href=&#34;https://kccncna2025.sched.com/event/27FeP/ai-inference-without-boundaries-dynamic-routing-with-multi-cluster-inference-gateway-rob-scott-google-daneyon-hansen-soloio?iframe=no&amp;amp;w=100%25&amp;amp;sidebar=yes&amp;amp;bg=no&#34;&gt;https://kccncna2025.sched.com/event/27FeP/ai-inference-without-boundaries-dynamic-routing-with-multi-cluster-inference-gateway-rob-scott-google-daneyon-hansen-soloio?iframe=no&amp;w=100%&amp;sidebar=yes&amp;bg=no&lt;/a&gt;&lt;/p&gt;&#xA;&lt;p&gt;这段时间正好在做 AI 网关，这个话题可以说是“瞌睡了送枕头”。&lt;/p&gt;&#xA;&lt;p&gt;推理服务和传统 API 流量相比，在 payload，响应时间，后端资源开销上都有着很大的差异（见下图）。&#xA;&lt;img src=&#34;https://blog.jinzhi.site/images/notes/kubecon-north-america-2025-review/2781cd595fe30c8da311d124a8e4ee35_MD5.jpeg&#34; alt=&#34;2781cd595fe30c8da311d124a8e4ee35_MD5&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;因此，推理网关需要做到后端负载感知的调度（传统 API 网关也有类似的方案，尤其是在后端机型不一样，普通的 rr 无法均匀负载时，做后端负载感知动态调权）。在 Gateway 和推理实例间引入了一个 EPP（Endpoint Picker）组件（注：EPP 现在也是 Kubernetes 做推理服务的一个通用组件），采集推理实例的指标来动态选择推理后端。&#xA;&lt;img src=&#34;https://blog.jinzhi.site/images/notes/kubecon-north-america-2025-review/3462773fb295a9dabdabc886b1de43ca_MD5.jpeg&#34; alt=&#34;3462773fb295a9dabdabc886b1de43ca_MD5&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;benchmark 数据显示，使用推理网关相比传统负载均衡，推理实例间的负载更加均衡，请求排队更少，从而降低了响应时间。&lt;/p&gt;&#xA;&lt;p&gt;在多集群场景下，这套方案需要解决 3 个问题：&lt;/p&gt;&#xA;&lt;ol&gt;&#xA;&lt;li&gt;服务发现：Cluster Inference Services 如何暴露给 Gateway？&lt;/li&gt;&#xA;&lt;li&gt;后端选择：Gateway 如何在多集群间分配流量？&lt;/li&gt;&#xA;&lt;li&gt;路由模式：流量如何从 Gateway 转发到集群？&lt;/li&gt;&#xA;&lt;/ol&gt;&#xA;&lt;p&gt;第一个问题作者提了 3 个解决方法：&#xA;&lt;img src=&#34;https://blog.jinzhi.site/images/notes/kubecon-north-america-2025-review/fd7a6ffacbfd58fcd6482dd40b861461_MD5.jpeg&#34; alt=&#34;fd7a6ffacbfd58fcd6482dd40b861461_MD5&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;不是关注重点，略过。&lt;/p&gt;&#xA;&lt;p&gt;第二个问题，简单的 RR 和 Active-Passive 肯定就失去了推理网关负载感知的优势。所以，在 EPP 感知负载之外，Gateway 也得做负载感知。作者也提了两个方法：&#xA;&lt;img src=&#34;https://blog.jinzhi.site/images/notes/kubecon-north-america-2025-review/1d3df4bac299f39b0c917b886bab2a27_MD5.jpeg&#34; alt=&#34;1d3df4bac299f39b0c917b886bab2a27_MD5&#34;&gt;&#xA;&lt;img src=&#34;https://blog.jinzhi.site/images/notes/kubecon-north-america-2025-review/f4bd518bc6dce2999d5805d5b2d46dac_MD5.jpeg&#34; alt=&#34;f4bd518bc6dce2999d5805d5b2d46dac_MD5&#34;&gt;&lt;/p&gt;&#xA;&lt;p&gt;从层级上来说，EPP Aggregate Metrics 方案更加简洁，毕竟在 EPP 上还得做二次调度。&lt;/p&gt;&#xA;&lt;p&gt;最后一个问题，如果 EPP 能跨集群直接访问，direct routing 是最合适的方式，不行的话再加一层网关，使用 Cluster-Local Gateway 做暴露也能访问。&lt;/p&gt;</description>
			</item>
	</channel>
</rss>
