Eastern Dev

Posted on Jun 17

为什么我们放弃了网关架构：一个技术团队的血泪复盘

#ai #llm #failover #python

为什么我们放弃了网关架构：一个技术团队的血泪复盘

作者：Guigui Wang，NeuralBridge CTO

2026-06-17

引子：LiteLLM 投毒事件后，我们重新审视了自己

2026年6月，开源网关 OneAPI 被曝供应链投毒，一时间所有用黑盒网关的企业都慌了。

我们也一样。

彼时 NeuralBridge 内部正在开发一套「云端集中网关」架构——所有流量过我的网关，我收过路费。听起来很美：零算力成本、纯软件盈利、天然防绕过。

直到我们自己跑了一遍完整的技术尽调，才发现这个方案有一个致命问题：

这个产品在现实中不存在。

什么是「云端集中网关」架构

当时我们设计的架构是这样的：

用户本地Agent 
    ↓ 强制回传
云端网关（我们部署）
    ↓ 智能路由
各大模型厂商（OpenAI/DeepSeek/DashScope）
    ↓
回包给用户Agent

收费逻辑：

基础Token转发：极低单价（引流）
自愈触发：每次扣费
语义校验：每次扣费
漂移检测：每次扣费

防绕过逻辑：

自愈代码不放本地，云端独占
用户绕开网关 = 白嫖但没任何高级功能
完美闭环

看起来无懈可击，对吧？

问题一：我们的产品是嵌入式SDK，不是网关

当红队去 PyPI 页面核实我们的产品时，发现了一个根本性问题：

实际产品形态：纯本地SDK，pip install neuralbridge-sdk
                代码运行在用户Python进程内
                零网络依赖

我们声称的架构：云端集中网关
                所有流量过我们服务器
                按量计费

这两个东西完全不是一回事。

我们发出去的 SDK 代码，有一部分是 Cython 编译的 .pyd（Windows）和 .so（Linux/Mac）二进制。核心自愈逻辑全在本地跑，没有任何代码发送到云端。

如果要改成「云端网关」模式，等于要重写整个产品。

问题二：性能优势会全部丧失

我们 SDK 最大的卖点是什么？

快。

实测数据：

P50 延迟：~37µs
P99 延迟：~120µs
比LiteLLM快2.6-5.7倍

为什么这么快？因为是本地函数调用，没有网络开销。

一旦改成网关架构：

用户进程 → 我们的服务器（香港） → 模型厂商 → 回来 → 我们的服务器 → 用户进程
                                          ↓
                                    额外网络延迟

实测会增加 50-200ms 的网络延迟。37µs 变成 200ms+，快50-500倍的优势瞬间归零。

问题三：合规成本远超预期

做云端网关就要处理用户数据。

用户问：我的数据会经过你的服务器吗？

说实话：会，但只是元数据（错误码、重试次数、耗时），不是Prompt和Response。

但用户的法务不这么认为。他们会说：「你们收了流量，就要签数据处理协议（DPA）」。

DPA 要审
要过安全评估
要存证
用户量大还要ICP备案

一个纯软件公司瞬间变成数据处理者，合规成本轻松超过收入。

问题四：没有网络层的「防绕过」是空中楼阁

我们设计的防绕过逻辑：

「本地Agent无任何高级功能代码，想用必须走我网关」

问题是：我们的产品从一开始就没有网络层。

SDK 代码运行在用户进程里，你要Hook我的.pyd文件，我可以检测，但检测手段有限（只能是运行时签名校验）。而如果用户直接FridaAttached，根本拦不住。

反过来，真正的网关架构（LiteLLM/OneAPI）防绕过靠的是网络层隔离——你在网络层做鉴权，Hook根本碰不到。

我们没有这个层，所以这个优势根本不存在。

结论：我们选择了另一条路

放弃网关架构后，我们重新审视了自己的技术底座：

我们真正擅长的是什么？

4层级联自愈（L1诊断→L2路由→L3降级→L4反馈）
6种路由策略（轮询/最低延迟/成本最优/健康优先/加权/故障切换）
20+错误码分类，95.19%自愈率
P50 37µs的本地极速

我们决定做减法，而不是做加法：

本地SDK免费：pip install neuralbridge-sdk，零门槛使用
透明降级Pro版：¥99/月，让用户看见每一个降级决策
团队治理Enterprise版：按需报价，支持全局策略下发和审计

不碰数据，不过流量，只卖确定性。

现在的架构是什么样的

用户进程内
┌─────────────────────────────────────┐
│  NeuralBridge SDK (pip install)     │
│                                     │
│  L1 Diagnoser ──→ 故障识别          │
│  L2 Router   ──→ 智能路由            │
│  L3 Downgrade ──→ 模型降级           │
│  L4 Flywheel ──→ 持续进化            │
│                                     │
│  verbose=True 输出透明日志           │
│  Pro版输出完整决策链路+质量预估       │
└─────────────────────────────────────┘

用户要做的只有一件事：

from neuralbridge import SelfHealingEngine

engine = SelfHealingEngine(api_key="sk-...", verbose=True)
result = engine.chat("帮我写一个快排算法")

输出：

[NeuralBridge] 主目标: gpt-4o (健康分: 92, 预估成本: $0.045)
[NeuralBridge] 触发 L2 降级: openai 返回 429 (Rate Limit)
[NeuralBridge] 决策: 按 COST_OPTIMAL 策略 → gpt-4o-mini
[NeuralBridge] 实际成本: $0.003 (节省 93.3%)
[NeuralBridge] 质量预估: 95% (基于历史任务相似度)

省了多少钱，看见。

切了哪个模型，知道。

为什么切，有理由。

这就是「模型降级透明化」——不是替你做决定，是让你看见每一个决定。

写给还在选型的团队

如果你也在「自建网关」和「买SDK」之间犹豫，有几个问题你可以先问自己：

你的团队有多少人专门维护网关？ 少于3个人，自建网关会拖死你
你对延迟的容忍度是多少？ 业务是 ms 级敏感吗？敏感就别走网关
你的合规团队怎么说？ 过一遍DPA，可能比买SDK还贵
你的流量有多大？ 月均1亿Token以下，买服务比自建划算

关于 NeuralBridge

透明降级是2026年AI调度的核心痛点。

当所有人都在卖「黑盒能力」的时候，我们选择卖「透明」。

免费版：pip install，3行代码，零配置
Pro版 ¥99/月：看见每一个降级决策
Enterprise版：团队级全局策略+审计

官网：https://neuralbridge.cn

欢迎评论区留下你的降级策略踩坑经历。

DEV Community

为什么我们放弃了网关架构：一个技术团队的血泪复盘

为什么我们放弃了网关架构：一个技术团队的血泪复盘

引子：LiteLLM 投毒事件后，我们重新审视了自己

什么是「云端集中网关」架构

问题一：我们的产品是嵌入式SDK，不是网关

问题二：性能优势会全部丧失

问题三：合规成本远超预期

问题四：没有网络层的「防绕过」是空中楼阁

结论：我们选择了另一条路

现在的架构是什么样的

写给还在选型的团队

关于 NeuralBridge

Top comments (0)