DEV Community

Eastern Dev
Eastern Dev

Posted on

为什么我们放弃了网关架构:一个技术团队的血泪复盘

为什么我们放弃了网关架构:一个技术团队的血泪复盘

作者:Guigui Wang,NeuralBridge CTO

2026-06-17


引子:LiteLLM 投毒事件后,我们重新审视了自己

2026年6月,开源网关 OneAPI 被曝供应链投毒,一时间所有用黑盒网关的企业都慌了。

我们也一样。

彼时 NeuralBridge 内部正在开发一套「云端集中网关」架构——所有流量过我的网关,我收过路费。听起来很美:零算力成本、纯软件盈利、天然防绕过

直到我们自己跑了一遍完整的技术尽调,才发现这个方案有一个致命问题:

这个产品在现实中不存在。


什么是「云端集中网关」架构

当时我们设计的架构是这样的:

用户本地Agent 
    ↓ 强制回传
云端网关(我们部署)
    ↓ 智能路由
各大模型厂商(OpenAI/DeepSeek/DashScope)
    ↓
回包给用户Agent
Enter fullscreen mode Exit fullscreen mode

收费逻辑

  • 基础Token转发:极低单价(引流)
  • 自愈触发:每次扣费
  • 语义校验:每次扣费
  • 漂移检测:每次扣费

防绕过逻辑

  • 自愈代码不放本地,云端独占
  • 用户绕开网关 = 白嫖但没任何高级功能
  • 完美闭环

看起来无懈可击,对吧?


问题一:我们的产品是嵌入式SDK,不是网关

当红队去 PyPI 页面核实我们的产品时,发现了一个根本性问题:

实际产品形态:纯本地SDK,pip install neuralbridge-sdk
                代码运行在用户Python进程内
                零网络依赖

我们声称的架构:云端集中网关
                所有流量过我们服务器
                按量计费
Enter fullscreen mode Exit fullscreen mode

这两个东西完全不是一回事。

我们发出去的 SDK 代码,有一部分是 Cython 编译的 .pyd(Windows)和 .so(Linux/Mac)二进制。核心自愈逻辑全在本地跑,没有任何代码发送到云端。

如果要改成「云端网关」模式,等于要重写整个产品。


问题二:性能优势会全部丧失

我们 SDK 最大的卖点是什么?

实测数据:

  • P50 延迟:~37µs
  • P99 延迟:~120µs
  • 比LiteLLM快2.6-5.7倍

为什么这么快?因为是本地函数调用,没有网络开销。

一旦改成网关架构:

用户进程 → 我们的服务器(香港) → 模型厂商 → 回来 → 我们的服务器 → 用户进程
                                          ↓
                                    额外网络延迟
Enter fullscreen mode Exit fullscreen mode

实测会增加 50-200ms 的网络延迟。37µs 变成 200ms+,快50-500倍的优势瞬间归零


问题三:合规成本远超预期

做云端网关就要处理用户数据。

用户问:我的数据会经过你的服务器吗?

说实话:会,但只是元数据(错误码、重试次数、耗时),不是Prompt和Response。

但用户的法务不这么认为。他们会说:「你们收了流量,就要签数据处理协议(DPA)」。

  • DPA 要审
  • 要过安全评估
  • 要存证
  • 用户量大还要ICP备案

一个纯软件公司瞬间变成数据处理者,合规成本轻松超过收入。


问题四:没有网络层的「防绕过」是空中楼阁

我们设计的防绕过逻辑:

「本地Agent无任何高级功能代码,想用必须走我网关」

问题是:我们的产品从一开始就没有网络层。

SDK 代码运行在用户进程里,你要Hook我的.pyd文件,我可以检测,但检测手段有限(只能是运行时签名校验)。而如果用户直接FridaAttached,根本拦不住。

反过来,真正的网关架构(LiteLLM/OneAPI)防绕过靠的是网络层隔离——你在网络层做鉴权,Hook根本碰不到。

我们没有这个层,所以这个优势根本不存在。


结论:我们选择了另一条路

放弃网关架构后,我们重新审视了自己的技术底座:

我们真正擅长的是什么?

  • 4层级联自愈(L1诊断→L2路由→L3降级→L4反馈)
  • 6种路由策略(轮询/最低延迟/成本最优/健康优先/加权/故障切换)
  • 20+错误码分类,95.19%自愈率
  • P50 37µs的本地极速

我们决定做减法,而不是做加法:

  1. 本地SDK免费pip install neuralbridge-sdk,零门槛使用
  2. 透明降级Pro版:¥99/月,让用户看见每一个降级决策
  3. 团队治理Enterprise版:按需报价,支持全局策略下发和审计

不碰数据,不过流量,只卖确定性。


现在的架构是什么样的

用户进程内
┌─────────────────────────────────────┐
│  NeuralBridge SDK (pip install)     │
│                                     │
│  L1 Diagnoser ──→ 故障识别          │
│  L2 Router   ──→ 智能路由            │
│  L3 Downgrade ──→ 模型降级           │
│  L4 Flywheel ──→ 持续进化            │
│                                     │
│  verbose=True 输出透明日志           │
│  Pro版输出完整决策链路+质量预估       │
└─────────────────────────────────────┘
Enter fullscreen mode Exit fullscreen mode

用户要做的只有一件事:

from neuralbridge import SelfHealingEngine

engine = SelfHealingEngine(api_key="sk-...", verbose=True)
result = engine.chat("帮我写一个快排算法")
Enter fullscreen mode Exit fullscreen mode

输出:

[NeuralBridge] 主目标: gpt-4o (健康分: 92, 预估成本: $0.045)
[NeuralBridge] 触发 L2 降级: openai 返回 429 (Rate Limit)
[NeuralBridge] 决策: 按 COST_OPTIMAL 策略 → gpt-4o-mini
[NeuralBridge] 实际成本: $0.003 (节省 93.3%)
[NeuralBridge] 质量预估: 95% (基于历史任务相似度)
Enter fullscreen mode Exit fullscreen mode

省了多少钱,看见。

切了哪个模型,知道。

为什么切,有理由。

这就是「模型降级透明化」——不是替你做决定,是让你看见每一个决定。


写给还在选型的团队

如果你也在「自建网关」和「买SDK」之间犹豫,有几个问题你可以先问自己:

  1. 你的团队有多少人专门维护网关? 少于3个人,自建网关会拖死你
  2. 你对延迟的容忍度是多少? 业务是 ms 级敏感吗?敏感就别走网关
  3. 你的合规团队怎么说? 过一遍DPA,可能比买SDK还贵
  4. 你的流量有多大? 月均1亿Token以下,买服务比自建划算

关于 NeuralBridge

透明降级是2026年AI调度的核心痛点。

当所有人都在卖「黑盒能力」的时候,我们选择卖「透明」。

  • 免费版:pip install,3行代码,零配置
  • Pro版 ¥99/月:看见每一个降级决策
  • Enterprise版:团队级全局策略+审计

官网:https://neuralbridge.cn


欢迎评论区留下你的降级策略踩坑经历。

Top comments (0)