为什么我们放弃了网关架构:一个技术团队的血泪复盘
作者:Guigui Wang,NeuralBridge CTO
2026-06-17
引子:LiteLLM 投毒事件后,我们重新审视了自己
2026年6月,开源网关 OneAPI 被曝供应链投毒,一时间所有用黑盒网关的企业都慌了。
我们也一样。
彼时 NeuralBridge 内部正在开发一套「云端集中网关」架构——所有流量过我的网关,我收过路费。听起来很美:零算力成本、纯软件盈利、天然防绕过。
直到我们自己跑了一遍完整的技术尽调,才发现这个方案有一个致命问题:
这个产品在现实中不存在。
什么是「云端集中网关」架构
当时我们设计的架构是这样的:
用户本地Agent
↓ 强制回传
云端网关(我们部署)
↓ 智能路由
各大模型厂商(OpenAI/DeepSeek/DashScope)
↓
回包给用户Agent
收费逻辑:
- 基础Token转发:极低单价(引流)
- 自愈触发:每次扣费
- 语义校验:每次扣费
- 漂移检测:每次扣费
防绕过逻辑:
- 自愈代码不放本地,云端独占
- 用户绕开网关 = 白嫖但没任何高级功能
- 完美闭环
看起来无懈可击,对吧?
问题一:我们的产品是嵌入式SDK,不是网关
当红队去 PyPI 页面核实我们的产品时,发现了一个根本性问题:
实际产品形态:纯本地SDK,pip install neuralbridge-sdk
代码运行在用户Python进程内
零网络依赖
我们声称的架构:云端集中网关
所有流量过我们服务器
按量计费
这两个东西完全不是一回事。
我们发出去的 SDK 代码,有一部分是 Cython 编译的 .pyd(Windows)和 .so(Linux/Mac)二进制。核心自愈逻辑全在本地跑,没有任何代码发送到云端。
如果要改成「云端网关」模式,等于要重写整个产品。
问题二:性能优势会全部丧失
我们 SDK 最大的卖点是什么?
快。
实测数据:
- P50 延迟:~37µs
- P99 延迟:~120µs
- 比LiteLLM快2.6-5.7倍
为什么这么快?因为是本地函数调用,没有网络开销。
一旦改成网关架构:
用户进程 → 我们的服务器(香港) → 模型厂商 → 回来 → 我们的服务器 → 用户进程
↓
额外网络延迟
实测会增加 50-200ms 的网络延迟。37µs 变成 200ms+,快50-500倍的优势瞬间归零。
问题三:合规成本远超预期
做云端网关就要处理用户数据。
用户问:我的数据会经过你的服务器吗?
说实话:会,但只是元数据(错误码、重试次数、耗时),不是Prompt和Response。
但用户的法务不这么认为。他们会说:「你们收了流量,就要签数据处理协议(DPA)」。
- DPA 要审
- 要过安全评估
- 要存证
- 用户量大还要ICP备案
一个纯软件公司瞬间变成数据处理者,合规成本轻松超过收入。
问题四:没有网络层的「防绕过」是空中楼阁
我们设计的防绕过逻辑:
「本地Agent无任何高级功能代码,想用必须走我网关」
问题是:我们的产品从一开始就没有网络层。
SDK 代码运行在用户进程里,你要Hook我的.pyd文件,我可以检测,但检测手段有限(只能是运行时签名校验)。而如果用户直接FridaAttached,根本拦不住。
反过来,真正的网关架构(LiteLLM/OneAPI)防绕过靠的是网络层隔离——你在网络层做鉴权,Hook根本碰不到。
我们没有这个层,所以这个优势根本不存在。
结论:我们选择了另一条路
放弃网关架构后,我们重新审视了自己的技术底座:
我们真正擅长的是什么?
- 4层级联自愈(L1诊断→L2路由→L3降级→L4反馈)
- 6种路由策略(轮询/最低延迟/成本最优/健康优先/加权/故障切换)
- 20+错误码分类,95.19%自愈率
- P50 37µs的本地极速
我们决定做减法,而不是做加法:
-
本地SDK免费:
pip install neuralbridge-sdk,零门槛使用 - 透明降级Pro版:¥99/月,让用户看见每一个降级决策
- 团队治理Enterprise版:按需报价,支持全局策略下发和审计
不碰数据,不过流量,只卖确定性。
现在的架构是什么样的
用户进程内
┌─────────────────────────────────────┐
│ NeuralBridge SDK (pip install) │
│ │
│ L1 Diagnoser ──→ 故障识别 │
│ L2 Router ──→ 智能路由 │
│ L3 Downgrade ──→ 模型降级 │
│ L4 Flywheel ──→ 持续进化 │
│ │
│ verbose=True 输出透明日志 │
│ Pro版输出完整决策链路+质量预估 │
└─────────────────────────────────────┘
用户要做的只有一件事:
from neuralbridge import SelfHealingEngine
engine = SelfHealingEngine(api_key="sk-...", verbose=True)
result = engine.chat("帮我写一个快排算法")
输出:
[NeuralBridge] 主目标: gpt-4o (健康分: 92, 预估成本: $0.045)
[NeuralBridge] 触发 L2 降级: openai 返回 429 (Rate Limit)
[NeuralBridge] 决策: 按 COST_OPTIMAL 策略 → gpt-4o-mini
[NeuralBridge] 实际成本: $0.003 (节省 93.3%)
[NeuralBridge] 质量预估: 95% (基于历史任务相似度)
省了多少钱,看见。
切了哪个模型,知道。
为什么切,有理由。
这就是「模型降级透明化」——不是替你做决定,是让你看见每一个决定。
写给还在选型的团队
如果你也在「自建网关」和「买SDK」之间犹豫,有几个问题你可以先问自己:
- 你的团队有多少人专门维护网关? 少于3个人,自建网关会拖死你
- 你对延迟的容忍度是多少? 业务是 ms 级敏感吗?敏感就别走网关
- 你的合规团队怎么说? 过一遍DPA,可能比买SDK还贵
- 你的流量有多大? 月均1亿Token以下,买服务比自建划算
关于 NeuralBridge
透明降级是2026年AI调度的核心痛点。
当所有人都在卖「黑盒能力」的时候,我们选择卖「透明」。
- 免费版:pip install,3行代码,零配置
- Pro版 ¥99/月:看见每一个降级决策
- Enterprise版:团队级全局策略+审计
欢迎评论区留下你的降级策略踩坑经历。
Top comments (0)