面试者背景

:::warning 24届硕士毕业,上市公司,2年经验,AI平台构建,AI网关平台,大模型服务接入治理,10家厂商,百个大模型接入,企业级AI问答应用,也做传统后端开发。

AI网关实现方案?apisixjava****实现了哪些功能?费用计算,模型限流。

网关都有哪些功能介绍下?审批&开放APIAPI管理(限流、模型校验、KEY校验)

项目难点是什么?模型厂商的模型规范不一样需要定制,日志聚合分析,报表,权限校验。

计费如何实现的?token数如何计算的。如果调用中间异常了怎么办?自己计算,常见的文生文模型, 一个中文大概占几个token1.2-1.7

LLMAPI的语义了解么?temperature,取值范围?所有模型都是0-1吗?大部分模型的默认值是多少?max-tokenstop-p呢?

大模型本身支持工具调用和记忆的能力吗?

限流是怎么实现的?请求速率限流。用户限流怎么实现的?clickhousemysql是如何同步的?1小时同步一次。能接受1小时延迟。

都对接了哪些模型 ?文生文,文+图生文,生图模型。开源模型有对接吗?自己部署的,也会走网关。

Cluade有对接么?封杀怎么处理。多账号。哪个模型用量最大?cluadeds****

出口数据有做管控吗?如何避免数据泄露。deepseek审查模型,部署用的什么方式?ollama****vlm

ollama做模型部署的原因是什么?方便。模型部署在显卡上,A100、模型部署经验?GPU****限制,上下文大小限制。

可监测性这方面做啦哪些事情?grafanaPrometheusCPU&磁盘&内存,模型部署服务器的GPU相关。

如果对接的某个模型厂商的服务挂了,如何做故障转移?

AI问答平台,技术栈是什么?spring ai + spring boot,主要是哪些内容的问答?spring ai用的哪个版本?1.0.0chatclientchatmodel区别是啥?spring ai中的advisor机制了解吗?有用过哪个advisor吗?

多轮对话是如何实现的?redis+mysql,为什么要存redis、和mysql两层、redis如何实现的只存最近的N轮对话?zset,手动维护最近N轮,mysql对话记忆表是如何设计的?用户问题、模型回答、用户信息、模型信息、对话id。会话ID起到了什么作用?回话ID如何保证唯一性 ?redisson???前缀+随机数+username+时间戳—–>base64,为什么不考虑用uuid?如果并发更高场景,时间戳也可能重复怎么办?雪花算法,是怎么保证不重复的呢?数据库主键id

长期记忆&短期记忆

线上问题遇到过吗?CPU飙升,apisix没配连接池,日志文件很大(按天拆分),lua脚本插件内存溢出?

调用大模型API超时有哪些优化方案?流式输出,换小模型,max-token,

:::

题目解析

:::color4 LLMAPI的语义了解么?temperature,取值范围?所有模型都是0-1吗?大部分模型的默认值是多少?max-tokenstop-p呢?

大模型本身支持工具调用和记忆的能力吗?

限流是怎么实现的?请求速率限流。用户限流怎么实现的?clickhousemysql是如何同步的?1小时同步一次。能接受1小时延迟。

都对接了哪些模型 ?文生文,文+图生文,生图模型。开源模型有对接吗?自己部署的,也会走网关。

Cluade有对接么?封杀怎么处理。多账号。哪个模型用量最大?cluadeds****

出口数据有做管控吗?如何避免数据泄露。deepseek审查模型,部署用的什么方式?ollama****vlm

ollama做模型部署的原因是什么?方便。模型部署在显卡上,A100、模型部署经验?GPU****限制,上下文大小限制。

可监测性这方面做啦哪些事情?grafanaPrometheusCPU&磁盘&内存,模型部署服务器的GPU相关。

如果对接的某个模型厂商的服务挂了,如何做故障转移?

AI问答平台,技术栈是什么?spring ai + spring boot,主要是哪些内容的问答?spring ai用的哪个版本?1.0.0chatclientchatmodel区别是啥?spring ai中的advisor机制了解吗?有用过哪个advisor吗?

多轮对话是如何实现的?redis+mysql,为什么要存redis、和mysql两层、redis如何实现的只存最近的N轮对话?zset,手动维护最近N轮,mysql对话记忆表是如何设计的?用户问题、模型回答、用户信息、模型信息、对话id。会话ID起到了什么作用?回话ID如何保证唯一性 ?redisson???前缀+随机数+username+时间戳—–>base64,为什么不考虑用uuid?如果并发更高场景,时间戳也可能重复怎么办?雪花算法,是怎么保证不重复的呢?数据库主键id

长期记忆&短期记忆

线上问题遇到过吗?CPU飙升,apisix没配连接池,日志文件很大(按天拆分),lua脚本插件内存溢出?

调用大模型API超时有哪些优化方案?流式输出,换小模型,max-token,

:::

以上内容,建议通过AI项目课学习:

AI课优惠券