面试者背景
:::warning 24届硕士毕业,上市公司,2年经验,AI平台构建,AI网关平台,大模型服务接入治理,10家厂商,百个大模型接入,企业级AI问答应用,也做传统后端开发。
AI网关实现方案?apisix,java****实现了哪些功能?费用计算,模型限流。
网关都有哪些功能介绍下?审批&开放API,API管理(限流、模型校验、KEY校验)
项目难点是什么?模型厂商的模型规范不一样需要定制,日志聚合分析,报表,权限校验。
计费如何实现的?token数如何计算的。如果调用中间异常了怎么办?自己计算,常见的文生文模型, 一个中文大概占几个token?1.2-1.7,
对LLM的API的语义了解么?temperature,取值范围?所有模型都是0-1吗?大部分模型的默认值是多少?max-tokens、top-p呢?
大模型本身支持工具调用和记忆的能力吗?
限流是怎么实现的?请求速率限流。用户限流怎么实现的?clickhouse到mysql是如何同步的?1小时同步一次。能接受1小时延迟。
都对接了哪些模型 ?文生文,文+图生文,生图模型。开源模型有对接吗?自己部署的,也会走网关。
Cluade有对接么?封杀怎么处理。多账号。哪个模型用量最大?cluade,ds****,
出口数据有做管控吗?如何避免数据泄露。用deepseek审查模型,部署用的什么方式?ollama,****vlm
用ollama做模型部署的原因是什么?方便。模型部署在显卡上,A100、模型部署经验?GPU****限制,上下文大小限制。
可监测性这方面做啦哪些事情?grafana,Prometheus,CPU&磁盘&内存,模型部署服务器的GPU相关。
如果对接的某个模型厂商的服务挂了,如何做故障转移?
AI问答平台,技术栈是什么?spring ai + spring boot,主要是哪些内容的问答?spring ai用的哪个版本?1.0.0?chatclient和chatmodel区别是啥?spring ai中的advisor机制了解吗?有用过哪个advisor吗?
多轮对话是如何实现的?redis+mysql,为什么要存redis、和mysql两层、redis如何实现的只存最近的N轮对话?zset,手动维护最近N轮,mysql对话记忆表是如何设计的?用户问题、模型回答、用户信息、模型信息、对话id。会话ID起到了什么作用?回话ID如何保证唯一性 ?redisson???前缀+随机数+username+时间戳—–>base64,为什么不考虑用uuid?如果并发更高场景,时间戳也可能重复怎么办?雪花算法,是怎么保证不重复的呢?数据库主键id、
长期记忆&短期记忆
线上问题遇到过吗?CPU飙升,apisix没配连接池,日志文件很大(按天拆分),lua脚本插件内存溢出?
调用大模型API超时有哪些优化方案?流式输出,换小模型,max-token,
:::
题目解析
:::color4 对LLM的API的语义了解么?temperature,取值范围?所有模型都是0-1吗?大部分模型的默认值是多少?max-tokens、top-p呢?
大模型本身支持工具调用和记忆的能力吗?
限流是怎么实现的?请求速率限流。用户限流怎么实现的?clickhouse到mysql是如何同步的?1小时同步一次。能接受1小时延迟。
都对接了哪些模型 ?文生文,文+图生文,生图模型。开源模型有对接吗?自己部署的,也会走网关。
Cluade有对接么?封杀怎么处理。多账号。哪个模型用量最大?cluade,ds****,
出口数据有做管控吗?如何避免数据泄露。用deepseek审查模型,部署用的什么方式?ollama,****vlm
用ollama做模型部署的原因是什么?方便。模型部署在显卡上,A100、模型部署经验?GPU****限制,上下文大小限制。
可监测性这方面做啦哪些事情?grafana,Prometheus,CPU&磁盘&内存,模型部署服务器的GPU相关。
如果对接的某个模型厂商的服务挂了,如何做故障转移?
AI问答平台,技术栈是什么?spring ai + spring boot,主要是哪些内容的问答?spring ai用的哪个版本?1.0.0?chatclient和chatmodel区别是啥?spring ai中的advisor机制了解吗?有用过哪个advisor吗?
多轮对话是如何实现的?redis+mysql,为什么要存redis、和mysql两层、redis如何实现的只存最近的N轮对话?zset,手动维护最近N轮,mysql对话记忆表是如何设计的?用户问题、模型回答、用户信息、模型信息、对话id。会话ID起到了什么作用?回话ID如何保证唯一性 ?redisson???前缀+随机数+username+时间戳—–>base64,为什么不考虑用uuid?如果并发更高场景,时间戳也可能重复怎么办?雪花算法,是怎么保证不重复的呢?数据库主键id、
长期记忆&短期记忆
线上问题遇到过吗?CPU飙升,apisix没配连接池,日志文件很大(按天拆分),lua脚本插件内存溢出?
调用大模型API超时有哪些优化方案?流式输出,换小模型,max-token,
:::
以上内容,建议通过AI项目课学习: