胡伟煌

个人博客

k8s管理GPU容器

本文主要描述如何在k8s中管理GPU的节点和容器。 Kubernetes(K8s)对 GPU 的支持,适合用于机器学习、深度学习、图像处理等高性能计算场景。 1. 实现思路 K8s 本身不直接管理 GPU,而是通过 NVIDIA 的 GPU 设备插件(NVIDIA Device Plugin) 将 GPU 资源暴露给容器。整个流程如下: 1物理 GPU → 安装驱动 + 宿主机工具 → 容器......
GPU

workqueue源码分析

本文主要分析client-go中使用的workqueue,从而来分析k8s是如何基于任务队列做并发控制的。其中代码参考: https://github.com/kubernetes/client-go/tree/release-1.30 1. 概述 k8s的控制器大多是基于任务队列的方式进行并发控制,甚至包括基于controller-manager开发的自定义operator控制器。以下......

runc源码分析

runc代码目录结构 123456789101112131415161718├── create.go # createCommand├── delete.go # deleteCommand├── events.go # eventsCommand├── exec.go # execCommand├── features.go # featuresCommand├── kil......

大模型相关概念

本文主要介绍大模型领域常用的名词概念等。 MCP MCP的概念 MCP的全称是Model Context Protocol,即模型上下文协议。根据官网的解释,MCP 是一个开放协议,它规范了应用程序向 LLM 提供上下文的方式。MCP 就像 AI 应用程序的 USB-C端口一样。正如 USB-C 提供了一种标准化的方式将您的设备连接到各种外围设备和配件一样,MCP 也提供了一种标准化的方......

kine的使用

创建kine的数据表 如果kine连接MySQL使用的用户有创建表的权限,则会自动创建表名为kine的数据表,如果MySQL用户没有创建表的权限,则需要手动创建数据表,建表语句如下: 1234567891011121314151617CREATE TABLE `kine` ( `id` bigint(20) unsigned NOT NULL AUTO_INCREMENT, `name`......

大规模Pod调度优化

假设在 Kubernetes 集群中一次性调度 1 万个 Pod, 这是一项极具挑战性的任务。如果管理不当,可能会导致调度器瓶颈、API Server 过载,甚至整个集群崩溃。 本文将探讨优化大规模 Pod 调度的最佳实践与技术手段。 🚀 面临的挑战 调度器压力大:大量 Pod 同时进入 Pending 状态,调度器处理不过来。 API Server 压力大:高频的 CREATE/GE......

Redfish API

本文主要介绍redfish api的调用路径及格式。 Redfish是一种基于HTTPs服务的管理标准,利用RESTful接口实现设备管理。可以理解为redfish api就是通过http的调用方式来操作服务器的bmc设备,从而实现对设备的远程控制。 1. BMC常用功能操作 BIOS 管理 启动设置(boot order) 虚拟媒体管理 电源管理(开机、关机、重启) ......

Mysql服务部署

1. 通过容器的方式部署 123mkdir -p ~/data/mysqldocker run --name my-mysql -v ~/data/mysql:/var/lib/mysql -p 3306:3306 -e MYSQL_ROOT_PASSWORD=123456 -d mysql:5.7 2. 通过k8s deployment的方式部署 部署的注意事项: mysql数据的持久......

Linux常用命令

创建用户名和密码 123456789101112131415# 通过写文件创建用户,/home/mybot是用户目录echo "mybot:x:1001:1001::/home/mybot:/bin/bash" >> /etc/passwd# 给用户创建密码echo "mybot:{password}" | chpasswd# 指定文件系统根目录创建密码,例如......

基于Ollama构建本地大模型

本文主要介绍如何通过Ollama和OpenWebUI来搭建一个本地私有化运行的大模型工具。私有化大模型的构建主要用于解决数据的安全性问题,对于大部分私有数据不适合通过外部的大模型网站来上传和分析。 1. Ollama 与 OpenWebUI 介绍 1.1. Ollama简介 Ollama 是一个 本地运行的 AI 大模型管理工具,可以让你在本地 快速拉取、管理和运行 各种开源大语言模型(如 ......