Initial commit

2026-04-26 21:35:04 +08:00
commit da6ca1b09a
1483 changed files with 115719 additions and 0 deletions
--- a/docs/blufi.md
+++ b/docs/blufi.md
@@ -0,0 +1,37 @@
+# BluFi 配网（集成 esp-wifi-connect）
+
+本文档说明如何在小智固件中启用和使用 BluFi（BLE Wi‑Fi 配网），并结合项目内置的 `esp-wifi-connect` 组件完成 Wi‑Fi 连接与存储。官方
+BluFi
+协议说明请参考 [Espressif 文档](https://docs.espressif.com/projects/esp-idf/zh_CN/stable/esp32/api-guides/ble/blufi.html)。
+
+## 前置条件
+
+- 需要支持 BLE 的芯片与固件配置。
+- 在 `idf.py menuconfig` 中启用 `WiFi Configuration Method -> Esp Blufi`（`CONFIG_USE_ESP_BLUFI_WIFI_PROVISIONING=y`
+  ）。如果想使用 BluFi，必须关闭同一菜单下的 Hotspot 选项，否则默认使用 Hotspot 配网模式。
+
+- 保持默认的 NVS 与事件循环初始化（项目的 `app_main` 已处理）。
+- CONFIG_BT_BLUEDROID_ENABLED、CONFIG_BT_NIMBLE_ENABLED这两个宏应二选一，不能同时启用。
+## 工作流程
+
+1) 手机端通过 BluFi（如官方 EspBlufi App 或自研客户端）连接设备，发送 Wi‑Fi SSID/密码，手机端可以通过blufi协议获取设备端扫描到的WiFi列表。
+2) 设备侧在 `ESP_BLUFI_EVENT_REQ_CONNECT_TO_AP` 中将凭据写入 `SsidManager`（存储到 NVS，属于 `esp-wifi-connect` 组件）。
+3) 随后启动 `WifiStation` 扫描并连接；状态通过 BluFi 返回。
+4) 配网成功后设备会自动连接新 Wi‑Fi；失败则返回失败状态。
+
+## 使用步骤
+
+1. 配置：在 menuconfig 开启 `Esp Blufi`。编译并烧录固件。
+2. 触发配网：设备首次启动且没有已保存的 Wi‑Fi 时会自动进入配网。
+3. 手机端操作：打开 EspBlufi App（或其他 BluFi 客户端），搜索并连接设备，可以选择是否加密，按提示输入 Wi‑Fi SSID/密码并发送。
+4. 观察结果：
+    - 成功：BluFi 报告连接成功，设备自动连接 Wi‑Fi。
+    - 失败：BluFi 返回失败状态，可重新发送或检查路由器。
+
+## 注意事项
+
+- BluFi 配网不支持与热点配网同时开启。如果热点配网已经启动，则默认使用热点配网。请在 menuconfig 中只保留一种配网方式。
+- 若多次测试，建议清除或覆盖存储的 SSID（`wifi` 命名空间），避免旧配置干扰。
+- 如果使用自定义 BluFi 客户端，需遵循官方协议帧格式，参考上文官方文档链接。
+- 官方文档中已提供EspBlufi APP下载地址
+- 由于IDF5.5.2的blufi接口发生变化,5.5.2版本编译后蓝牙名称为"Xiaozhi-Blufi",5.5.1版本中蓝牙名称为"BLUFI_DEVICE"
--- a/docs/code_style.md
+++ b/docs/code_style.md
@@ -0,0 +1,91 @@
+# 代码风格指南
+
+## 代码格式化工具
+
+本项目使用 clang-format 工具来统一代码风格。我们已经在项目根目录下提供了 `.clang-format` 配置文件，该配置基于 Google C++ 风格指南，并做了一些自定义调整。
+
+### 安装 clang-format
+
+在使用之前，请确保你已经安装了 clang-format 工具：
+
+- **Windows**：
+  ```powershell
+  winget install LLVM
+  # 或者使用 Chocolatey
+  choco install llvm
+  ```
+
+- **Linux**：
+  ```bash
+  sudo apt install clang-format  # Ubuntu/Debian
+  sudo dnf install clang-tools-extra  # Fedora
+  ```
+
+- **macOS**：
+  ```bash
+  brew install clang-format
+  ```
+
+### 使用方法
+
+1. **格式化单个文件**：
+   ```bash
+   clang-format -i path/to/your/file.cpp
+   ```
+
+2. **格式化整个项目**：
+   ```bash
+   # 在项目根目录下执行
+   find main -iname *.h -o -iname *.cc | xargs clang-format -i
+   ```
+
+3. **在提交代码前检查格式**：
+   ```bash
+   # 检查文件格式是否符合规范（不修改文件）
+   clang-format --dry-run -Werror path/to/your/file.cpp
+   ```
+
+### IDE 集成
+
+- **Visual Studio Code**：
+  1. 安装 C/C++ 扩展
+  2. 在设置中启用 `C_Cpp.formatting` 为 `clang-format`
+  3. 可以设置保存时自动格式化：`editor.formatOnSave: true`
+
+- **CLion**：
+  1. 在设置中选择 `Editor > Code Style > C/C++`
+  2. 将 `Formatter` 设置为 `clang-format`
+  3. 选择使用项目中的 `.clang-format` 配置文件
+
+### 主要格式规则
+
+- 缩进使用 4 个空格
+- 行宽限制为 100 字符
+- 大括号采用 Attach 风格（与控制语句在同一行）
+- 指针和引用符号靠左对齐
+- 自动排序头文件包含
+- 类访问修饰符缩进为 -4 空格
+
+### 注意事项
+
+1. 提交代码前请确保代码已经过格式化
+2. 不要手动调整已格式化的代码对齐
+3. 如果某段代码不希望被格式化，可以使用以下注释包围：
+   ```cpp
+   // clang-format off
+   // 你的代码
+   // clang-format on
+   ```
+
+### 常见问题
+
+1. **格式化失败**：
+   - 检查 clang-format 版本是否过低
+   - 确认文件编码为 UTF-8
+   - 验证 .clang-format 文件语法是否正确
+
+2. **与期望格式不符**：
+   - 检查是否使用了项目根目录下的 .clang-format 配置
+   - 确认没有其他位置的 .clang-format 文件被优先使用
+
+如有任何问题或建议，欢迎提出 issue 或 pull request。
--- a/docs/custom-board.md
+++ b/docs/custom-board.md
@@ -0,0 +1,453 @@
+# 自定义开发板指南
+
+本指南介绍如何为小智AI语音聊天机器人项目定制一个新的开发板初始化程序。小智AI支持70多种ESP32系列开发板，每个开发板的初始化代码都放在对应的目录下。
+
+## 重要提示
+
+> **警告**: 对于自定义开发板，当IO配置与原有开发板不同时，切勿直接覆盖原有开发板的配置编译固件。必须创建新的开发板类型，或者通过config.json文件中的builds配置不同的name和sdkconfig宏定义来区分。使用 `python scripts/release.py [开发板目录名字]` 来编译打包固件。
+>
+> 如果直接覆盖原有配置，将来OTA升级时，您的自定义固件可能会被原有开发板的标准固件覆盖，导致您的设备无法正常工作。每个开发板有唯一的标识和对应的固件升级通道，保持开发板标识的唯一性非常重要。
+
+## 目录结构
+
+每个开发板的目录结构通常包含以下文件：
+
+- `xxx_board.cc` - 主要的板级初始化代码，实现了板子相关的初始化和功能
+- `config.h` - 板级配置文件，定义了硬件管脚映射和其他配置项
+- `config.json` - 编译配置，指定目标芯片和特殊的编译选项
+- `README.md` - 开发板相关的说明文档
+
+## 定制开发板步骤
+
+### 1. 创建新的开发板目录
+
+首先在`boards/`目录下创建一个新的目录，命名方式应使用 `[品牌名]-[开发板类型]` 的形式，例如 `m5stack-tab5`：
+
+```bash
+mkdir main/boards/my-custom-board
+```
+
+### 2. 创建配置文件
+
+#### config.h
+
+在`config.h`中定义所有的硬件配置，包括:
+
+- 音频采样率和I2S引脚配置
+- 音频编解码芯片地址和I2C引脚配置
+- 按钮和LED引脚配置
+- 显示屏参数和引脚配置
+
+参考示例（来自lichuang-c3-dev）：
+
+```c
+#ifndef _BOARD_CONFIG_H_
+#define _BOARD_CONFIG_H_
+
+#include <driver/gpio.h>
+
+// 音频配置
+#define AUDIO_INPUT_SAMPLE_RATE  24000
+#define AUDIO_OUTPUT_SAMPLE_RATE 24000
+
+#define AUDIO_I2S_GPIO_MCLK GPIO_NUM_10
+#define AUDIO_I2S_GPIO_WS   GPIO_NUM_12
+#define AUDIO_I2S_GPIO_BCLK GPIO_NUM_8
+#define AUDIO_I2S_GPIO_DIN  GPIO_NUM_7
+#define AUDIO_I2S_GPIO_DOUT GPIO_NUM_11
+
+#define AUDIO_CODEC_PA_PIN       GPIO_NUM_13
+#define AUDIO_CODEC_I2C_SDA_PIN  GPIO_NUM_0
+#define AUDIO_CODEC_I2C_SCL_PIN  GPIO_NUM_1
+#define AUDIO_CODEC_ES8311_ADDR  ES8311_CODEC_DEFAULT_ADDR
+
+// 按钮配置
+#define BOOT_BUTTON_GPIO        GPIO_NUM_9
+
+// 显示屏配置
+#define DISPLAY_SPI_SCK_PIN     GPIO_NUM_3
+#define DISPLAY_SPI_MOSI_PIN    GPIO_NUM_5
+#define DISPLAY_DC_PIN          GPIO_NUM_6
+#define DISPLAY_SPI_CS_PIN      GPIO_NUM_4
+
+#define DISPLAY_WIDTH   320
+#define DISPLAY_HEIGHT  240
+#define DISPLAY_MIRROR_X true
+#define DISPLAY_MIRROR_Y false
+#define DISPLAY_SWAP_XY true
+
+#define DISPLAY_OFFSET_X  0
+#define DISPLAY_OFFSET_Y  0
+
+#define DISPLAY_BACKLIGHT_PIN GPIO_NUM_2
+#define DISPLAY_BACKLIGHT_OUTPUT_INVERT true
+
+#endif // _BOARD_CONFIG_H_
+```
+
+#### config.json
+
+在`config.json`中定义编译配置，这个文件用于 `scripts/release.py` 脚本自动化编译：
+
+```json
+{
+    "target": "esp32s3",  // 目标芯片型号: esp32, esp32s3, esp32c3, esp32c6, esp32p4等
+    "builds": [
+        {
+            "name": "my-custom-board",  // 开发板名称，用于生成固件包
+            "sdkconfig_append": [
+                // 特别 Flash 大小配置
+                "CONFIG_ESPTOOLPY_FLASHSIZE_8MB=y",
+                // 特别分区表配置
+                "CONFIG_PARTITION_TABLE_CUSTOM_FILENAME=\"partitions/v2/8m.csv\""
+            ]
+        }
+    ]
+}
+```
+
+**配置项说明：**
+- `target`: 目标芯片型号，必须与硬件匹配
+- `name`: 编译输出的固件包名称，建议与目录名一致
+- `sdkconfig_append`: 额外的 sdkconfig 配置项数组，会追加到默认配置中
+
+**常用的 sdkconfig_append 配置：**
+```json
+// Flash 大小
+"CONFIG_ESPTOOLPY_FLASHSIZE_4MB=y"   // 4MB Flash
+"CONFIG_ESPTOOLPY_FLASHSIZE_8MB=y"   // 8MB Flash
+"CONFIG_ESPTOOLPY_FLASHSIZE_16MB=y"  // 16MB Flash
+
+// 分区表
+"CONFIG_PARTITION_TABLE_CUSTOM_FILENAME=\"partitions/v2/4m.csv\""  // 4MB 分区表
+"CONFIG_PARTITION_TABLE_CUSTOM_FILENAME=\"partitions/v2/8m.csv\""  // 8MB 分区表
+"CONFIG_PARTITION_TABLE_CUSTOM_FILENAME=\"partitions/v2/16m.csv\"" // 16MB 分区表
+
+// 语言配置
+"CONFIG_LANGUAGE_EN_US=y"  // 英语
+"CONFIG_LANGUAGE_ZH_CN=y"  // 简体中文
+
+// 唤醒词配置
+"CONFIG_USE_DEVICE_AEC=y"          // 启用设备端 AEC
+"CONFIG_WAKE_WORD_DISABLED=y"      // 禁用唤醒词
+```
+
+### 3. 编写板级初始化代码
+
+创建一个`my_custom_board.cc`文件，实现开发板的所有初始化逻辑。
+
+一个基本的开发板类定义包含以下几个部分：
+
+1. **类定义**：继承自`WifiBoard`或`Ml307Board`
+2. **初始化函数**：包括I2C、显示屏、按钮、IoT等组件的初始化
+3. **虚函数重写**：如`GetAudioCodec()`、`GetDisplay()`、`GetBacklight()`等
+4. **注册开发板**：使用`DECLARE_BOARD`宏注册开发板
+
+```cpp
+#include "wifi_board.h"
+#include "codecs/es8311_audio_codec.h"
+#include "display/lcd_display.h"
+#include "application.h"
+#include "button.h"
+#include "config.h"
+#include "mcp_server.h"
+
+#include <esp_log.h>
+#include <driver/i2c_master.h>
+#include <driver/spi_common.h>
+
+#define TAG "MyCustomBoard"
+
+class MyCustomBoard : public WifiBoard {
+private:
+    i2c_master_bus_handle_t codec_i2c_bus_;
+    Button boot_button_;
+    LcdDisplay* display_;
+
+    // I2C初始化
+    void InitializeI2c() {
+        i2c_master_bus_config_t i2c_bus_cfg = {
+            .i2c_port = I2C_NUM_0,
+            .sda_io_num = AUDIO_CODEC_I2C_SDA_PIN,
+            .scl_io_num = AUDIO_CODEC_I2C_SCL_PIN,
+            .clk_source = I2C_CLK_SRC_DEFAULT,
+            .glitch_ignore_cnt = 7,
+            .intr_priority = 0,
+            .trans_queue_depth = 0,
+            .flags = {
+                .enable_internal_pullup = 1,
+            },
+        };
+        ESP_ERROR_CHECK(i2c_new_master_bus(&i2c_bus_cfg, &codec_i2c_bus_));
+    }
+
+    // SPI初始化（用于显示屏）
+    void InitializeSpi() {
+        spi_bus_config_t buscfg = {};
+        buscfg.mosi_io_num = DISPLAY_SPI_MOSI_PIN;
+        buscfg.miso_io_num = GPIO_NUM_NC;
+        buscfg.sclk_io_num = DISPLAY_SPI_SCK_PIN;
+        buscfg.quadwp_io_num = GPIO_NUM_NC;
+        buscfg.quadhd_io_num = GPIO_NUM_NC;
+        buscfg.max_transfer_sz = DISPLAY_WIDTH * DISPLAY_HEIGHT * sizeof(uint16_t);
+        ESP_ERROR_CHECK(spi_bus_initialize(SPI2_HOST, &buscfg, SPI_DMA_CH_AUTO));
+    }
+
+    // 按钮初始化
+    void InitializeButtons() {
+        boot_button_.OnClick([this]() {
+            auto& app = Application::GetInstance();
+            if (app.GetDeviceState() == kDeviceStateStarting) {
+                EnterWifiConfigMode();
+                return;
+            }
+            app.ToggleChatState();
+        });
+    }
+
+    // 显示屏初始化（以ST7789为例）
+    void InitializeDisplay() {
+        esp_lcd_panel_io_handle_t panel_io = nullptr;
+        esp_lcd_panel_handle_t panel = nullptr;
+        
+        esp_lcd_panel_io_spi_config_t io_config = {};
+        io_config.cs_gpio_num = DISPLAY_SPI_CS_PIN;
+        io_config.dc_gpio_num = DISPLAY_DC_PIN;
+        io_config.spi_mode = 2;
+        io_config.pclk_hz = 80 * 1000 * 1000;
+        io_config.trans_queue_depth = 10;
+        io_config.lcd_cmd_bits = 8;
+        io_config.lcd_param_bits = 8;
+        ESP_ERROR_CHECK(esp_lcd_new_panel_io_spi(SPI2_HOST, &io_config, &panel_io));
+
+        esp_lcd_panel_dev_config_t panel_config = {};
+        panel_config.reset_gpio_num = GPIO_NUM_NC;
+        panel_config.rgb_ele_order = LCD_RGB_ELEMENT_ORDER_RGB;
+        panel_config.bits_per_pixel = 16;
+        ESP_ERROR_CHECK(esp_lcd_new_panel_st7789(panel_io, &panel_config, &panel));
+        
+        esp_lcd_panel_reset(panel);
+        esp_lcd_panel_init(panel);
+        esp_lcd_panel_invert_color(panel, true);
+        esp_lcd_panel_swap_xy(panel, DISPLAY_SWAP_XY);
+        esp_lcd_panel_mirror(panel, DISPLAY_MIRROR_X, DISPLAY_MIRROR_Y);
+        
+        // 创建显示屏对象
+        display_ = new SpiLcdDisplay(panel_io, panel,
+                                    DISPLAY_WIDTH, DISPLAY_HEIGHT, 
+                                    DISPLAY_OFFSET_X, DISPLAY_OFFSET_Y, 
+                                    DISPLAY_MIRROR_X, DISPLAY_MIRROR_Y, DISPLAY_SWAP_XY);
+    }
+
+    // MCP Tools 初始化
+    void InitializeTools() {
+        // 参考 MCP 文档
+    }
+
+public:
+    // 构造函数
+    MyCustomBoard() : boot_button_(BOOT_BUTTON_GPIO) {
+        InitializeI2c();
+        InitializeSpi();
+        InitializeDisplay();
+        InitializeButtons();
+        InitializeTools();
+        GetBacklight()->SetBrightness(100);
+    }
+
+    // 获取音频编解码器
+    virtual AudioCodec* GetAudioCodec() override {
+        static Es8311AudioCodec audio_codec(
+            codec_i2c_bus_, 
+            I2C_NUM_0, 
+            AUDIO_INPUT_SAMPLE_RATE, 
+            AUDIO_OUTPUT_SAMPLE_RATE,
+            AUDIO_I2S_GPIO_MCLK, 
+            AUDIO_I2S_GPIO_BCLK, 
+            AUDIO_I2S_GPIO_WS, 
+            AUDIO_I2S_GPIO_DOUT, 
+            AUDIO_I2S_GPIO_DIN,
+            AUDIO_CODEC_PA_PIN, 
+            AUDIO_CODEC_ES8311_ADDR);
+        return &audio_codec;
+    }
+
+    // 获取显示屏
+    virtual Display* GetDisplay() override {
+        return display_;
+    }
+    
+    // 获取背光控制
+    virtual Backlight* GetBacklight() override {
+        static PwmBacklight backlight(DISPLAY_BACKLIGHT_PIN, DISPLAY_BACKLIGHT_OUTPUT_INVERT);
+        return &backlight;
+    }
+};
+
+// 注册开发板
+DECLARE_BOARD(MyCustomBoard);
+```
+
+### 4. 添加构建系统配置
+
+#### 在 Kconfig.projbuild 中添加开发板选项
+
+打开 `main/Kconfig.projbuild` 文件，在 `choice BOARD_TYPE` 部分添加新的开发板配置项：
+
+```kconfig
+choice BOARD_TYPE
+    prompt "Board Type"
+    default BOARD_TYPE_BREAD_COMPACT_WIFI
+    help
+        Board type. 开发板类型
+    
+    # ... 其他开发板选项 ...
+    
+    config BOARD_TYPE_MY_CUSTOM_BOARD
+        bool "My Custom Board (我的自定义开发板)"
+        depends on IDF_TARGET_ESP32S3  # 根据你的目标芯片修改
+endchoice
+```
+
+**注意事项：**
+- `BOARD_TYPE_MY_CUSTOM_BOARD` 是配置项名称，需要全大写，使用下划线分隔
+- `depends on` 指定了目标芯片类型（如 `IDF_TARGET_ESP32S3`、`IDF_TARGET_ESP32C3` 等）
+- 描述文字可以使用中英文
+
+#### 在 CMakeLists.txt 中添加开发板配置
+
+打开 `main/CMakeLists.txt` 文件，在开发板类型判断部分添加新的配置：
+
+```cmake
+# 在 elseif 链中添加你的开发板配置
+elseif(CONFIG_BOARD_TYPE_MY_CUSTOM_BOARD)
+    set(BOARD_TYPE "my-custom-board")  # 与目录名一致
+    set(BUILTIN_TEXT_FONT font_puhui_basic_20_4)  # 根据屏幕大小选择合适的字体
+    set(BUILTIN_ICON_FONT font_awesome_20_4)
+    set(DEFAULT_EMOJI_COLLECTION twemoji_64)  # 可选，如果需要表情显示
+endif()
+```
+
+**字体和表情配置说明：**
+
+根据屏幕分辨率选择合适的字体大小：
+- 小屏幕（128x64 OLED）：`font_puhui_basic_14_1` / `font_awesome_14_1`
+- 中小屏幕（240x240）：`font_puhui_basic_16_4` / `font_awesome_16_4`
+- 中等屏幕（240x320）：`font_puhui_basic_20_4` / `font_awesome_20_4`
+- 大屏幕（480x320+）：`font_puhui_basic_30_4` / `font_awesome_30_4`
+
+表情集合选项：
+- `twemoji_32` - 32x32 像素表情（小屏幕）
+- `twemoji_64` - 64x64 像素表情（大屏幕）
+
+### 5. 配置和编译
+
+#### 方法一：使用 idf.py 手动配置
+
+1. **设置目标芯片**（首次配置或更换芯片时）：
+   ```bash
+   # 对于 ESP32-S3
+   idf.py set-target esp32s3
+   
+   # 对于 ESP32-C3
+   idf.py set-target esp32c3
+   
+   # 对于 ESP32
+   idf.py set-target esp32
+   ```
+
+2. **清理旧配置**：
+   ```bash
+   idf.py fullclean
+   ```
+
+3. **进入配置菜单**：
+   ```bash
+   idf.py menuconfig
+   ```
+   
+   在菜单中导航到：`Xiaozhi Assistant` -> `Board Type`，选择你的自定义开发板。
+
+4. **编译和烧录**：
+   ```bash
+   idf.py build
+   idf.py flash monitor
+   ```
+
+#### 方法二：使用 release.py 脚本（推荐）
+
+如果你的开发板目录下有 `config.json` 文件，可以使用此脚本自动完成配置和编译：
+
+```bash
+python scripts/release.py my-custom-board
+```
+
+此脚本会自动：
+- 读取 `config.json` 中的 `target` 配置并设置目标芯片
+- 应用 `sdkconfig_append` 中的编译选项
+- 完成编译并打包固件
+
+### 6. 创建README.md
+
+在README.md中说明开发板的特性、硬件要求、编译和烧录步骤：
+
+
+## 常见开发板组件
+
+### 1. 显示屏
+
+项目支持多种显示屏驱动，包括:
+- ST7789 (SPI)
+- ILI9341 (SPI)
+- SH8601 (QSPI)
+- 等...
+
+### 2. 音频编解码器
+
+支持的编解码器包括:
+- ES8311 (常用)
+- ES7210 (麦克风阵列)
+- AW88298 (功放)
+- 等...
+
+### 3. 电源管理
+
+一些开发板使用电源管理芯片:
+- AXP2101
+- 其他可用的PMIC
+
+### 4. MCP设备控制
+
+可以添加各种MCP工具，让AI能够使用:
+- Speaker (扬声器控制)
+- Screen (屏幕亮度调节)
+- Battery (电池电量读取)
+- Light (灯光控制)
+- 等...
+
+## 开发板类继承关系
+
+- `Board` - 基础板级类
+  - `WifiBoard` - Wi-Fi连接的开发板
+  - `Ml307Board` - 使用4G模块的开发板
+  - `DualNetworkBoard` - 支持Wi-Fi与4G网络切换的开发板
+
+## 开发技巧
+
+1. **参考相似的开发板**：如果您的新开发板与现有开发板有相似之处，可以参考现有实现
+2. **分步调试**：先实现基础功能（如显示），再添加更复杂的功能（如音频）
+3. **管脚映射**：确保在config.h中正确配置所有管脚映射
+4. **检查硬件兼容性**：确认所有芯片和驱动程序的兼容性
+
+## 可能遇到的问题
+
+1. **显示屏不正常**：检查SPI配置、镜像设置和颜色反转设置
+2. **音频无输出**：检查I2S配置、PA使能引脚和编解码器地址
+3. **无法连接网络**：检查Wi-Fi凭据和网络配置
+4. **无法与服务器通信**：检查MQTT或WebSocket配置
+
+## 参考资料
+
+- ESP-IDF 文档: https://docs.espressif.com/projects/esp-idf/
+- LVGL 文档: https://docs.lvgl.io/
+- ESP-SR 文档: https://github.com/espressif/esp-sr 
--- a/docs/mcp-based-graph.jpg
+++ b/docs/mcp-based-graph.jpg
--- a/docs/mcp-protocol.md
+++ b/docs/mcp-protocol.md
@@ -0,0 +1,269 @@
+# MCP (Model Context Protocol) 交互流程
+
+NOTICE: AI 辅助生成, 在实现后台服务时, 请参照代码确认细节!!
+
+本项目中的 MCP 协议用于后台 API（MCP 客户端）与 ESP32 设备（MCP 服务器）之间的通信，以便后台能够发现和调用设备提供的功能（工具）。
+
+## 协议格式
+
+根据代码 (`main/protocols/protocol.cc`, `main/mcp_server.cc`)，MCP 消息是封装在基础通信协议（如 WebSocket 或 MQTT）的消息体中的。其内部结构遵循 [JSON-RPC 2.0](https://www.jsonrpc.org/specification) 规范。
+
+整体消息结构示例：
+
+```json
+{
+  "session_id": "...", // 会话 ID
+  "type": "mcp",       // 消息类型，固定为 "mcp"
+  "payload": {         // JSON-RPC 2.0 负载
+    "jsonrpc": "2.0",
+    "method": "...",   // 方法名 (如 "initialize", "tools/list", "tools/call")
+    "params": { ... }, // 方法参数 (对于 request)
+    "id": ...,         // 请求 ID (对于 request 和 response)
+    "result": { ... }, // 方法执行结果 (对于 success response)
+    "error": { ... }   // 错误信息 (对于 error response)
+  }
+}
+```
+
+其中，`payload` 部分是标准的 JSON-RPC 2.0 消息：
+
+- `jsonrpc`: 固定的字符串 "2.0"。
+- `method`: 要调用的方法名称 (对于 Request)。
+- `params`: 方法的参数，一个结构化值，通常为对象 (对于 Request)。
+- `id`: 请求的标识符，客户端发送请求时提供，服务器响应时原样返回。用于匹配请求和响应。
+- `result`: 方法成功执行时的结果 (对于 Success Response)。
+- `error`: 方法执行失败时的错误信息 (对于 Error Response)。
+
+## 交互流程及发送时机
+
+MCP 的交互主要围绕客户端（后台 API）发现和调用设备上的“工具”（Tool）进行。
+
+1.  **连接建立与能力通告**
+
+    - **时机：** 设备启动并成功连接到后台 API 后。
+    - **发送方：** 设备。
+    - **消息：** 设备发送基础协议的 "hello" 消息给后台 API，消息中包含设备支持的能力列表，例如通过支持 MCP 协议 (`"mcp": true`)。
+    - **示例 (非 MCP 负载，而是基础协议消息):**
+      ```json
+      {
+        "type": "hello",
+        "version": ...,
+        "features": {
+          "mcp": true,
+          ...
+        },
+        "transport": "websocket", // 或 "mqtt"
+        "audio_params": { ... },
+        "session_id": "..." // 设备收到服务器hello后可能设置
+      }
+      ```
+
+2.  **初始化 MCP 会话**
+
+    - **时机：** 后台 API 收到设备 "hello" 消息，确认设备支持 MCP 后，通常作为 MCP 会话的第一个请求发送。
+    - **发送方：** 后台 API (客户端)。
+    - **方法：** `initialize`
+    - **消息 (MCP payload):**
+
+      ```json
+      {
+        "jsonrpc": "2.0",
+        "method": "initialize",
+        "params": {
+          "capabilities": {
+            // 客户端能力，可选
+
+            // 摄像头视觉相关
+            "vision": {
+              "url": "...", //摄像头: 图片处理地址(必须是http地址, 不是websocket地址)
+              "token": "..." // url token
+            }
+
+            // ... 其他客户端能力
+          }
+        },
+        "id": 1 // 请求 ID
+      }
+      ```
+
+    - **设备响应时机：** 设备收到 `initialize` 请求并处理后。
+    - **设备响应消息 (MCP payload):**
+      ```json
+      {
+        "jsonrpc": "2.0",
+        "id": 1, // 匹配请求 ID
+        "result": {
+          "protocolVersion": "2024-11-05",
+          "capabilities": {
+            "tools": {} // 这里的 tools 似乎不列出详细信息，需要 tools/list
+          },
+          "serverInfo": {
+            "name": "...", // 设备名称 (BOARD_NAME)
+            "version": "..." // 设备固件版本
+          }
+        }
+      }
+      ```
+
+3.  **发现设备工具列表**
+
+    - **时机：** 后台 API 需要获取设备当前支持的具体功能（工具）列表及其调用方式时。
+    - **发送方：** 后台 API (客户端)。
+    - **方法：** `tools/list`
+    - **消息 (MCP payload):**
+      ```json
+      {
+        "jsonrpc": "2.0",
+        "method": "tools/list",
+        "params": {
+          "cursor": "" // 用于分页，首次请求为空字符串
+        },
+        "id": 2 // 请求 ID
+      }
+      ```
+    - **设备响应时机：** 设备收到 `tools/list` 请求并生成工具列表后。
+    - **设备响应消息 (MCP payload):**
+      ```json
+      {
+        "jsonrpc": "2.0",
+        "id": 2, // 匹配请求 ID
+        "result": {
+          "tools": [ // 工具对象列表
+            {
+              "name": "self.get_device_status",
+              "description": "...",
+              "inputSchema": { ... } // 参数 schema
+            },
+            {
+              "name": "self.audio_speaker.set_volume",
+              "description": "...",
+              "inputSchema": { ... } // 参数 schema
+            }
+            // ... 更多工具
+          ],
+          "nextCursor": "..." // 如果列表很大需要分页，这里会包含下一个请求的 cursor 值
+        }
+      }
+      ```
+    - **分页处理：** 如果 `nextCursor` 字段非空，客户端需要再次发送 `tools/list` 请求，并在 `params` 中带上这个 `cursor` 值以获取下一页工具。
+
+4.  **调用设备工具**
+
+    - **时机：** 后台 API 需要执行设备上的某个具体功能时。
+    - **发送方：** 后台 API (客户端)。
+    - **方法：** `tools/call`
+    - **消息 (MCP payload):**
+      ```json
+      {
+        "jsonrpc": "2.0",
+        "method": "tools/call",
+        "params": {
+          "name": "self.audio_speaker.set_volume", // 要调用的工具名称
+          "arguments": {
+            // 工具参数，对象格式
+            "volume": 50 // 参数名及其值
+          }
+        },
+        "id": 3 // 请求 ID
+      }
+      ```
+    - **设备响应时机：** 设备收到 `tools/call` 请求，执行相应的工具函数后。
+    - **设备成功响应消息 (MCP payload):**
+      ```json
+      {
+        "jsonrpc": "2.0",
+        "id": 3, // 匹配请求 ID
+        "result": {
+          "content": [
+            // 工具执行结果内容
+            { "type": "text", "text": "true" } // 示例：set_volume 返回 bool
+          ],
+          "isError": false // 表示成功
+        }
+      }
+      ```
+    - **设备失败响应消息 (MCP payload):**
+      ```json
+      {
+        "jsonrpc": "2.0",
+        "id": 3, // 匹配请求 ID
+        "error": {
+          "code": -32601, // JSON-RPC 错误码，例如 Method not found (-32601)
+          "message": "Unknown tool: self.non_existent_tool" // 错误描述
+        }
+      }
+      ```
+
+5.  **设备主动发送消息 (Notifications)**
+    - **时机：** 设备内部发生需要通知后台 API 的事件时（例如，状态变化，虽然代码示例中没有明确的工具发送此类消息，但 `Application::SendMcpMessage` 的存在暗示了设备可能主动发送 MCP 消息）。
+    - **发送方：** 设备 (服务器)。
+    - **方法：** 可能是以 `notifications/` 开头的方法名，或者其他自定义方法。
+    - **消息 (MCP payload):** 遵循 JSON-RPC Notification 格式，没有 `id` 字段。
+      ```json
+      {
+        "jsonrpc": "2.0",
+        "method": "notifications/state_changed", // 示例方法名
+        "params": {
+          "newState": "idle",
+          "oldState": "connecting"
+        }
+        // 没有 id 字段
+      }
+      ```
+    - **后台 API 处理：** 接收到 Notification 后，后台 API 进行相应的处理，但不回复。
+
+## 交互图
+
+下面是一个简化的交互序列图，展示了主要的 MCP 消息流程：
+
+```mermaid
+sequenceDiagram
+    participant Device as ESP32 Device
+    participant BackendAPI as 后台 API (Client)
+
+    Note over Device, BackendAPI: 建立 WebSocket / MQTT 连接
+
+    Device->>BackendAPI: Hello Message (包含 "mcp": true)
+
+    BackendAPI->>Device: MCP Initialize Request
+    Note over BackendAPI: method: initialize
+    Note over BackendAPI: params: { capabilities: ... }
+
+    Device->>BackendAPI: MCP Initialize Response
+    Note over Device: result: { protocolVersion: ..., serverInfo: ... }
+
+    BackendAPI->>Device: MCP Get Tools List Request
+    Note over BackendAPI: method: tools/list
+    Note over BackendAPI: params: { cursor: "" }
+
+    Device->>BackendAPI: MCP Get Tools List Response
+    Note over Device: result: { tools: [...], nextCursor: ... }
+
+    loop Optional Pagination
+        BackendAPI->>Device: MCP Get Tools List Request
+        Note over BackendAPI: method: tools/list
+        Note over BackendAPI: params: { cursor: "..." }
+        Device->>BackendAPI: MCP Get Tools List Response
+        Note over Device: result: { tools: [...], nextCursor: "" }
+    end
+
+    BackendAPI->>Device: MCP Call Tool Request
+    Note over BackendAPI: method: tools/call
+    Note over BackendAPI: params: { name: "...", arguments: { ... } }
+
+    alt Tool Call Successful
+        Device->>BackendAPI: MCP Tool Call Success Response
+        Note over Device: result: { content: [...], isError: false }
+    else Tool Call Failed
+        Device->>BackendAPI: MCP Tool Call Error Response
+        Note over Device: error: { code: ..., message: ... }
+    end
+
+    opt Device Notification
+        Device->>BackendAPI: MCP Notification
+        Note over Device: method: notifications/...
+        Note over Device: params: { ... }
+    end
+```
+
+这份文档概述了该项目中 MCP 协议的主要交互流程。具体的参数细节和工具功能需要参考 `main/mcp_server.cc` 中 `McpServer::AddCommonTools` 以及各个工具的实现。
--- a/docs/mcp-usage.md
+++ b/docs/mcp-usage.md
@@ -0,0 +1,115 @@
+# MCP 协议物联网控制用法说明
+
+> 本文档介绍如何基于 MCP 协议实现 ESP32 设备的物联网控制。详细协议流程请参考 [`mcp-protocol.md`](./mcp-protocol.md)。
+
+## 简介
+
+MCP（Model Context Protocol）是新一代推荐用于物联网控制的协议，通过标准 JSON-RPC 2.0 格式在后台与设备间发现和调用"工具"（Tool），实现灵活的设备控制。
+
+## 典型使用流程
+
+1. 设备启动后通过基础协议（如 WebSocket/MQTT）与后台建立连接。
+2. 后台通过 MCP 协议的 `initialize` 方法初始化会话。
+3. 后台通过 `tools/list` 获取设备支持的所有工具（功能）及参数说明。
+4. 后台通过 `tools/call` 调用具体工具，实现对设备的控制。
+
+详细协议格式与交互请见 [`mcp-protocol.md`](./mcp-protocol.md)。
+
+## 设备端工具注册方法说明
+
+设备通过 `McpServer::AddTool` 方法注册可被后台调用的"工具"。其常用函数签名如下：
+
+```cpp
+void AddTool(
+    const std::string& name,           // 工具名称，建议唯一且有层次感，如 self.dog.forward
+    const std::string& description,    // 工具描述，简明说明功能，便于大模型理解
+    const PropertyList& properties,    // 输入参数列表（可为空），支持类型：布尔、整数、字符串
+    std::function<ReturnValue(const PropertyList&)> callback // 工具被调用时的回调实现
+);
+```
+- name：工具唯一标识，建议用"模块.功能"命名风格。
+- description：自然语言描述，便于 AI/用户理解。
+- properties：参数列表，支持类型有布尔、整数、字符串，可指定范围和默认值。
+- callback：收到调用请求时的实际执行逻辑，返回值可为 bool/int/string。
+
+## 典型注册示例（以 ESP-Hi 为例）
+
+```cpp
+void InitializeTools() {
+    auto& mcp_server = McpServer::GetInstance();
+    // 例1：无参数，控制机器人前进
+    mcp_server.AddTool("self.dog.forward", "机器人向前移动", PropertyList(), [this](const PropertyList&) -> ReturnValue {
+        servo_dog_ctrl_send(DOG_STATE_FORWARD, NULL);
+        return true;
+    });
+    // 例2：带参数，设置灯光 RGB 颜色
+    mcp_server.AddTool("self.light.set_rgb", "设置RGB颜色", PropertyList({
+        Property("r", kPropertyTypeInteger, 0, 255),
+        Property("g", kPropertyTypeInteger, 0, 255),
+        Property("b", kPropertyTypeInteger, 0, 255)
+    }), [this](const PropertyList& properties) -> ReturnValue {
+        int r = properties["r"].value<int>();
+        int g = properties["g"].value<int>();
+        int b = properties["b"].value<int>();
+        led_on_ = true;
+        SetLedColor(r, g, b);
+        return true;
+    });
+}
+```
+
+## 常见工具调用 JSON-RPC 示例
+
+### 1. 获取工具列表
+```json
+{
+  "jsonrpc": "2.0",
+  "method": "tools/list",
+  "params": { "cursor": "" },
+  "id": 1
+}
+```
+
+### 2. 控制底盘前进
+```json
+{
+  "jsonrpc": "2.0",
+  "method": "tools/call",
+  "params": {
+    "name": "self.chassis.go_forward",
+    "arguments": {}
+  },
+  "id": 2
+}
+```
+
+### 3. 切换灯光模式
+```json
+{
+  "jsonrpc": "2.0",
+  "method": "tools/call",
+  "params": {
+    "name": "self.chassis.switch_light_mode",
+    "arguments": { "light_mode": 3 }
+  },
+  "id": 3
+}
+```
+
+### 4. 摄像头翻转
+```json
+{
+  "jsonrpc": "2.0",
+  "method": "tools/call",
+  "params": {
+    "name": "self.camera.set_camera_flipped",
+    "arguments": {}
+  },
+  "id": 4
+}
+```
+
+## 备注
+- 工具名称、参数及返回值请以设备端 `AddTool` 注册为准。
+- 推荐所有新项目统一采用 MCP 协议进行物联网控制。
+- 详细协议与进阶用法请查阅 [`mcp-protocol.md`](./mcp-protocol.md)。 
--- a/docs/mqtt-udp.md
+++ b/docs/mqtt-udp.md
@@ -0,0 +1,393 @@
+# MQTT + UDP 混合通信协议文档
+
+基于代码实现整理的 MQTT + UDP 混合通信协议文档，概述设备端与服务器之间如何通过 MQTT 进行控制消息传输，通过 UDP 进行音频数据传输的交互方式。
+
+---
+
+## 1. 协议概览
+
+本协议采用混合传输方式：
+- **MQTT**：用于控制消息、状态同步、JSON 数据交换
+- **UDP**：用于实时音频数据传输，支持加密
+
+### 1.1 协议特点
+
+- **双通道设计**：控制与数据分离，确保实时性
+- **加密传输**：UDP 音频数据使用 AES-CTR 加密
+- **序列号保护**：防止数据包重放和乱序
+- **自动重连**：MQTT 连接断开时自动重连
+
+---
+
+## 2. 总体流程概览
+
+```mermaid
+sequenceDiagram
+    participant Device as ESP32 设备
+    participant MQTT as MQTT 服务器
+    participant UDP as UDP 服务器
+
+    Note over Device, UDP: 1. 建立 MQTT 连接
+    Device->>MQTT: MQTT Connect
+    MQTT->>Device: Connected
+
+    Note over Device, UDP: 2. 请求音频通道
+    Device->>MQTT: Hello Message (type: "hello", transport: "udp")
+    MQTT->>Device: Hello Response (UDP 连接信息 + 加密密钥)
+
+    Note over Device, UDP: 3. 建立 UDP 连接
+    Device->>UDP: UDP Connect
+    UDP->>Device: Connected
+
+    Note over Device, UDP: 4. 音频数据传输
+    loop 音频流传输
+        Device->>UDP: 加密音频数据 (Opus)
+        UDP->>Device: 加密音频数据 (Opus)
+    end
+
+    Note over Device, UDP: 5. 控制消息交换
+    par 控制消息
+        Device->>MQTT: Listen/TTS/MCP 消息
+        MQTT->>Device: STT/TTS/MCP 响应
+    end
+
+    Note over Device, UDP: 6. 关闭连接
+    Device->>MQTT: Goodbye Message
+    Device->>UDP: Disconnect
+```
+
+---
+
+## 3. MQTT 控制通道
+
+### 3.1 连接建立
+
+设备通过 MQTT 连接到服务器，连接参数包括：
+- **Endpoint**：MQTT 服务器地址和端口
+- **Client ID**：设备唯一标识符
+- **Username/Password**：认证凭据
+- **Keep Alive**：心跳间隔（默认240秒）
+
+### 3.2 Hello 消息交换
+
+#### 3.2.1 设备端发送 Hello
+
+```json
+{
+  "type": "hello",
+  "version": 3,
+  "transport": "udp",
+  "features": {
+    "mcp": true
+  },
+  "audio_params": {
+    "format": "opus",
+    "sample_rate": 16000,
+    "channels": 1,
+    "frame_duration": 60
+  }
+}
+```
+
+#### 3.2.2 服务器响应 Hello
+
+```json
+{
+  "type": "hello",
+  "transport": "udp",
+  "session_id": "xxx",
+  "audio_params": {
+    "format": "opus",
+    "sample_rate": 24000,
+    "channels": 1,
+    "frame_duration": 60
+  },
+  "udp": {
+    "server": "192.168.1.100",
+    "port": 8888,
+    "key": "0123456789ABCDEF0123456789ABCDEF",
+    "nonce": "0123456789ABCDEF0123456789ABCDEF"
+  }
+}
+```
+
+**字段说明：**
+- `udp.server`：UDP 服务器地址
+- `udp.port`：UDP 服务器端口
+- `udp.key`：AES 加密密钥（十六进制字符串）
+- `udp.nonce`：AES 加密随机数（十六进制字符串）
+
+### 3.3 JSON 消息类型
+
+#### 3.3.1 设备端→服务器
+
+1. **Listen 消息**
+   ```json
+   {
+     "session_id": "xxx",
+     "type": "listen",
+     "state": "start",
+     "mode": "manual"
+   }
+   ```
+
+2. **Abort 消息**
+   ```json
+   {
+     "session_id": "xxx",
+     "type": "abort",
+     "reason": "wake_word_detected"
+   }
+   ```
+
+3. **MCP 消息**
+   ```json
+   {
+     "session_id": "xxx",
+     "type": "mcp",
+     "payload": {
+       "jsonrpc": "2.0",
+       "id": 1,
+       "result": {...}
+     }
+   }
+   ```
+
+4. **Goodbye 消息**
+   ```json
+   {
+     "session_id": "xxx",
+     "type": "goodbye"
+   }
+   ```
+
+#### 3.3.2 服务器→设备端
+
+支持的消息类型与 WebSocket 协议一致，包括：
+- **STT**：语音识别结果
+- **TTS**：语音合成控制
+- **LLM**：情感表达控制
+- **MCP**：物联网控制
+- **System**：系统控制
+- **Custom**：自定义消息（可选）
+
+---
+
+## 4. UDP 音频通道
+
+### 4.1 连接建立
+
+设备收到 MQTT Hello 响应后，使用其中的 UDP 连接信息建立音频通道：
+1. 解析 UDP 服务器地址和端口
+2. 解析加密密钥和随机数
+3. 初始化 AES-CTR 加密上下文
+4. 建立 UDP 连接
+
+### 4.2 音频数据格式
+
+#### 4.2.1 加密音频包结构
+
+```
+|type 1byte|flags 1byte|payload_len 2bytes|ssrc 4bytes|timestamp 4bytes|sequence 4bytes|
+|payload payload_len bytes|
+```
+
+**字段说明：**
+- `type`：数据包类型，固定为 0x01
+- `flags`：标志位，当前未使用
+- `payload_len`：负载长度（网络字节序）
+- `ssrc`：同步源标识符
+- `timestamp`：时间戳（网络字节序）
+- `sequence`：序列号（网络字节序）
+- `payload`：加密的 Opus 音频数据
+
+#### 4.2.2 加密算法
+
+使用 **AES-CTR** 模式加密：
+- **密钥**：128位，由服务器提供
+- **随机数**：128位，由服务器提供
+- **计数器**：包含时间戳和序列号信息
+
+### 4.3 序列号管理
+
+- **发送端**：`local_sequence_` 单调递增
+- **接收端**：`remote_sequence_` 验证连续性
+- **防重放**：拒绝序列号小于期望值的数据包
+- **容错处理**：允许轻微的序列号跳跃，记录警告
+
+### 4.4 错误处理
+
+1. **解密失败**：记录错误，丢弃数据包
+2. **序列号异常**：记录警告，但仍处理数据包
+3. **数据包格式错误**：记录错误，丢弃数据包
+
+---
+
+## 5. 状态管理
+
+### 5.1 连接状态
+
+```mermaid
+stateDiagram
+    direction TB
+    [*] --> Disconnected
+    Disconnected --> MqttConnecting: StartMqttClient()
+    MqttConnecting --> MqttConnected: MQTT Connected
+    MqttConnecting --> Disconnected: Connect Failed
+    MqttConnected --> RequestingChannel: OpenAudioChannel()
+    RequestingChannel --> ChannelOpened: Hello Exchange Success
+    RequestingChannel --> MqttConnected: Hello Timeout/Failed
+    ChannelOpened --> UdpConnected: UDP Connect Success
+    UdpConnected --> AudioStreaming: Start Audio Transfer
+    AudioStreaming --> UdpConnected: Stop Audio Transfer
+    UdpConnected --> ChannelOpened: UDP Disconnect
+    ChannelOpened --> MqttConnected: CloseAudioChannel()
+    MqttConnected --> Disconnected: MQTT Disconnect
+```
+
+### 5.2 状态检查
+
+设备通过以下条件判断音频通道是否可用：
+```cpp
+bool IsAudioChannelOpened() const {
+    return udp_ != nullptr && !error_occurred_ && !IsTimeout();
+}
+```
+
+---
+
+## 6. 配置参数
+
+### 6.1 MQTT 配置
+
+从设置中读取的配置项：
+- `endpoint`：MQTT 服务器地址
+- `client_id`：客户端标识符
+- `username`：用户名
+- `password`：密码
+- `keepalive`：心跳间隔（默认240秒）
+- `publish_topic`：发布主题
+
+### 6.2 音频参数
+
+- **格式**：Opus
+- **采样率**：16000 Hz（设备端）/ 24000 Hz（服务器端）
+- **声道数**：1（单声道）
+- **帧时长**：60ms
+
+---
+
+## 7. 错误处理与重连
+
+### 7.1 MQTT 重连机制
+
+- 连接失败时自动重试
+- 支持错误上报控制
+- 断线时触发清理流程
+
+### 7.2 UDP 连接管理
+
+- 连接失败时不自动重试
+- 依赖 MQTT 通道重新协商
+- 支持连接状态查询
+
+### 7.3 超时处理
+
+基类 `Protocol` 提供超时检测：
+- 默认超时时间：120 秒
+- 基于最后接收时间计算
+- 超时时自动标记为不可用
+
+---
+
+## 8. 安全考虑
+
+### 8.1 传输加密
+
+- **MQTT**：支持 TLS/SSL 加密（端口8883）
+- **UDP**：使用 AES-CTR 加密音频数据
+
+### 8.2 认证机制
+
+- **MQTT**：用户名/密码认证
+- **UDP**：通过 MQTT 通道分发密钥
+
+### 8.3 防重放攻击
+
+- 序列号单调递增
+- 拒绝过期数据包
+- 时间戳验证
+
+---
+
+## 9. 性能优化
+
+### 9.1 并发控制
+
+使用互斥锁保护 UDP 连接：
+```cpp
+std::lock_guard<std::mutex> lock(channel_mutex_);
+```
+
+### 9.2 内存管理
+
+- 动态创建/销毁网络对象
+- 智能指针管理音频数据包
+- 及时释放加密上下文
+
+### 9.3 网络优化
+
+- UDP 连接复用
+- 数据包大小优化
+- 序列号连续性检查
+
+---
+
+## 10. 与 WebSocket 协议的比较
+
+| 特性 | MQTT + UDP | WebSocket |
+|------|------------|-----------|
+| 控制通道 | MQTT | WebSocket |
+| 音频通道 | UDP (加密) | WebSocket (二进制) |
+| 实时性 | 高 (UDP) | 中等 |
+| 可靠性 | 中等 | 高 |
+| 复杂度 | 高 | 低 |
+| 加密 | AES-CTR | TLS |
+| 防火墙友好度 | 低 | 高 |
+
+---
+
+## 11. 部署建议
+
+### 11.1 网络环境
+
+- 确保 UDP 端口可达
+- 配置防火墙规则
+- 考虑 NAT 穿透
+
+### 11.2 服务器配置
+
+- MQTT Broker 配置
+- UDP 服务器部署
+- 密钥管理系统
+
+### 11.3 监控指标
+
+- 连接成功率
+- 音频传输延迟
+- 数据包丢失率
+- 解密失败率
+
+---
+
+## 12. 总结
+
+MQTT + UDP 混合协议通过以下设计实现高效的音视频通信：
+
+- **分离式架构**：控制与数据通道分离，各司其职
+- **加密保护**：AES-CTR 确保音频数据安全传输
+- **序列化管理**：防止重放攻击和数据乱序
+- **自动恢复**：支持连接断开后的自动重连
+- **性能优化**：UDP 传输保证音频数据的实时性
+
+该协议适用于对实时性要求较高的语音交互场景，但需要在网络复杂度和传输性能之间做出权衡。 
--- a/docs/v0/AtomMatrix-echo-base.jpg
+++ b/docs/v0/AtomMatrix-echo-base.jpg
--- a/docs/v0/ESP32-BreadBoard.jpg
+++ b/docs/v0/ESP32-BreadBoard.jpg
--- a/docs/v0/atoms3r-echo-base.jpg
+++ b/docs/v0/atoms3r-echo-base.jpg
--- a/docs/v0/esp32s3-box3.jpg
+++ b/docs/v0/esp32s3-box3.jpg
--- a/docs/v0/lichuang-s3.jpg
+++ b/docs/v0/lichuang-s3.jpg
--- a/docs/v0/m5stack-cores3.jpg
+++ b/docs/v0/m5stack-cores3.jpg
--- a/docs/v0/magiclick-2p4.jpg
+++ b/docs/v0/magiclick-2p4.jpg
--- a/docs/v0/waveshare-esp32-s3-touch-amoled-1.8.jpg
+++ b/docs/v0/waveshare-esp32-s3-touch-amoled-1.8.jpg
--- a/docs/v0/wiring.jpg
+++ b/docs/v0/wiring.jpg
--- a/docs/v1/atoms3r.jpg
+++ b/docs/v1/atoms3r.jpg
--- a/docs/v1/electron-bot.png
+++ b/docs/v1/electron-bot.png
--- a/docs/v1/esp-hi.jpg
+++ b/docs/v1/esp-hi.jpg
--- a/docs/v1/esp-sparkbot.jpg
+++ b/docs/v1/esp-sparkbot.jpg
--- a/docs/v1/espbox3.jpg
+++ b/docs/v1/espbox3.jpg
--- a/docs/v1/lichuang-s3.jpg
+++ b/docs/v1/lichuang-s3.jpg
--- a/docs/v1/lilygo-t-circle-s3.jpg
+++ b/docs/v1/lilygo-t-circle-s3.jpg
--- a/docs/v1/m5cores3.jpg
+++ b/docs/v1/m5cores3.jpg
--- a/docs/v1/magiclick.jpg
+++ b/docs/v1/magiclick.jpg
--- a/docs/v1/movecall-cuican-esp32s3.jpg
+++ b/docs/v1/movecall-cuican-esp32s3.jpg
--- a/docs/v1/movecall-moji-esp32s3.jpg
+++ b/docs/v1/movecall-moji-esp32s3.jpg
--- a/docs/v1/otto-robot.png
+++ b/docs/v1/otto-robot.png
--- a/docs/v1/sensecap_watcher.jpg
+++ b/docs/v1/sensecap_watcher.jpg
--- a/docs/v1/waveshare.jpg
+++ b/docs/v1/waveshare.jpg
--- a/docs/v1/wiring2.jpg
+++ b/docs/v1/wiring2.jpg
--- a/docs/v1/wmnologo_xingzhi_0.96.jpg
+++ b/docs/v1/wmnologo_xingzhi_0.96.jpg
--- a/docs/v1/wmnologo_xingzhi_1.54.jpg
+++ b/docs/v1/wmnologo_xingzhi_1.54.jpg
--- a/docs/v1/xmini-c3.jpg
+++ b/docs/v1/xmini-c3.jpg
--- a/docs/websocket.md
+++ b/docs/websocket.md
@@ -0,0 +1,495 @@
+以下是一份基于代码实现整理的 WebSocket 通信协议文档，概述设备端与服务器之间如何通过 WebSocket 进行交互。
+
+该文档仅基于所提供的代码推断，实际部署时可能需要结合服务器端实现进行进一步确认或补充。
+
+---
+
+## 1. 总体流程概览
+
+1. **设备端初始化**  
+   - 设备上电、初始化 `Application`：  
+     - 初始化音频编解码器、显示屏、LED 等  
+     - 连接网络  
+     - 创建并初始化实现 `Protocol` 接口的 WebSocket 协议实例（`WebsocketProtocol`）  
+   - 进入主循环等待事件（音频输入、音频输出、调度任务等）。
+
+2. **建立 WebSocket 连接**  
+   - 当设备需要开始语音会话时（例如用户唤醒、手动按键触发等），调用 `OpenAudioChannel()`：  
+     - 根据配置获取 WebSocket URL
+     - 设置若干请求头（`Authorization`, `Protocol-Version`, `Device-Id`, `Client-Id`）  
+     - 调用 `Connect()` 与服务器建立 WebSocket 连接  
+
+3. **设备端发送 "hello" 消息**  
+   - 连接成功后，设备会发送一条 JSON 消息，示例结构如下：  
+   ```json
+   {
+     "type": "hello",
+     "version": 1,
+     "features": {
+       "mcp": true
+     },
+     "transport": "websocket",
+     "audio_params": {
+       "format": "opus",
+       "sample_rate": 16000,
+       "channels": 1,
+       "frame_duration": 60
+     }
+   }
+   ```
+   - 其中 `features` 字段为可选，内容根据设备编译配置自动生成。例如：`"mcp": true` 表示支持 MCP 协议。
+   - `frame_duration` 的值对应 `OPUS_FRAME_DURATION_MS`（例如 60ms）。
+
+4. **服务器回复 "hello"**  
+   - 设备等待服务器返回一条包含 `"type": "hello"` 的 JSON 消息，并检查 `"transport": "websocket"` 是否匹配。  
+   - 服务器可选下发 `session_id` 字段，设备端收到后会自动记录。  
+   - 示例：
+   ```json
+   {
+     "type": "hello",
+     "transport": "websocket",
+     "session_id": "xxx",
+     "audio_params": {
+       "format": "opus",
+       "sample_rate": 24000,
+       "channels": 1,
+       "frame_duration": 60
+     }
+   }
+   ```
+   - 如果匹配，则认为服务器已就绪，标记音频通道打开成功。  
+   - 如果在超时时间（默认 10 秒）内未收到正确回复，认为连接失败并触发网络错误回调。
+
+5. **后续消息交互**  
+   - 设备端和服务器端之间可发送两种主要类型的数据：  
+     1. **二进制音频数据**（Opus 编码）  
+     2. **文本 JSON 消息**（用于传输聊天状态、TTS/STT 事件、MCP 协议消息等）  
+
+   - 在代码里，接收回调主要分为：  
+     - `OnData(...)`:  
+       - 当 `binary` 为 `true` 时，认为是音频帧；设备会将其当作 Opus 数据进行解码。  
+       - 当 `binary` 为 `false` 时，认为是 JSON 文本，需要在设备端用 cJSON 进行解析并做相应业务逻辑处理（如聊天、TTS、MCP 协议消息等）。  
+
+   - 当服务器或网络出现断连，回调 `OnDisconnected()` 被触发：  
+     - 设备会调用 `on_audio_channel_closed_()`，并最终回到空闲状态。
+
+6. **关闭 WebSocket 连接**  
+   - 设备在需要结束语音会话时，会调用 `CloseAudioChannel()` 主动断开连接，并回到空闲状态。  
+   - 或者如果服务器端主动断开，也会引发同样的回调流程。
+
+---
+
+## 2. 通用请求头
+
+在建立 WebSocket 连接时，代码示例中设置了以下请求头：
+
+- `Authorization`: 用于存放访问令牌，形如 `"Bearer <token>"`  
+- `Protocol-Version`: 协议版本号，与 hello 消息体内的 `version` 字段保持一致  
+- `Device-Id`: 设备物理网卡 MAC 地址
+- `Client-Id`: 软件生成的 UUID（擦除 NVS 或重新烧录完整固件会重置）
+
+这些头会随着 WebSocket 握手一起发送到服务器，服务器可根据需求进行校验、认证等。
+
+---
+
+## 3. 二进制协议版本
+
+设备支持多种二进制协议版本，通过配置中的 `version` 字段指定：
+
+### 3.1 版本1（默认）
+直接发送 Opus 音频数据，无额外元数据。Websocket 协议会区分 text 与 binary。
+
+### 3.2 版本2
+使用 `BinaryProtocol2` 结构：
+```c
+struct BinaryProtocol2 {
+    uint16_t version;        // 协议版本
+    uint16_t type;           // 消息类型 (0: OPUS, 1: JSON)
+    uint32_t reserved;       // 保留字段
+    uint32_t timestamp;      // 时间戳（毫秒，用于服务器端AEC）
+    uint32_t payload_size;   // 负载大小（字节）
+    uint8_t payload[];       // 负载数据
+} __attribute__((packed));
+```
+
+### 3.3 版本3
+使用 `BinaryProtocol3` 结构：
+```c
+struct BinaryProtocol3 {
+    uint8_t type;            // 消息类型
+    uint8_t reserved;        // 保留字段
+    uint16_t payload_size;   // 负载大小
+    uint8_t payload[];       // 负载数据
+} __attribute__((packed));
+```
+
+---
+
+## 4. JSON 消息结构
+
+WebSocket 文本帧以 JSON 方式传输，以下为常见的 `"type"` 字段及其对应业务逻辑。若消息里包含未列出的字段，可能为可选或特定实现细节。
+
+### 4.1 设备端→服务器
+
+1. **Hello**  
+   - 连接成功后，由设备端发送，告知服务器基本参数。  
+   - 例：
+     ```json
+     {
+       "type": "hello",
+       "version": 1,
+       "features": {
+         "mcp": true
+       },
+       "transport": "websocket",
+       "audio_params": {
+         "format": "opus",
+         "sample_rate": 16000,
+         "channels": 1,
+         "frame_duration": 60
+       }
+     }
+     ```
+
+2. **Listen**  
+   - 表示设备端开始或停止录音监听。  
+   - 常见字段：  
+     - `"session_id"`：会话标识  
+     - `"type": "listen"`  
+     - `"state"`：`"start"`, `"stop"`, `"detect"`（唤醒检测已触发）  
+     - `"mode"`：`"auto"`, `"manual"` 或 `"realtime"`，表示识别模式。  
+   - 例：开始监听  
+     ```json
+     {
+       "session_id": "xxx",
+       "type": "listen",
+       "state": "start",
+       "mode": "manual"
+     }
+     ```
+
+3. **Abort**  
+   - 终止当前说话（TTS 播放）或语音通道。  
+   - 例：
+     ```json
+     {
+       "session_id": "xxx",
+       "type": "abort",
+       "reason": "wake_word_detected"
+     }
+     ```
+   - `reason` 值可为 `"wake_word_detected"` 或其他。
+
+4. **Wake Word Detected**  
+   - 用于设备端向服务器告知检测到唤醒词。
+   - 在发送该消息之前，可提前发送唤醒词的 Opus 音频数据，用于服务器进行声纹检测。  
+   - 例：
+     ```json
+     {
+       "session_id": "xxx",
+       "type": "listen",
+       "state": "detect",
+       "text": "你好小明"
+     }
+     ```
+
+5. **MCP**
+   - 推荐用于物联网控制的新一代协议。所有设备能力发现、工具调用等均通过 type: "mcp" 的消息进行，payload 内部为标准 JSON-RPC 2.0（详见 [MCP 协议文档](./mcp-protocol.md)）。
+   
+   - **设备端到服务器发送 result 的例子：**
+     ```json
+     {
+       "session_id": "xxx",
+       "type": "mcp",
+       "payload": {
+         "jsonrpc": "2.0",
+         "id": 1,
+         "result": {
+           "content": [
+             { "type": "text", "text": "true" }
+           ],
+           "isError": false
+         }
+       }
+     }
+     ```
+
+---
+
+### 4.2 服务器→设备端
+
+1. **Hello**  
+   - 服务器端返回的握手确认消息。  
+   - 必须包含 `"type": "hello"` 和 `"transport": "websocket"`。  
+   - 可能会带有 `audio_params`，表示服务器期望的音频参数，或与设备端对齐的配置。   
+   - 服务器可选下发 `session_id` 字段，设备端收到后会自动记录。  
+   - 成功接收后设备端会设置事件标志，表示 WebSocket 通道就绪。
+
+2. **STT**  
+   - `{"session_id": "xxx", "type": "stt", "text": "..."}`
+   - 表示服务器端识别到了用户语音。（例如语音转文本结果）  
+   - 设备可能将此文本显示到屏幕上，后续再进入回答等流程。
+
+3. **LLM**  
+   - `{"session_id": "xxx", "type": "llm", "emotion": "happy", "text": "😀"}`
+   - 服务器指示设备调整表情动画 / UI 表达。  
+
+4. **TTS**  
+   - `{"session_id": "xxx", "type": "tts", "state": "start"}`：服务器准备下发 TTS 音频，设备端进入 "speaking" 播放状态。  
+   - `{"session_id": "xxx", "type": "tts", "state": "stop"}`：表示本次 TTS 结束。  
+   - `{"session_id": "xxx", "type": "tts", "state": "sentence_start", "text": "..."}`
+     - 让设备在界面上显示当前要播放或朗读的文本片段（例如用于显示给用户）。  
+
+5. **MCP**
+   - 服务器通过 type: "mcp" 的消息下发物联网相关的控制指令或返回调用结果，payload 结构同上。
+   
+   - **服务器到设备端发送 tools/call 的例子：**
+     ```json
+     {
+       "session_id": "xxx",
+       "type": "mcp",
+       "payload": {
+         "jsonrpc": "2.0",
+         "method": "tools/call",
+         "params": {
+           "name": "self.light.set_rgb",
+           "arguments": { "r": 255, "g": 0, "b": 0 }
+         },
+         "id": 1
+       }
+     }
+     ```
+
+6. **System**
+   - 系统控制命令，常用于远程升级更新。
+   - 例：
+     ```json
+     {
+       "session_id": "xxx",
+       "type": "system",
+       "command": "reboot"
+     }
+     ```
+   - 支持的命令：
+     - `"reboot"`：重启设备
+
+7. **Custom**（可选）
+   - 自定义消息，当 `CONFIG_RECEIVE_CUSTOM_MESSAGE` 启用时支持。
+   - 例：
+     ```json
+     {
+       "session_id": "xxx",
+       "type": "custom",
+       "payload": {
+         "message": "自定义内容"
+       }
+     }
+     ```
+
+8. **音频数据：二进制帧**  
+   - 当服务器发送音频二进制帧（Opus 编码）时，设备端解码并播放。  
+   - 若设备端正在处于 "listening" （录音）状态，收到的音频帧会被忽略或清空以防冲突。
+
+---
+
+## 5. 音频编解码
+
+1. **设备端发送录音数据**  
+   - 音频输入经过可能的回声消除、降噪或音量增益后，通过 Opus 编码打包为二进制帧发送给服务器。  
+   - 根据协议版本，可能直接发送 Opus 数据（版本1）或使用带元数据的二进制协议（版本2/3）。
+
+2. **设备端播放收到的音频**  
+   - 收到服务器的二进制帧时，同样认定是 Opus 数据。  
+   - 设备端会进行解码，然后交由音频输出接口播放。  
+   - 如果服务器的音频采样率与设备不一致，会在解码后再进行重采样。
+
+---
+
+## 6. 常见状态流转
+
+以下为常见设备端关键状态流转，与 WebSocket 消息对应：
+
+1. **Idle** → **Connecting**  
+   - 用户触发或唤醒后，设备调用 `OpenAudioChannel()` → 建立 WebSocket 连接 → 发送 `"type":"hello"`。  
+
+2. **Connecting** → **Listening**  
+   - 成功建立连接后，若继续执行 `SendStartListening(...)`，则进入录音状态。此时设备会持续编码麦克风数据并发送到服务器。  
+
+3. **Listening** → **Speaking**  
+   - 收到服务器 TTS Start 消息 (`{"type":"tts","state":"start"}`) → 停止录音并播放接收到的音频。  
+
+4. **Speaking** → **Idle**  
+   - 服务器 TTS Stop (`{"type":"tts","state":"stop"}`) → 音频播放结束。若未继续进入自动监听，则返回 Idle；如果配置了自动循环，则再度进入 Listening。  
+
+5. **Listening** / **Speaking** → **Idle**（遇到异常或主动中断）  
+   - 调用 `SendAbortSpeaking(...)` 或 `CloseAudioChannel()` → 中断会话 → 关闭 WebSocket → 状态回到 Idle。  
+
+### 自动模式状态流转图
+
+```mermaid
+stateDiagram
+  direction TB
+  [*] --> kDeviceStateUnknown
+  kDeviceStateUnknown --> kDeviceStateStarting:初始化
+  kDeviceStateStarting --> kDeviceStateWifiConfiguring:配置WiFi
+  kDeviceStateStarting --> kDeviceStateActivating:激活设备
+  kDeviceStateActivating --> kDeviceStateUpgrading:检测到新版本
+  kDeviceStateActivating --> kDeviceStateIdle:激活完成
+  kDeviceStateIdle --> kDeviceStateConnecting:开始连接
+  kDeviceStateConnecting --> kDeviceStateIdle:连接失败
+  kDeviceStateConnecting --> kDeviceStateListening:连接成功
+  kDeviceStateListening --> kDeviceStateSpeaking:开始说话
+  kDeviceStateSpeaking --> kDeviceStateListening:结束说话
+  kDeviceStateListening --> kDeviceStateIdle:手动终止
+  kDeviceStateSpeaking --> kDeviceStateIdle:自动终止
+```
+
+### 手动模式状态流转图
+
+```mermaid
+stateDiagram
+  direction TB
+  [*] --> kDeviceStateUnknown
+  kDeviceStateUnknown --> kDeviceStateStarting:初始化
+  kDeviceStateStarting --> kDeviceStateWifiConfiguring:配置WiFi
+  kDeviceStateStarting --> kDeviceStateActivating:激活设备
+  kDeviceStateActivating --> kDeviceStateUpgrading:检测到新版本
+  kDeviceStateActivating --> kDeviceStateIdle:激活完成
+  kDeviceStateIdle --> kDeviceStateConnecting:开始连接
+  kDeviceStateConnecting --> kDeviceStateIdle:连接失败
+  kDeviceStateConnecting --> kDeviceStateListening:连接成功
+  kDeviceStateIdle --> kDeviceStateListening:开始监听
+  kDeviceStateListening --> kDeviceStateIdle:停止监听
+  kDeviceStateIdle --> kDeviceStateSpeaking:开始说话
+  kDeviceStateSpeaking --> kDeviceStateIdle:结束说话
+```
+
+---
+
+## 7. 错误处理
+
+1. **连接失败**  
+   - 如果 `Connect(url)` 返回失败或在等待服务器 "hello" 消息时超时，触发 `on_network_error_()` 回调。设备会提示"无法连接到服务"或类似错误信息。
+
+2. **服务器断开**  
+   - 如果 WebSocket 异常断开，回调 `OnDisconnected()`：  
+     - 设备回调 `on_audio_channel_closed_()`  
+     - 切换到 Idle 或其他重试逻辑。
+
+---
+
+## 8. 其它注意事项
+
+1. **鉴权**  
+   - 设备通过设置 `Authorization: Bearer <token>` 提供鉴权，服务器端需验证是否有效。  
+   - 如果令牌过期或无效，服务器可拒绝握手或在后续断开。
+
+2. **会话控制**  
+   - 代码中部分消息包含 `session_id`，用于区分独立的对话或操作。服务端可根据需要对不同会话做分离处理。
+
+3. **音频负载**  
+   - 代码里默认使用 Opus 格式，并设置 `sample_rate = 16000`，单声道。帧时长由 `OPUS_FRAME_DURATION_MS` 控制，一般为 60ms。可根据带宽或性能做适当调整。为了获得更好的音乐播放效果，服务器下行音频可能使用 24000 采样率。
+
+4. **协议版本配置**  
+   - 通过设置中的 `version` 字段配置二进制协议版本（1、2 或 3）
+   - 版本1：直接发送 Opus 数据
+   - 版本2：使用带时间戳的二进制协议，适用于服务器端 AEC
+   - 版本3：使用简化的二进制协议
+
+5. **物联网控制推荐 MCP 协议**  
+   - 设备与服务器之间的物联网能力发现、状态同步、控制指令等，建议全部通过 MCP 协议（type: "mcp"）实现。原有的 type: "iot" 方案已废弃。
+   - MCP 协议可在 WebSocket、MQTT 等多种底层协议上传输，具备更好的扩展性和标准化能力。
+   - 详细用法请参考 [MCP 协议文档](./mcp-protocol.md) 及 [MCP 物联网控制用法](./mcp-usage.md)。
+
+6. **错误或异常 JSON**  
+   - 当 JSON 中缺少必要字段，例如 `{"type": ...}`，设备端会记录错误日志（`ESP_LOGE(TAG, "Missing message type, data: %s", data);`），不会执行任何业务。
+
+---
+
+## 9. 消息示例
+
+下面给出一个典型的双向消息示例（流程简化示意）：
+
+1. **设备端 → 服务器**（握手）
+   ```json
+   {
+     "type": "hello",
+     "version": 1,
+     "features": {
+       "mcp": true
+     },
+     "transport": "websocket",
+     "audio_params": {
+       "format": "opus",
+       "sample_rate": 16000,
+       "channels": 1,
+       "frame_duration": 60
+     }
+   }
+   ```
+
+2. **服务器 → 设备端**（握手应答）
+   ```json
+   {
+     "type": "hello",
+     "transport": "websocket",
+     "session_id": "xxx",
+     "audio_params": {
+       "format": "opus",
+       "sample_rate": 16000
+     }
+   }
+   ```
+
+3. **设备端 → 服务器**（开始监听）
+   ```json
+   {
+     "session_id": "xxx",
+     "type": "listen",
+     "state": "start",
+     "mode": "auto"
+   }
+   ```
+   同时设备端开始发送二进制帧（Opus 数据）。
+
+4. **服务器 → 设备端**（ASR 结果）
+   ```json
+   {
+     "session_id": "xxx",
+     "type": "stt",
+     "text": "用户说的话"
+   }
+   ```
+
+5. **服务器 → 设备端**（TTS开始）
+   ```json
+   {
+     "session_id": "xxx",
+     "type": "tts",
+     "state": "start"
+   }
+   ```
+   接着服务器发送二进制音频帧给设备端播放。
+
+6. **服务器 → 设备端**（TTS结束）
+   ```json
+   {
+     "session_id": "xxx",
+     "type": "tts",
+     "state": "stop"
+   }
+   ```
+   设备端停止播放音频，若无更多指令，则回到空闲状态。
+
+---
+
+## 10. 总结
+
+本协议通过在 WebSocket 上层传输 JSON 文本与二进制音频帧，完成功能包括音频流上传、TTS 音频播放、语音识别与状态管理、MCP 指令下发等。其核心特征：
+
+- **握手阶段**：发送 `"type":"hello"`，等待服务器返回。  
+- **音频通道**：采用 Opus 编码的二进制帧双向传输语音流，支持多种协议版本。  
+- **JSON 消息**：使用 `"type"` 为核心字段标识不同业务逻辑，包括 TTS、STT、MCP、WakeWord、System、Custom 等。  
+- **扩展性**：可根据实际需求在 JSON 消息中添加字段，或在 headers 里进行额外鉴权。
+
+服务器与设备端需提前约定各类消息的字段含义、时序逻辑以及错误处理规则，方能保证通信顺畅。上述信息可作为基础文档，便于后续对接、开发或扩展。