Configuration Parsing Warning:Invalid JSON for config file config.json

3D-Speaker-MT.axera

meeting transcription demo on Axera

Python 示例
C++ 示例

Convert tools links:

For those who are interested in model conversion, you can try to export axmodel through the original repo :

How to Convert from ONNX to axmodel

支持平台

AX650N

功能

会议音频转录与总结

模型转换

参考模型转换

上板部署

AX650N 的设备已预装 Ubuntu22.04
以 root 权限登陆 AX650N 的板卡设备
链接互联网，确保 AX650N 的设备能正常执行 apt install, pip install 等指令
已验证设备：AX650N DEMO Board

流式会议纪要 Web Demo

总体功能：支持浏览器麦克风实时分段转录，会议结束后自动做说话人聚类 + ASR，并调用 OpenAI 兼容接口生成会议纪要。

环境配置

cd 3D-Speaker-MT.axera

pip3 install -r requirements.txt

pip3 install ./dist/ax_meeting-0.1.1-py3-none-any.whl

HTTPS（推荐本地生成自签证书，便于浏览器麦克风权限）：

openssl req -x509 -newkey rsa:2048 -nodes \\
  -keyout key.pem -out cert.pem -days 365 \\
  -subj "/CN=<你的IP>"

实时及离线会议转录服务

# 使用本地生成的证书
SSL_CERT=cert.pem SSL_KEY=key.pem python -m ax_meeting.server

# 或者使用包内自签证书（默认打包在 ax_meeting/certs/）
SSL_CERT=ax_meeting/certs/cert.pem SSL_KEY=ax_meeting/certs/key.pem python -m ax_meeting.server

Local URL:  https://10.126.29.13:8000
AX_ASR_OUTPUT_TIMESTAMP=0
INFO:     Started server process [3930453]
INFO:     Waiting for application startup.
Preloading AX models...
[INFO] Using provider: AXCLRTExecutionProvider
[INFO] SOC Name: AX650N
[INFO] VNPU type: VNPUType.DISABLED
[INFO] Compiler version: 4.2 057581a9
[INFO] Using provider: AXCLRTExecutionProvider
[INFO] SOC Name: AX650N
[INFO] VNPU type: VNPUType.DISABLED
[INFO] Compiler version: 4.2 057581a9
[INFO] Using provider: AXCLRTExecutionProvider
[INFO] SOC Name: AX650N
[INFO] VNPU type: VNPUType.DISABLED
[INFO] Compiler version: 4.2 2cc4ac86
AX model preload complete.
INFO:     Application startup complete.
INFO:     Uvicorn running on https://0.0.0.0:8000 (Press CTRL+C to quit)

网页参数说明（说话人聚类）：

mer_cos 越小越容易分开说话人（更敏感，可能误分）
min_cluster_size 越小越容易分出更多说话人
AHC 更稳定但可能偏保守，spectral 更灵敏

会议转录+本地大模型纪要总结服务

默认已启动本地大模型服务端口8001，详细服务启动见：AXERA-TECH/Qwen3-1.7B

chmod +x start_meeting_server.sh
./start_meeting_server.sh

设备权限提示：

如果遇到 /dev/axcl_host 权限错误，请用有权限的账号或 sudo 运行

生成 wheel 包

./build_wheel.sh

生成结果在 dist/ 目录。

离线处理脚本

对单个会议音频文件执行说话人聚类 + ASR，并导出文本，可选会议总结（LLM 通过参数配置）：

python -m ax_meeting.vad_asr_cli --input wav/vad_example.wav --output_dir output_dir

说话人 + ASR（离线）：

python -m ax_meeting.diar_asr_cli \\
  --wav_file wav/vad_example.wav \\
  --output_dir output_dir

会议总结：

python -m ax_meeting.summarize_cli \\
  --input output_dir/vad_example.txt \\
  --openai_base_url http://127.0.0.1:8001/v1 \\
  --openai_model AXERA-TECH/Qwen3-1.7B \\
  --openai_api_key xxx

Python API（轻量）

from ax_meeting import VadAsrEngine, DiarAsrEngine, IncrementalSummarizer

# VAD + ASR（流式）
vad_asr = VadAsrEngine(stream=True)
vad_asr.feed(audio_chunk)  # numpy / bytes / path / list
segments = vad_asr.poll()   # 可能为空

# 说话人 + ASR（离线）
diar = DiarAsrEngine()
text = diar.transcribe("wav/vad_example.wav")

# 会议总结
summarizer = IncrementalSummarizer()
summary = summarizer.summarize_incrementally(text)

示例脚本：

examples/vad_asr_stream.py
examples/diar_asr_offline.py
examples/summarize_text.py

Latency

AX650N

model	latency(ms)
vad	`5.441`
cammplus	`2.907`
sensevoice	`25.482`

RTF: 约为0.2

eg:
Inference time for vad_example.wav: 10.92 seconds
  - VAD processing time: 2.20 seconds
  - Speaker embedding extraction time: 1.88 seconds
  - Speaker clustering time: 0.16 seconds
  - ASR processing time: 3.75 seconds
load model  + Inference time for vad_example.wav: 13.08 seconds
Audio duration: 70.47 seconds
RTF: 0.15

参考：