ChenfengDX
ChenfengDX
发布于 2026-01-09 / 7 阅读
0
0

VideoLingo的Conda环境pip包全览

下面这份列表其实是你当前 Python 环境里「已经装好的 239 个包」的 pip freeze 快照。
为了让你一眼就能判断“它是干什么的、我有没有装错/装重”,我把它们按「功能领域 → 小类 → 典型用途」做了分组,并给出 1 句话「人话版」说明。遇到生僻包也附了官方一句话描述。读完你就能快速定位:

  • 哪些属于「深度学习/音频/视频/NLP」核心依赖;
  • 哪些只是「编译-构建-工具链」可以安全卸载;
  • 哪些已经重复(例如 pytorch-lightning 和 lightning 二选一即可)。

一、深度学习框架 & 硬件加速

torch 2.0.0+cu118 ‑ PyTorch 主库(CUDA 11.8 预编译版)
torchaudio 2.0.0+cu118 ‑ PyTorch 音频扩展,与 torch 版本严格对应
torchvision(列表里没出现,但通常应配套)
pytorch-lightning 2.3.3 ‑ 对 torch 的训练循环再封装,省去样板代码
lightning 2.3.3 ‑ 与上一行同一个项目,只是新品牌名,二选一即可
lightning-utilities ‑ lightning 内部公共工具
torchmetrics 1.8.2 ‑ 可复用指标(Accuracy, mAP…)脱离框架独立使用
torch-audiomentations ‑ 音频数据增强库,基于 torch tensor
torch_pitch_shift ‑ 纯 torch 实现的音高偏移
tensorboardX ‑ 早期 TensorBoard 写入器,现已可用 torch.utils.tensorboard 替代


二、Transformer / 大模型生态

transformers 4.39.3 ‑ Hugging Face 核心库,提供 Bert/GPT/Whisper 等现成权重
tokenizers 0.15.2 ‑ Rust 写的超快 BPE/SentencePiece 分词器
huggingface-hub 0.36.0 ‑ 下载/上传模型、数据集、Space 的统一入口
safetensors 0.7.0 ‑ HF 新推出的安全、零拷贝权重格式
openai 1.55.3 ‑ OpenAI 官方 Python SDK(GPT/Whisper/DALL·E)
replicate 0.33.0 ‑ 一键调用 Replicate 云端模型(Stable Diffusion 等)
llvmlite 0.46.0 ‑ Numba 的 LLVM 绑定,加速数值计算
triton 2.0.0 ‑ OpenAI 开源 GPU 编译器,写自定义算子


三、语音/音乐/音频处理

librosa 0.10.2.post1 ‑ 音频特征提取(MFCC、chroma、beat 跟踪)黄金标准
soundfile 0.13.1 ‑ 基于 libsndfile 的 wav/flac/ogg 读写
audioread 3.1.0 ‑ 后备解码器,mp3 等格式兜底
lameenc 1.8.1 ‑ LAME MP3 编码器 Python 接口
soxr 1.0.0 ‑ 高质量重采样(libsox 的继任者)
resampy 0.4.3 ‑ 另一种基于 FFT 的重采样,老代码里常见
julius 0.2.7 ‑ 日语语音识别前处理:高速 FFT / 滤波器
pyannote.audio 3.1.1 ‑ 说话人分离、语音活动检测(VAD)SOTA 工具箱
pyannote.core/metrics/… ‑ pyannote 的配套数据结构、评价指标
asteroid-filterbanks 0.4.0 ‑ 滤波器组,用于语音分离/增强
torch-audiomentations ‑ 上面已列,数据增强
demucs 4.1.0a3 ‑ Facebook 开源「人声/伴奏分离」模型
openunmix 1.3.0 ‑ 另一套源分离模型,基于 torch
musdb 0.4.3 / museval 0.4.1- 标准数据集 & 评价脚本(源分离比赛用)
stempeg 0.2.6 ‑ 把 4-stem 音频封装进单个 mpeg 的格式
whisperx 3.2.0 ‑ 在 OpenAI Whisper 基础上加「强制对齐 + VAD」更快更准
faster-whisper 1.0.0 ‑ CTranslate2 重构的 Whisper,速度 ×4
edge-tts 7.2.7 ‑ 微软 Edge 浏览器在线语音合成接口
speechbrain 1.0.3 ‑ 语音领域「一站式」框架,ASR、TTS、说话人识别全都有


四、视频 & 剪辑

moviepy 1.0.3 ‑ 纯 Python 视频剪辑:裁切、拼接、加字幕
imageio[ffmpeg] 2.37.2 ‑ 统一接口读/写视频、GIF、医学图像
imageio-ffmpeg 0.6.0 ‑ imageio 的 ffmpeg 后端
opencv-python 4.10.0.84 ‑ 计算机视觉万能瑞士军刀
VideoLingo 3.0.0 ‑ 你本地路径安装的包,应该是「自动翻译+字幕+配音」整合工作流
yt-dlp 2025.12.8 ‑ youtube-dl 分支,下载 1000+ 站点视频


五、NLP / 文本 & 语言工具

spacy 3.7.4 ‑ 工业级 NLP 流水线:分词、依存、命名实体
spacy-legacy/loggers… ‑ spacy 配套
nltk 3.9.2 ‑ 教学/科研经典,含 100+ 语料库
g2p-en 2.1.0 ‑ 英文 Grapheme-to-Phoneme,TTS 前端必备
pypinyin 0.55.0 ‑ 中文转拼音,带多音字
syllables 1.1.4 ‑ 统计英文单词音节数
autocorrect-py 2.14.0 ‑ 英文拼写纠错
Distance 0.1.3 ‑ 编辑距离/Levenshtein 快速实现


六、数据科学 & 可视化

numpy 1.26.4 ‑ 数组之王
pandas 2.2.3 ‑ 表格之王
scipy 1.15.3 ‑ 科学计算(矩阵、优化、信号)
scikit-learn 1.7.2 ‑ 传统机器学习(随机森林/SVM/聚类)
matplotlib 3.10.8 ‑ 2D 绘图基准
seaborn(列表里没出现,但常和 matplotlib 一起用)
altair 5.5.0 ‑ 声明式统计可视化(Vega-Lite 语法)
pydeck 0.9.1 ‑ 基于 deck.gl 的 3D 地理可视化
streamlit 1.38.0 ‑ 把 Python 脚本秒变交互式 Web 应用
pillow 10.4.0 ‑ 图像 IO 与基础处理
imageio 已列
openpyxl 3.1.5 ‑ 读写 Excel 2007+ xlsx/xlsm
et_xmlfile 2.0.0 ‑ openpyxl 的依赖


七、优化 / 实验管理

optuna 4.6.0 ‑ 贝叶斯超参搜索
hydra-core 1.3.2 ‑ Facebook 的配置管理 + 多实验启动
hydra-colorlog 1.2.0 ‑ hydra 的彩色日志插件
omegaconf 2.3.0 ‑ hydra 的底层配置解析(YAML 嵌套/变量替换)
dora_search 0.1.12 ‑ 实验网格搜索小工具
submitit 1.5.4 ‑ SLURM 集群任务提交封装


八、语音/文本 混合字段:度量 & IO

jsonschema 4.25.1 / referencing / rpds-py / jsonschema-specifications
‑ JSON-Schema 校验链,streamlit/hydra 会间接用到
simplejson 3.20.2 ‑ 比标准 json 更快的备用实现
toml 0.10.2 / tomli 2.3.0 ‑ TOML 配置解析(Python<3.11 需要 tomli)
pyyaml 6.0.2 ‑ YAML 读写
ruamel.yaml 0.18.17 ‑ 带注释保真的 YAML 库(比 pyyaml 功能更强)
xmltodict 1.0.2 ‑ XML ↔ dict 一键转换


九、系统/工具链 & 编译依赖

cmake 3.25.0 ‑ 编译 C/C++/CUDA 扩展必备
lit 15.0.7 ‑ LLVM 测试框架(torch 的 cpp_extension 会调用)
Cython 3.2.4 ‑ 把 .pyx 编译成 .so 的桥梁
setuptools/wheel/pip ‑ 打包安装三件套
cffi 2.0.0 / pycparser 2.23 ‑ C 扩展 Foreign Function Interface
blis 0.7.11 ‑ 高速 BLAS 库,spacy 用它加速
murmurhash 1.0.15 ‑ 快速哈希,spacy 内部用
cymem 2.0.13 / preshed 3.0.12 ‑ Cython 内存池 & 哈希集,spacy 依赖
catalogue 2.0.10 ‑ 小型插件注册表,spacy 生态用
confection 0.1.5 ‑ spacy 的配置系统底层库
weasel 0.3.4 ‑ spacy CLI 脚手架
srsly 2.5.2 ‑ 超轻量 json/msgpack 序列化,spacy 用
pathy 0.6.0 / cloudpathlib 0.16.0 ‑ 把「云存储路径」当本地文件读写
smart-open 6.4.0 ‑ 透明打开 s3/gcs/http 文件
filelock 3.20.0 ‑ 跨进程文件锁,防止多进程同时写权重
platformdirs 4.5.1 ‑ 找到各系统「缓存/配置」目录
typing_extensions 4.15.0 / typing-inspection ‑ 新版 typing 的向后移植
importlib-metadata 6.11.0 / zipp / importlib_resources ‑ 旧 Python 资源查找回退


十、网络 / 异步 / 下载

aiohttp 3.13.3 ‑ 异步 HTTP 客户端/服务器
aiohappyeyeballs 2.6.1 ‑ RFC 8305「Happy Eyeballs」异步双栈连接
aiosignal 1.4.0 ‑ aiohttp 的异步信号库
async-timeout 5.0.1 ‑ 给 asyncio 加超时
anyio 4.12.1 ‑ 统一 asyncio/trio 抽象,httpx 依赖
httpx 0.28.1 / httpcore 1.0.9 / h11 0.16.0 ‑ 新一代「同步+异步」HTTP 客户端
requests 2.32.3 ‑ 经典同步 HTTP
urllib3 2.6.2 ‑ requests 的底层
certifi 2026.1.4 ‑ 根证书捆绑包
charset-normalizer 3.4.4 ‑ 编码嗅探,requests 用
idna 3.11 ‑ 国际化域名解析
yarl 1.22.0 / multidict 6.7.0 ‑ URL 与大小写不敏感字典,aiohttp 用
frozenlist 1.8.0 / propcache 0.4.1 ‑ 高速只读列表/属性缓存,aiohttp 性能优化
fsspec 2025.12.0 ‑ 统一文件系统接口(本地、s3、hdfs、http)
pooch 1.8.2 ‑ 自动下载+缓存数据集(scikit-image 等用)


十一、集群 / 监控 / 日志

nvidia-ml-py 13.590.44 / pynvml 13.0.1 ‑ 调用 nvidia-smi 拿 GPU 温度/显存
tenacity 8.5.0 ‑ 失败重试装饰器
retrying 1.4.4 ‑ 旧版重试,和 tenacity 功能重复,可删
coloredlogs 15.0.1 / colorlog 6.10.1 ‑ 彩色日志
rich 13.9.4 ‑ 终端富文本 + 进度条
tqdm 4.67.1 ‑ 进度条
submitit 已列


十二、其他「小工具/被依赖」

attrs 25.4.0 ‑ 少写样板代码的类装饰器
click 8.3.1 / typer 0.9.4 ‑ 命令行接口生成
python-dateutil 2.9.0.post0 - 解析「明天/3 weeks ago」等人类友好日期
pytz 2025.2 / tzdata 2025.3 ‑ 时区数据库
semver 3.0.4 ‑ 语义版本号比较
tabulate 0.9.0 ‑ 把表格打印成好看的 ASCII
joblib 1.5.3 ‑ 并行/缓存,scikit-learn 用它
numba 0.63.1 ‑ LLVM JIT 把 Python 加速到 C 速度
networkx 3.4.2 ‑ 图算法
sympy 1.14.0 ‑ 符号数学
more-itertools 10.8.0 ‑ itertools 扩展
flaky ‑ 没出现,但测试时重试随机失败用


十三、可以安全删除的「重复/老旧」项

  1. pytorch-lightning + lightning 保留一个即可(推荐保留 lightning)。
  2. retrying → 功能被 tenacity 完全覆盖。
  3. tomli → Python≥3.11 已内置 tomllib。
  4. simplejson → 除非需要它独有的 decimal 支持,否则标准库 json 足够。
  5. cmake/lit/Cython → 如果不再自己编译 CUDA 扩展,可卸(但重装 torch 扩展时会再自动装)。

十四、快速核查「版本冲突」Tips

  • torch 2.0.0+cu118 要求 cuda 11.8 驱动 ≥ 520.xx;
  • transformers 4.39.3 与 tokenizers 0.15.2 已匹配;
  • spacy 3.7.4 需要 numpy<2, 你装的是 1.26.4 → OK;
  • hydra-core 1.3.2 需要 omegaconf<2.4,你装 2.3.0 → OK;
  • streamlit 1.38.0 要求 click<9,≥7.0,你 8.3.1 → OK。

一句话总结

这是一条「音频+视频+大模型」全家桶环境:

  • torch 生态负责深度学习;
  • librosa/whisperx/demucs 负责音频理解、分离、转录;
  • moviepy + streamlit 负责可视化与交付;
  • hydra/optuna 负责实验管理;
  • spacy/nltk 负责文本前端;
    其余 90% 都是「被依赖」或「编译工具链」,只要版本没报红,就可以安心留着。

评论