AirLLM:低配硬件运行超大参数量LLM的推理优化框架 AirLLM是一款开源大语言模型推理优化框架,无需量化、蒸馏、剪枝即可让单4GB显存GPU运行70B模型、8GB显存运行Llama3.1 405B模型,支持CPU/MacOS多环境,兼容Llama、ChatGLM... 3小时前 AI新闻 65