DevChen的博客

发表于2026-05-25|数据分析

房地产市场洞察与价值评估：从数据中挖掘价值摘要：房价受哪些因素影响？不同区域的房价差异有多大？翻新到底能不能提升房屋价值？本文基于 10,000 条真实房屋销售数据，运用 Python 数据分析技术，从数据清洗、描述性统计、相关性分析、多维度分组对比到可视化展示，完成一次完整的房地产数据分析实战，帮助你掌握从数据中提炼商业洞察的核心方法。一、引言在房地产市场中，无论是开发商制定定价策略、投资者评估回报率，还是购房者挑选高性价比房产，都离不开对市场的深入理解。然而，面对动辄上万条的销售记录，单凭人工经验很难看清全貌。数据分析正是解决这一问题的利器——它能帮助我们从海量数据中发现规律、量化差异、预测趋势。本文将围绕以下四个核心问题展开分析：房屋特征对房价的影响：卧室数、浴室数、居住面积等特征如何影响房价？区域差异：不同邮政编码区域的房价水平、房屋特征有何不同？时间因素：建造年份、翻新情况、房龄对房价有怎样的影响？市场趋势：房价随时间如何变化？二、数据集介绍本文使用的数据集为某地区的房屋销售记录，共包含约 10,000 条数据，每条记录涵盖房屋的详细信息： ...

08高性能生产部署——vLLM 部署本地大模型（PagedAttention 原理 + 实操）

发表于2026-05-24|大模型部署

第8篇：高性能生产部署——vLLM 部署本地大模型（PagedAttention 原理 + 实操）本文为「本地大模型部署系列」第8篇，完整系列持续更新中。前言本篇是整个系列技术含量最高的一篇，也是最贴近真实生产场景的一篇。读完你不仅能跑起 vLLM，还能在面试中清晰讲出 PagedAttention——这是很多工程师的知识盲区。在前几篇里，我们用 Ollama 实现了「一键拉起模型」，用 llama.cpp 实现了「低配机器也能跑」，用 FastChat 实现了「多模型统一 API 入口」。但如果你面对的是这样的场景：生产环境同时有 50+ 并发用户请求模型公司要求接口 P95 延迟 < 2 秒服务器是 A100/H100，不能让昂贵的 GPU 闲着需要对外提供 OpenAI 兼容的企业级 API 服务那前面的工具都不够用了——你需要 vLLM。 vLLM 是目前工业界公认的高吞吐 LLM 推理引擎首选，由 UC Berkeley Sky Lab 开源。它解决的核心问题是：如何让一块 GPU 同时服务尽可能多的请求，同时保持低延迟。...

07大模型量化原理与实操：INT4/INT8/GPTQ/AWQ 选型指南

发表于2026-05-24|大模型部署

大模型量化原理与实操：INT4/INT8/GPTQ/AWQ 选型指南系列：本地大模型部署系列 · 第7篇（共12篇） | 阶段三：工程优化 & 性能提速适用读者：想在有限显存下跑更大模型的工程师；想知道该选 GPTQ 还是 AWQ 的开发者；想理解量化为什么不会”让模型变傻”的人；需要手动量化模型并调优参数的实践者。一、前言：这篇解决什么问题？本篇是系列进入”工程优化”阶段的第一篇，从部署实战转向性能优化。先明确要解决什么问题、能收获什么，再逐步深入原理和实操。前几篇我们分别用 Ollama、llama.cpp、TextGen、FastChat 完成了部署实战——但一个绕不开的现实是：不是每个人都有 24GB 显存去跑 FP16 模型。7B 模型 FP16 就要 ~14GB 显存，13B 需要 ~26GB，70B 更是 ~140GB——绝大多数人的显卡放不下。量化就是解决这个问题的核心技术：用更少的 bit 存储权重，把模型从”放不下”变成”放得下”，同时尽量保持模型能力不下降。但量化方案五花八门——bitsandbyte...

06分布式&对话服务部署——FastChat 部署 OpenAI 兼容接口

发表于2026-05-24|大模型部署

第6篇：分布式&对话服务部署——FastChat 部署 OpenAI 兼容接口本文为「本地大模型部署系列」第6篇，完整系列持续更新中。前言如果你已经用 Ollama 跑通了单模型本地服务，或者用 llama.cpp 实现了轻量推理，那么必然会遇到下一个工程挑战：同时管理多个模型、对接已有 OpenAI 格式的项目、给团队提供统一 API 入口。这篇文章解决的正是这三个问题。 FastChat 是由 UC Berkeley LMSys 团队开源的多模型服务框架，它的核心能力是：把多个本地模型统一包装成 OpenAI 兼容接口（/v1/chat/completions、/v1/models）三组件架构支持横向扩展，一个 Controller 调度多个 Model Worker 任何使用 openai Python 库的项目，只改一行 base_url 即可切换到本地模型适用场景：团队共用模型服务、多模型 A/B 测试、将个人项目从 OpenAI API 迁移到本地、构建私有化 LLM 中间层。本篇学完你将掌握： FastChat 三组件架构原...

05可视化一站式部署：Text Generation WebUI 完整搭建与使用

发表于2026-05-24|大模型部署

可视化一站式部署：TextGen（原 Text Generation WebUI）完整搭建与使用系列定位：本地大模型部署系列 · 第5篇 | 阶段二：主流部署方案实战适用读者：想通过可视化界面调试大模型参数的工程师；需要快速对比不同模型效果的从业者；想用最少代码搭建本地 AI 对话服务的人。一、前言：这篇解决什么问题？前两篇我们分别用 Ollama 实现了一键部署，用 llama.cpp 实现了极致轻量——但两者都缺少一个关键能力：可视化。调参数只能改命令行或配置文件，对比不同模型效果需要来回切换，对话调试没有直观的界面。 TextGen（原 Text Generation WebUI，社区常称 oobabooga）就是为此而生——它给本地大模型套上了一层 Gradio 可视化界面，让你像用 ChatGPT 一样调参、对话、对比，所有操作点点鼠标就能完成。本篇解决的核心问题：从零搭建 TextGen，实现模型可视化加载、参数实时调节、对话调试、批量生成对比、API 服务开启的全流程闭环。读完本篇你将获得：交付物说明完整安装流程一键脚本 + 手动安...

04轻量化极致部署：llama.cpp 从零编译部署（低配置机器福音）

发表于2026-05-24|大模型部署

轻量化极致部署：llama.cpp 从零编译部署（低配置机器福音）系列定位：本地大模型部署系列 · 第4篇 | 阶段二：主流部署方案实战适用读者：想在低配机器/无独显环境流畅运行大模型的工程师；想彻底掌控推理底层的开发者；想深入理解量化原理而不只是用 Ollama 一键拉起的人。一、前言：这篇解决什么问题？上一篇我们用 Ollama 实现了一键部署，极度丝滑——但”丝滑”背后封装了太多细节。当你遇到以下场景时，Ollama 就不够用了：低配机器/无独显：CPU 推理，需要极致压榨性能模型自主量化：把 HuggingFace 上的 FP16 模型自己量化成 INT4 嵌入式/边缘设备：树莓派、ARM 服务器、无 Python 环境的机器深度参数控制：精细调节 batch size、KV cache、线程数、GPU offload 层数学习推理底层：理解量化 kernel 到底做了什么这篇文章的核心交付物：交付物说明完整编译流程 Windows + Linux，CPU / GPU 两版量化转换实操...

03极简快速部署：Ollama 本地大模型一键部署与全场景调用

发表于2026-01-28|大模型部署

极简快速部署：Ollama 本地大模型一键部署与全场景调用系列：本地大模型部署系列 · 第3篇（共12篇）面向：AI应用工程师、后端开发、大模型落地从业者关键词：Ollama / Modelfile / HTTP API / Python SDK / GGUF / 一键部署一、前言本篇解决什么问题你是否经历过这样的场景——想快速跑起一个本地大模型验证想法，结果被环境配置、模型下载、依赖冲突折腾了半天还没跑通？Ollama 就是为此而生的：一条命令拉模型，一条命令开始对话，一条命令起API服务。本篇解决的核心问题：从零到一，用最短路径在本地跑通大模型，并通过命令行、HTTP API、Python SDK 三种方式完成全场景调用。适用场景首次接触本地大模型，想用最快方式跑通第一个模型需要本地大模型提供 API 服务，对接自己的应用快速原型验证、个人 AI 助手搭建、学习测试已有 GPU 但不想折腾复杂的环境配置读完本篇你将获得 Ollama 的架构认知与”一键部署”原理三大平台（Windows / ...

02环境零基础搭建：本地大模型部署统一运行环境

发表于2026-01-27|大模型部署

环境零基础搭建：本地大模型部署统一运行环境1. 前言如果你踩过这些坑——装了PyTorch却torch.cuda.is_available()返回False、CUDA版本和驱动不匹配导致报错、conda环境全局污染导致项目间依赖打架、模型下载到一半断连重来——那这篇就是为你写的。本篇解决的核心问题：一次性搭建一个干净、可控、可复现的本地大模型运行环境，让后续所有部署操作（Ollama、llama.cpp、vLLM等）都能顺畅跑起来，不再被环境问题卡住。适用场景：首次在本地搭建大模型运行环境多项目并行需要环境隔离 CUDA/cuDNN/PyTorch版本匹配搞不定国内网络下模型下载困难学习收获：掌握conda环境隔离的工程实践理解CUDA→cuDNN→PyTorch的版本依赖链，不再盲目安装拿到一套完整的双平台安装命令清单获得一个一键环境校验脚本掌握多种模型下载方式，含国内镜像加速方案 2. 核心原理极简讲解2.1 为什么环境配置是大模型部署的第一道坎传统Web开发的环境问题，最坏情况是”跑不起来”。大模型部署的环境问题更致命——...

01开篇综述：本地大模型部署全链路认知

发表于2026-01-25|大模型部署

开篇综述：本地大模型部署全链路认知系列：本地大模型部署系列 · 第1篇（共12篇）面向：AI应用工程师、后端开发、大模型落地从业者关键词：GGUF / GPTQ / AWQ / Ollama / vLLM / llama.cpp / 量化 / 私有化部署一、前言本篇解决什么问题很多工程师第一次接触本地大模型部署，脑子里会同时涌现出一堆问题： Ollama 和 vLLM 有什么区别，我应该用哪个？ GGUF 是什么格式？和 GPTQ、AWQ 怎么选？我只有一张 8GB 显卡，能跑 13B 的模型吗？量化到 INT4 会不会”变傻”？这些问题没有全局认知框架时，很难系统性地回答。本篇的目标是帮你建立完整的本地大模型部署认知地图——不追求面面俱到，但每个关键决策点都讲清楚工程逻辑。适用场景首次接触本地大模型部署，需要建立全局认知已有碎片化经验，想系统梳理技术选型逻辑准备面试，需要快速掌握模型格式、部署框架等高频考点读完本篇你将获得清晰的本地部署价值认知（为什么要本地部署，什么场景必须本...

RAG选型纠结：从零自建VS第三方搭建

发表于2025-05-23|RAG

RAG选型终极纠结：从零自建VS第三方搭建，看完不再盲目踩坑如今AI落地企业业务、搭建私有知识库、实现智能问答，**RAG（检索增强生成）**已经成为绝对的主流方案，几乎替代了传统的微调落地方式。但绝大多数开发者、中小企业技术负责人、独立开发者，在落地RAG项目时，都会遇到同一个终极难题：到底是自己从零搭建一套RAG系统，还是直接用第三方SaaS、开源平台快速搭建？有人说自建可控性拉满，有人说第三方省时省力、性价比更高。两种方案没有绝对的对错，只有适配场景的差异。很多项目烂尾、成本超支、上线后效果拉胯，本质都是选型错配。今天这篇博客，我从成本、安全、定制性、运维、落地速度、长期迭代六个核心维度，彻底拆解两种方案的优劣势，附上精准选型标准和行业最优折中方案，帮你一次性解决RAG选型难题。一、先理清：两种RAG方案的核心定义1. 自建RAG（自主搭建）指团队基于开源框架（LangChain、LlamaIndex、RAGFlow等），从零或半从零开发、部署、运维完整RAG链路。涵盖文档解析、切片、向量化、向量库部署、检索排序、上下文拼接、前端交互、权限管理、日志审计等全流程...