词云生成完整指南:分词算法 / 美学设计 / 应用场景 词云用字号和颜色可视化高频词汇,常见于年度盘点、舆情分析、用户画像。本文讲清楚分词、停用词过滤、词频映射、配色与应用。
✍️ XTechTools 编辑团队 · 📅 发布 2026-04-29 · 🔄 更新 2026-06-20 · ⏱ 约 8 分钟阅读 ·→ 立即使用 词云生成 词云(Word Cloud)是一种数据可视化方式,用字号大小和颜色深浅表示词汇频率和重要性。从微信公众号年度运营盘点、电商用户评价分析,到舆情监测、学术论文关键词提取,再到社交媒体话题热度,词云快速浮现数据的核心价值。但生成高质量词云并不简单——中英文分词完全不同,停用词必须过滤,字号映射可用线性或对数,配色更是心理学运用。本指南从算法原理讲到美学设计。
本文目录 1. 分词:英文 vs 中文的巨大差异2. 停用词过滤的重要性3. 词频计算与字号映射4. 形状与布局设计5. 配色与心理学6. 典型应用场景与案例7. 词云 vs 标签云的区别 8. 常见问题 分词:英文 vs 中文的巨大差异 英文分词(简单):按空格和标点切割。
"Hello world from Python" → ["Hello", "world", "from", "Python"]
浏览器原生 JavaScript 直接 .split(/\s+/) 即可。
中文分词(复杂):汉字间没有空格,无法用分隔符切割。必须用算法理解词义。
"我喜欢学习自然语言处理技术" → ["我", "喜欢", "学习", "自然", "语言", "处理", "技术"] 或 ["我", "喜欢", "学习", "自然语言处理", "技术"]
都有可能,取决于分词库和算法。
常见中文分词库:
- jieba(Python):前向最大匹配 + 隐马尔可夫模型,准确率 85-90%
- Python-Chinese-Segmentation:分词准确但速度较慢
- nodejieba(Node.js):jieba 的 JS 版本
- 大模型(ChatGPT):准确率最高但成本高
本站工具内置中文分词库,用户无需关心实现细节。
停用词过滤的重要性 分词后会出现大量"无意义的词",必须过滤掉:
中文停用词(常见 100+ 个):
的、是、了、和、在、有、人、这、中、大、来、以、对、生、要、我、他、不、为、起、到、一、被、...
英文停用词:
the、a、an、and、or、but、in、on、at、to、be、is、are、...
例子:
``
原始文本:"中国是一个伟大的国家,我们的人民热爱和平。"
分词后:["中国", "是", "一个", "伟大", "的", "国家", "我们", "的", "人民", "热爱", "和平"]
过滤停用词:["中国", "伟大", "国家", "人民", "热爱", "和平"]
``
去掉 "是" "的" "我们" 这类虚词后,词云显示的信息密度立刻提高。
自定义停用词:本工具允许在生成前补充或删除停用词,比如项目特定的常见词(公司名、产品名)。
词频计算与字号映射 词频统计(计数):
``
单词词频 = 该单词在全文出现的次数
``
假设分词后得到:
``
"AI" 出现 150 次
"机器学习" 出现 80 次
"深度学习" 出现 45 次
"算法" 出现 20 次
``
字号映射(关键一步):频率最高的词显示最大,最低的词显示最小。但用哪个函数映射?
线性映射:
``
font_size = min_size + (frequency - min_freq) / (max_freq - min_freq) * (max_size - min_size)
``
字号与词频成正比。缺点:高频词太大,低频词太小,对比过于极端。
对数映射(推荐):
``
font_size = min_size + log(frequency + 1) / log(max_freq + 1) * (max_size - min_size)
``
高频词增长放缓,低频词相对显眼,视觉分布更均衡。
平方根映射:
``
font_size = min_size + sqrt(frequency) / sqrt(max_freq) * (max_size - min_size)
``
折中方案,常见。
经验参数:min_size = 12px,max_size = 80px(根据词云大小调整)。
形状与布局设计 词云形状影响视觉感受:
矩形(默认):
- 最高效利用空间
- 阅读顺序清晰(从左到右、从上到下)
- 适合信息密集场景
圆形:
- 和谐、整体感强
- 常见于品牌/企业应用
- 空间利用率 70%
心形:
- 情感化、温暖
- 常见于情人节、公益活动
- 难排版,空间利用率 60%
自定义形状:上传 SVG 或 PNG 轮廓,词云填充形状内部(高级功能)。
布局算法:
- 螺旋(高效):从中心向外螺旋排列,快速、紧凑
- 随机(散乱):无序排放,有机、不规则
- 竖排(中文友好):竖排中文看起来更自然
本工具默认螺旋布局,水平排列,适合快速生成。
配色与心理学 颜色不仅是装饰,还传达信息:
暖色调(红、橙、黄、粉):
- 传达:热情、积极、活力
- 适合:品牌推广、营销文案、互动分析
- 例:电商平台的用户评价词云
冷色调(蓝、青、紫、绿):
- 传达:理性、专业、深度
- 适合:学术论文、技术分析、舆情监测
- 例:AI 论文关键词、代码库分析
单色渐变(同一色系深浅):
- 传达:专业、统一
- 适合:企业正式报告
彩虹(多彩):
- 传达:创意、多样
- 适合:儿童内容、创意产业
- 风险:容易显得混乱
与品牌色一致(企业应用)用 3-5 个主色 + 渐变变体,避免超过 7 色(色数过多显脏)高频词用高对比色,低频词用背景色接近的浅色测试色盲友好度(5% 男性有色盲) 典型应用场景与案例 1. 微信公众号年度数据分析:
统计全年文章标题和正文中的高频词。暖色调词云,突出品牌传播的核心概念。
2. 电商评价分析:
用户评论分词后生成词云。"快递" "质量" "推荐" 大,"垃圾" "破损" 也大 → 表示有问题值得关注。
3. 舆情监测:
爬取新闻、微博、论坛评论,分词后监测高频词变化趋势。蓝色冷调显得专业。
4. 简历/论文关键词提取:
PDF 转文本 → 分词 → 词频统计 → 生成词云。一眼看出求职者的核心技能或论文的主题。
5. 用户画像画像:
分析 500 条用户问卷回答,生成描述词云。"80 后" "北京" "白领" "爱好旅游" 高频 → 核心用户画像浮现。
6. 品牌认知调研:
问用户 "你对 iPhone 的第一印象?" 收集 1000+ 回答,词云显示 "创新" "简洁" "昂贵" 频率。
词云 vs 标签云的区别 两者容易混淆但完全不同:
词云(Word Cloud):
- 根据词频改变字号
- 适合展示大量数据中的热点
- 需要数据计算、算法支撑
- 适合分析型应用
标签云(Tag Cloud):
- 等大的标签,按名称字母排序
- 只有分类、导航功能
- 无需计算词频
- 适合网站导航(如博客标签页)
这里讲的是词云。本站工具不支持标签云。
常见问题 中文词云会包含繁体字吗? 取决于分词库。jieba 默认简体,但支持加载繁体词库。本工具默认简体中文。
能去掉某个我不想看的词吗? 可以。在生成前的「自定义停用词」输入框里加上这个词,或修改预设停用词表。
词云可以导出吗? 可以。本工具支持导出 PNG(光栅图)和 SVG(矢量),SVG 可在 Figma/Illustrator 继续编辑。
为什么同一份数据生成的词云每次不一样? 布局算法(特别是螺旋)加入了随机成分,多次生成的词位置会不同。词频和字号不变。如需完全复现,固定随机种子。
能生成 3D 词云吗? 本工具不支持 3D。3D 词云需要 Three.js 等 3D 引擎,交互体验未必更好,反而加载慢。
立即使用 词云生成 中英文词云生成工具,粘贴文本即生成词频词云,支持自定义颜色、字体大小范围、形状(圆/方),导出 PNG。
打开工具 →