你每天都在和格式打交道
手机拍了一张照片,后缀是 .heic。想发到网站上,得转成 .jpg。下载了一部电影,文件名是 .mkv,播放器却打不开。网易云音乐缓存了一首歌,格式是 .ncm,别的软件根本认不了。
这些后缀名——也就是格式——看起来像一堆随机字母,但它们各自代表着完全不同的存储策略。理解它们,不是什么高深的计算机知识,而是一种实用技能:知道什么时候该用什么格式,能帮你省空间、提速度、保质量。
这篇文章会从最基本的概念出发,把图片、视频、音频的常见格式一次性讲清楚。
先搞懂一个核心问题:压缩
所有格式的本质区别,其实就一句话:怎么把数据变小。
一张未经压缩的照片,一个像素要占 3 个字节(红绿蓝各一个字节)。你手机拍的 1200 万像素照片,原始大小大约是 36 MB。但实际存储在手机里只有 3-5 MB。这就是压缩的功劳。
压缩分两种:
无损压缩——像把衣服整齐叠好塞进箱子,打开箱子后衣服还是原来的样子。PNG、FLAC、ALAC 就是这种方式。文件比原始数据小,但解压后和原始数据一模一样。
有损压缩——像搬家时扔掉一些你不太用的东西。JPEG、MP3、H.264 都是这种方式。它们会丢弃人眼/人耳不太敏感的信息,换来更小的体积。丢掉的东西再也找不回来了,但如果你"扔"得恰到好处,人几乎感觉不到。
理解了"压缩"这个核心,后面所有的格式就都好懂了。
第一部分:图像格式
JPEG——照片的万能选手
全称:Joint Photographic Experts Group(联合图像专家小组)
压缩方式:有损
JPEG 是世界上最常用的图像格式,没有之一。你在网上看到的绝大多数照片都是 JPEG。它的核心算法叫离散余弦变换(DCT),原理是把图像分成 8×8 的小方块,然后用数学方法丢弃人眼不太敏感的高频细节。
优点很明显:兼容性 100%,任何设备都能打开;压缩率高,一张照片通常只需原始大小的 1/10 到 1/20。缺点也很明显:不支持透明度;反复编辑保存会越来越糊(就像复印件的复印件);文字和锐利边缘附近会出现明显的"方块感"。
什么时候用:照片、色彩丰富的图片。不用透明度的场景。
什么时候别用:Logo、文字截图、需要透明背景的图片。
PNG——无损透明的王者
全称:Portable Network Graphics(便携式网络图形)
压缩方式:无损
PNG 的诞生有一个故事:GIF 格式使用的 LZW 压缩算法有专利限制,开发者需要交授权费。于是社区在 1995 年创造了 PNG,使用无专利的 DEFLATE 算法,完全免费开放。
PNG 最大的两个优势:无损和透明。它不会丢失任何像素细节,还支持 Alpha 透明通道——可以做出半透明的效果,而不像 GIF 那样只有"透明"或"不透明"。
不过 PNG 存照片非常浪费空间。一张手机照片存成 PNG 可能 10-20 MB,存成 JPEG 只要 3-5 MB,但你根本看不出区别。
什么时候用:Logo、图标、截图、需要透明背景的图片、文字为主的图片。
什么时候别用:照片。
GIF——不死的老兵
全称:Graphics Interchange Format(图形交换格式)
压缩方式:无损(但只支持 256 种颜色)
GIF 诞生于 1987 年,是互联网最早的图像格式之一。它有两个致命限制:最多只能用 256 种颜色(照片通常有几百万种),不支持半透明。
但它有一个杀手级功能:动画。在社交媒体时代,GIF 动图成为了表达情绪的"通用语言"。
2024 年的数据显示,GIF 仍占网页图片的 16.8%。但技术上说,它在大多数场景下已经过时了——动画用 WebP 可以小 70-80%,静态图片用 PNG 更好。
什么时候用:简单动画、表情包(兼容性要求极高的场景)。
什么时候别用:照片、需要高质量或透明度的场景。
WebP——Google 的全能选手
全称:Web Picture(网页图片)
压缩方式:有损 + 无损
Google 在 2010 年推出了 WebP,目标很明确:用一个格式同时替代 JPEG 和 PNG。
它做到了。WebP 的有损模式比 JPEG 小 25-35%,无损模式比 PNG 小约 26%。它还支持透明度和动画。截止 2026 年,全球浏览器支持率约 97%。
一个格式搞定所有事,听起来很美。但 WebP 也有小缺点:最大分辨率限制在 16383×16383 像素(对绝大多数人够用,但全景照片可能超限);Safari 对 WebP 的渐进渲染支持不好。
什么时候用:网页图片的默认选择。照片、图标、动画它都能胜任。
AVIF——体积最小的后来者
全称:AV1 Image File Format
压缩方式:有损 + 无损
AVIF 是目前压缩率最高的图像格式。同样的画质,它比 JPEG 小约 50%,比 WebP 还要小 20-30%。它由 Netflix、Google、Apple、Mozilla 等公司组成的开放媒体联盟共同设计,完全免费、无专利。
它还支持 HDR(高动态范围)和广色域,这在其他格式中很少见。
但 AVIF 有两个明显的短板:编码速度极慢(可能比 JPEG 慢 30 倍以上),不支持渐进渲染(必须等整个文件下载完才能显示)。
什么时候用:对带宽和存储极度敏感的场景、高质量照片展示、配合 CDN 使用。
HEIC——iPhone 的默认选择
全称:High Efficiency Image Container(高效图像容器)
压缩方式:有损 + 无损
从 iOS 11 开始,iPhone 默认用 HEIC 格式存储照片。它基于 HEVC(H.265)视频编码,同等画质下体积约为 JPEG 的一半。你在 iPhone 上拍的照,一张大概 1-2 MB,比 JPEG 省了一半空间。
但 HEIC 有一个大问题:HEVC 的专利授权费很贵。Chrome、Firefox、Edge 都不愿付这个钱,所以除了 Safari 之外几乎没有浏览器支持。如果你要把 iPhone 照片放到网页上,必须先转换成 JPEG 或 WebP。
什么时候用:iPhone 本地存储(系统默认)。其他场景建议转成 WebP 或 JPEG。
SVG——放大不失真的魔法
全称:Scalable Vector Graphics(可缩放矢量图形)
压缩方式:文本文件(本质是 XML 代码)
SVG 和上面所有格式都不同——它是矢量图。其他格式记录的是"每个像素是什么颜色",而 SVG 记录的是"画一条从 A 点到 B 点的线,颜色是红色"。就像给画家一份说明书,而不是一张画好的画。
这意味着 SVG 无论放大到多大都不会模糊。一个 Logo 的 SVG 文件通常只有 2-10 KB,在手机屏幕和 4K 大屏上都一样清晰。
但 SVG 只能表示可以用线条、形状描述的图像。照片这种复杂图像无法用 SVG 表达。
什么时候用:Logo、图标、图表、插画、UI 元素。
什么时候别用:照片。
BMP 和 TIFF——不常用的老前辈
BMP(Bitmap)是 Windows 的原生图像格式,不压缩,体积巨大,现在几乎没人在用了。
TIFF(Tagged Image File Format)在印刷和专业摄影领域还常见,支持多页(比如一个文件里放多张扫描件),但体积大,浏览器基本不支持。
一张图选对图像格式
| 场景 | 首选 | 备选 |
|---|---|---|
| 照片 | WebP / AVIF | JPEG |
| Logo / 图标 | SVG | PNG |
| 截图(有文字) | PNG | WebP(无损) |
| 需要透明背景 | WebP / PNG | — |
| 动画 | WebP(动画) | GIF |
| iPhone 本地存储 | HEIC(默认) | — |
| 印刷 / 专业摄影 | TIFF | — |
第二部分:视频格式
这里是很多人困惑的地方,因为视频涉及两层概念:容器和编码。
一个类比搞定容器 vs 编码
想象你寄一个快递。
容器就是快递箱。箱子上写着收件人信息(元数据),里面可以装各种东西。常见容器:MP4、MKV、MOV、WebM。
编码就是物品的打包方式。一件羽绒服,你可以真空压缩后放进去,也可以直接塞进去——不同的压缩方式对应不同的编码。常见编码:H.264、H.265、AV1、VP9。
一个 MP4 文件(容器)里,视频流可能是 H.264 编码的,音频流可能是 AAC 编码的,还可能有字幕。同一个容器可以装不同的编码内容,就像同一个快递箱可以装不同的东西。
所以当你看到一个 .mp4 文件打不开,很可能不是 MP4 容器的问题,而是里面的视频编码你的播放器不支持。
常见视频容器
MP4——最通用的快递箱
全称:MPEG-4 Part 14
MP4 是兼容性最好的视频容器。几乎所有设备、浏览器、社交平台都支持。如果你不知道选什么,选 MP4 总不会错。
它支持 H.264、H.265 等常见编码,支持字幕(但字幕功能比较有限),适合网页视频、社交媒体上传、手机录像。
MKV——什么都能装的万能箱
全称:Matroska Video
Matroska 是俄罗斯套娃的意思——这个名字很形象,MKV 确实什么都能装。多国语言音轨?可以。多套字幕?可以。章节标记?可以。附件(比如字体文件)?也可以。
下载高清电影时你经常见到 MKV,就是因为它的万能特性。但它不被大多数播放器和社交平台直接支持(需要转换格式)。
MOV——Apple 的快递箱
全称:QuickTime Movie
iPhone 录制的视频默认是 MOV 格式。它和 MP4 很相似(底层结构几乎一样),但在 Apple 生态中对 ProRes 等专业编码的支持更好。
WebM——为网页而生
Google 设计的容器,专门用于网页视频。YouTube 大量使用 WebM。它只支持 VP8、VP9、AV1、Vorbis、Opus 这些开源免费编码。
AVI——退休的老前辈
Microsoft 在 1992 年推出的格式。文件体积大、功能少,已经基本被 MP4 取代。偶尔会在老旧的视频文件中见到。
常见视频编码
H.264 (AVC)——视频界的 JPEG
全称:Advanced Video Coding(高级视频编码)
H.264 自 2003 年以来一直是视频编码的绝对主流。所有设备、所有浏览器、所有平台都支持它。YouTube、Netflix、视频会议——几乎都在用 H.264。
它的压缩效率已经不算先进了,但胜在兼容性无敌。如果你需要一段视频"在任何地方都能播放",选 H.264 准没错。
H.265 (HEVC)——更好的压缩,尴尬的授权
全称:High Efficiency Video Coding(高效视频编码)
同等画质下,H.265 比 H.264 小 40-50%。4K 视频几乎必须用 H.265 才能保持合理的文件大小。
但 H.265 有一个致命问题:专利授权太贵太复杂。多个专利池收费,浏览器厂商(Chrome、Firefox)不愿支付,导致 H.265 的网页支持率只有约 75%。它更多被用在 Apple 生态、4K 蓝光光盘和专用播放器中。
VP9——Google 的免费替代品
Google 开发的开源免费编码,压缩效率与 H.265 大致相当。YouTube 的默认编码就是 VP9。Chrome、Firefox 等主流浏览器都支持。
AV1——未来的王者
全称:AOMedia Video 1
AV1 是目前最先进的视频编码,由 Google、Netflix、Amazon、Microsoft、Apple 等巨头联合开发,完全免费开源。它比 H.264 小 60-70%,比 H.265/VP9 还要小约 30%。
YouTube 和 Netflix 已经在大量使用 AV1。硬件解码支持也在快速普及(骁龙 8 Gen 2、Apple M3 等芯片已支持)。
唯一的问题是编码速度很慢,对计算资源要求高。但随着硬件编码器的普及,这个问题正在被解决。
编码对比一览
| 编码 | 压缩效率 | 授权费用 | 浏览器支持 | 适合场景 |
|---|---|---|---|---|
| H.264 | 基准线 | 有(封顶) | 99%+ | 万能兼容、直播、视频会议 |
| H.265 | +40-50% | 复杂且贵 | ~75% | 4K 视频、Apple 生态 |
| VP9 | +40-50% | 免费 | ~95% | YouTube、网页视频 |
| AV1 | +60-70% | 免费 | ~85% | 下一代流媒体、带宽敏感场景 |
容器选择速查表
| 场景 | 推荐容器 | 推荐编码 |
|---|---|---|
| 网页视频 | MP4 或 WebM | H.264(兼容)/ AV1(先进) |
| 社交媒体上传 | MP4 | H.264 |
| 高清电影收藏 | MKV | H.265 或 AV1 |
| iPhone/Mac 视频 | MOV | H.265 (HEVC) |
| 专业视频编辑 | MOV | ProRes |
第三部分:音频格式
音频格式的核心矛盾和图像一样:体积与音质的博弈。
MP3——最老牌的有损格式
全称:MPEG-1 Audio Layer III
1993 年诞生,改变了整个音乐产业。MP3 使用心理声学模型——它会分析声音,去掉人耳很难听到的频率。就像一首交响乐里有人在悄悄翻乐谱,MP3 认为你听不到,就把这个声音扔掉了。
在 320 kbps(最高码率)下,大多数人分辨不出 MP3 和原始音频的区别。但在 128 kbps 以下,瑕疵就比较明显了——钹声会变得"金属感"很强,混响尾音会变得粗糙。
MP3 的最大优势是兼容性:从 2000 年的 MP3 随身听到 2026 年的智能音箱,所有设备都支持。
什么时候用:需要最大兼容性的场景、老设备、邮件附件。
AAC——MP3 的继任者
全称:Advanced Audio Coding(高级音频编码)
AAC 在同等码率下音质比 MP3 好。AAC 128 kbps 的效果大约相当于 MP3 160 kbps。它是 Apple Music、YouTube、大多数流媒体服务的默认格式。
你的 iPhone 录音、微信语音、在线视频里的音频,大概率都是 AAC。
什么时候用:流媒体、移动端、网页音频(最佳体积/音质比)。
FLAC——无损发烧友的选择
全称:Free Lossless Audio Codec(免费无损音频编解码器)
FLAC 能把音频压缩到原始大小的 50-70%,但完全不丢任何信息。解压后的音频和原始录音一模一样,bit 级别完全一致。
一首 4 分钟的歌,WAV 格式约 42 MB,FLAC 格式约 25 MB,MP3 格式约 4-10 MB。
如果你是音频发烧友,或者需要存档原始录音,FLAC 是不二之选。大多数现代播放器都支持 FLAC,Spotify 和 Apple Music 也提供了无损音质选项(底层就是 FLAC 或 ALAC)。
什么时候用:音乐收藏/存档、发烧级播放、音频编辑的源文件。
WAV——最原始的声音
全称:Waveform Audio File Format(波形音频文件格式)
WAV 不做任何压缩,直接存储声波的原始采样数据。CD 音质就是 44100 Hz 采样率、16 位深度、双声道——每分钟约 10 MB。
它的体积大得吓人,但在专业音频制作领域是不可替代的:录音棚录音、音频编辑、后期处理都用 WAV 作为工作格式,最后再转换成其他格式分发。
什么时候用:专业录音、音频编辑、母带处理。
OGG Vorbis——开源游戏音频
全称:OGG 是容器名,Vorbis 是编码名
开源免费的有损音频格式,压缩效率和 AAC 大致相当。很多游戏(比如 Minecraft)和开源项目使用 OGG 格式,因为完全不需要付授权费。
什么时候用:游戏音频、开源项目、避免专利问题的场景。
音频格式对比
| 格式 | 类型 | 4 分钟歌曲大小 | 音质 | 兼容性 |
|---|---|---|---|---|
| WAV | 无压缩 | ~42 MB | 完美 | 好 |
| FLAC | 无损 | ~25 MB | 完美 | 较好 |
| AAC | 有损 | ~6-8 MB | 很好 | 很好 |
| OGG | 有损 | ~4-10 MB | 很好 | 一般 |
| MP3 | 有损 | ~4-10 MB | 好 | 最好 |
选格式的终极心法
不用记住上面所有的细节。记住这几条就够了:
图片:照片用 JPEG/WebP/AVIF(体积小),图形/Logo 用 SVG/PNG(无损且清晰)。
视频:容器选 MP4(最通用),编码选 H.264(最兼容)或 AV1(最先进)。
音频:听歌用 AAC/MP3(体积小),收藏用 FLAC(无损),做音乐用 WAV(原始)。
一条通用原则:如果是给网页用的,尽量选体积小的格式。文件越小,加载越快,用户体验越好。现代格式(WebP、AVIF、AV1)在同等甚至更好的质量下,体积远小于老格式。
参考资料
- Image file type and format guide — MDN Web Docs (Mozilla)
- Image Formats Explained — TheImageCDN
- Video Codecs Explained: H.264, H.265, VP9, and AV1 — Peasy Video
- Container Formats Explained: MP4, MKV, WebM, and MOV — Peasy Formats
- Audio Format Comparison: MP3, AAC, FLAC, OGG, and WAV — Peasy Dev
- Best Image Format for Web in 2026 — Pixotter