Day 42 · 2026.06.29

写作与表达:为耳朵写为耳朵写 · 句子的呼吸 · 演讲稿 vs 书面语 · 有声书时代

BigCat's Writing

你以为读者用眼睛读你的字,其实他心里有个声音在「听」。拗口的句子看着也累,断不了气的长句读着就喘。今天换一个器官检查文字——用耳朵:怎样为听觉而写,怎样让句子有呼吸,演讲稿和书面语差在哪,以及在文字越来越多被「听」而非「读」的时代,怎么写才不被听丢。

Principle 01

为耳朵写:读者会「听见」你的句子

Write for the Ear
听觉 · 默读
一句话原则

读者默读时,脑子里有个声音在替他发音。读起来拗口的,看起来也累。写完最便宜、最有效的一道检验:出声读一遍——舌头打结的地方,就是该改的地方。

"The sound of the language is where it all begins and what it all comes back to." — Ursula K. Le Guin, Steering the Craft (1998)

中译:语言的声音,是一切的起点,也是一切最终的归宿。

原理解读

认知科学叫它默读发声(subvocalization):阅读时大脑会无声地「念」出文字。所以耳朵能立刻抓到眼睛放过的毛病——重复的音、卡壳的连接、一口气读不完的长句。眼睛会自动跳读、脑补、原谅;耳朵不会,它只如实报告「这里别扭」。朗读,是你随身带着的一台最诚实的编辑器。

修改示范
针对该问题的相关解决方案的落地实施情况的后续跟进工作,需进一步明确责任主体。 这个问题怎么解决、谁来跟进,得说清楚。(念一遍:原句一连串「的」把气憋死了,改后一口气读完。)
The implementation of the optimization of the allocation of resources requires consideration. We need to decide how to allocate resources. (Four "-tion … of" links jam the tongue; the rewrite reads in one breath.)
适用场景 + 常见错误
  • ✓ 几乎一切:邮件、文档、演讲稿、博客——凡是会被人「读进脑子」的
  • ✗ 写完从不出声读,只盯屏幕反复看(眼睛早已习惯,发现不了拗口)
  • ✗ 把「读起来顺」误当成「降低专业度」——顺口和严谨不矛盾
关键参考

Ursula K. Le Guin《Steering the Craft》 · William Zinsser《On Writing Well》(论 sound & rhythm) · 王小波《我的师承》(论文字的音乐感)

本周习作 + 思考题

拿今天写的任意一段,站起来,出声念完。每一处卡壳、换气不顺、需要回头重读的地方,画一条线——只画不改。数数有几条线。思考题:同一段文字,为什么耳朵能挑出眼睛放过的毛病?这说明「看懂」和「听顺」是不是两件事?

Principle 02

句子的呼吸:长短错落才有音乐

The Breath of a Sentence
节奏 · 长短句
一句话原则

全是长句,读者喘不过气;全是短句,像机关枪扫射。长短交替,文字才有呼吸、有音乐。最重的那句话,放进最短的句子里,让它砸在重音上。

"This sentence has five words. Here are five more words. Five-word sentences are fine. But several together become monotonous. ... I vary the sentence length, and I create music." — Gary Provost, 100 Ways to Improve Your Writing (1985)

中译:这句话有五个字。再来五个字。五字句没问题。但几句连在一起就单调了……我让句子长短变化,于是我造出了音乐。

原理解读

长句承载复杂关系——条件、转折、层层限定;短句制造停顿与强调。一段全长句,信息糊成一团;一段全短句,像清单不像人话。真正的节奏是用长句把读者带远,再用一个短句把他钉住。短句是落点,是重音,是那一记响。

单调:句句等长
长句…………
长句…………
长句…………
长句…………
有呼吸:长短错落
铺陈的长句,带着读者走远…………
短句。
再短一点。
然后又一个长句把场面铺开………
收。
把句子的长度画成条形——等长是节拍器,错落才是音乐
修改示范
我们复盘了整个事故,发现根因在于缓存击穿,而缓存击穿又源于过期策略的疏漏,所以我们决定重写过期逻辑并加上预热机制以确保不再复发。 我们复盘了整个事故。根因是缓存击穿——过期策略有个疏漏。所以我们重写了过期逻辑,加了预热。不会再犯。(长—短—长—短,最后四个字砸下来。)
The system was slow, and it was slow because the query was unindexed, which meant every request scanned the whole table. The system was slow. The query had no index. Every request scanned the whole table. We fixed it.
适用场景 + 常见错误
  • ✓ 任何需要被读出声或读进心里的文字,尤其结尾、金句、要强调处
  • ✗ 一逗到底的长句串,读者中途断气找不到落点
  • ✗ 矫枉过正全写短句,铿锵是铿锵,却失了承转的从容
关键参考

Gary Provost《100 Ways to Improve Your Writing》 · Verlyn Klinkenborg《Several Short Sentences About Writing》 · 王小波(长短句的节奏感)

本周习作 + 思考题

找你写的一段,把每句话的字数标在旁边。如果数字都差不多(比如全是 20–30 字),就动手:拆出几个短句,让数字起伏。读读前后。思考题:短句之所以「重」,是因为停顿本身在说话——那么停顿(在文字里就是句号和分段)算不算一种没有字的「字」?

Principle 03

演讲稿 vs 书面语:听众不能回看

Speech vs Written Prose
演讲 · 口语体
一句话原则

读者能回看,听众不能。为耳朵写的稿子要:短句、少从句、口语词、一句一个意思、关键句敢重复。一段在纸上读得懂的好书面语,念出来可能让听众当场跟丢。

"A speech is poetry: cadence, rhythm, imagery, sweep. A speech reminds us that words, like children, have the power to make dance the dullest beanbag of a heart." — Peggy Noonan, On Speaking Well (1998)

中译:演讲是诗:抑扬、节奏、意象、气势。它提醒我们,文字和孩子一样,有本事让最迟钝的一颗心也跳起舞来。(努南是里根的首席演讲撰稿人。)

原理解读

两千多年前,亚里士多德在《修辞学》第三卷就分出书面体(lexis graphike)与口语/论辩体,说两者各有各的写法。区别全在媒介:书面靠眼睛,可回看、可跳读;演讲靠耳朵,线性、不可逆、错过即错过。多层从句、长定语、生僻术语,在纸上没问题,进了耳朵就像让听众在脑子里维护一个调用栈——一深就栈溢出。所以演讲稿要把信息摊平:一句一个意思,关键词反复出现,给耳朵留路标。

修改示范
(书面)鉴于上一季度因渠道结构调整及外部环境变化所导致的、未能达成既定目标的增长数据,我们认为有必要重新评估策略。 (演讲)上个季度,我们没达成目标。为什么?渠道变了,环境也变了。所以今天,我们要重新想策略。(拆成短句,设问引路,听众跟得上。)
(written)The initiative, having failed to meet the metrics established at its inception, warrants reconsideration. (spoken)We set a goal. We missed it. So let's rethink the plan.
适用场景 + 常见错误
  • ✓ 演讲稿、汇报开场白、video script、播客口播、电话会议要点
  • ✗ 把书面报告原文照念——纸上严谨,耳朵里全是从句迷宫
  • ✗ 怕「重复啰嗦」而不敢复述关键句——书面忌重复,演讲靠重复记住
关键参考

Peggy Noonan《On Speaking Well》 · Aristotle《Rhetoric》Book III · 林肯《葛底斯堡演说》(272 词、句句可听的典范)

本周习作 + 思考题

挑一段你写过的书面文字(报告、邮件均可),改写成「能站着讲出来」的版本:拆长句、换口语词、把一个关键句重复两遍。两版都念出声,体会差别。思考题:同样一个意思,书面版和口语版差了什么?这个「差」,能告诉你书面语其实悄悄依赖了哪些「眼睛才有」的便利?

Principle 04

有声书时代:写给「被听」的文字

Writing for the Audiobook Era
音频 · 线性
一句话原则

越来越多文字被「听」而非「读」:有声书、播客、通勤语音、AI 朗读。为「被听」而活的文字要:线性推进、不靠排版、人名不绕口、数字念得出。所有视觉提示——加粗、项目符号、「如上表」——到了耳朵里全部失效。

"Sound exists only when it is going out of existence." — Walter J. Ong, Orality and Literacy (1982)

中译:声音只在消逝的那一刻存在。——这正是音频的本质:说出口即流走,听众没有页码可回翻。

原理解读

听众没有页面、没有目录、不能回翻。书面靠空间组织(标题、缩进、表格),音频只有时间这一根线。于是要用「声音的路标」替代视觉结构:口头小结(「刚才说了三点」)、明确编号(「第一……第二……」)、关键词复现。AI 朗读还会无情暴露另一类毛病——生僻字、英文缩写、超长数字:「QPS 提升至 12847」念出来是一串噪音,不如「每秒处理能力大约翻了一倍」。能被机器顺畅读出的文字,往往也是更清楚的文字。

修改示范
如下表所示,三个指标均有改善(详见上文加粗部分),其中 P99 由 847ms 降至 112ms。 三个指标都好转了,我重点说一个:最慢那批请求,过去要等将近一秒,现在只要约一毫秒的十分之一——快了七倍多。(去掉「如下表」「加粗」,把数字翻成耳朵接得住的话。)
See Fig. 3; the K8s HPA reduced p99 from 847ms to 112ms. Auto-scaling cut our worst-case wait from about eight-tenths of a second to about a tenth. Roughly seven times faster.
适用场景 + 常见错误
  • ✓ 任何可能被 TTS / 有声书 / 播客 / 语音助手消费的内容
  • ✗ 把「见下表」「如前所述」「(见脚注)」留在音频脚本里——耳朵无处可「见」
  • ✗ 堆砌缩写和精确到个位的长数字,机器念出来全是噪音
关键参考

Walter J. Ong《Orality and Literacy》 · Nancy Duarte《Resonate》(口头路标与重复) · Robert McKee《Story》(线性体验的设计)

本周习作 + 思考题

把你写的一段文字,用手机的「朗读屏幕」功能听一遍。记下每一处:读错的字、念成噪音的缩写数字、失效的「见上图」。逐条改成耳朵能接住的说法。思考题:如果一段文字在 AI 朗读下变得难懂,问题真出在「机器不懂」,还是它替你照出了文字本就含混的地方?

深入思考
「为耳朵写」会不会和「为读者省时间」冲突——口语化往往更长、更啰嗦?
表面看冲突,实则不。口语化的「啰嗦」分两种:一种是无意义的填充(「这个那个」「然后呢」),该删;另一种是为理解服务的冗余——重复关键句、设问引路、口头小结,它们用字数换「不必回看」的省心。书面读者用回看省时间,听众没有回看,就得靠这些路标省时间。所以判据还是「为谁」:为听众不迷路而多的字,是投资;为自己嘴顺而多的字,是脂肪。书面追求字字千金,音频追求步步有标——目标都是省读者的力气,只是省的地方不同。
句子节奏在中文和英文里,机制一样吗?
原则一样(长短错落出音乐),机制不同。英文的节奏靠音节与重音,是听觉的轻重缓急,海明威的短句之所以有力,部分是单音节词的捶打感。中文是单音节方块字,节奏更多落在停顿(标点、分句)和音节组的奇偶上——四字句的稳、对偶的工整、「三三四」的顺口,是中文特有的乐感来源,鲁迅、王小波的句子都讲究这个。所以英文调节奏常调词长与重音位置,中文常调分句长度与四字/对偶结构。但底层是同一件事:让句子有起伏,别变成节拍器。
既然 AI 能把任何文字朗读出来,作者还需要专门「为耳朵」操心吗?
更需要了。AI 解决的是「发声」,没解决「好听、好懂」。机器能念出「QPS 12847」,但念出来仍是噪音;能读拗口长句,但听众照样跟丢。换句话说,TTS 让「被听」成了默认命运,却把「值不值得听」的责任全留给了文字本身。而且 AI 朗读是一面照妖镜:它不会像人那样自动断句、脑补、原谅,凡是含混的地方它都如实读成含混。所以 AI 时代「为耳朵写」不是过时,而是从少数演讲者的功夫,变成了每个写作者的基本功。
演讲稿的重复是优点,书面的重复是缺点——同一个手法为什么评价相反?
因为两种媒介给读者的「内存」不同。书面读者有「外存」——文字在纸上,忘了可以翻回去,所以重复是冗余。听众只有「内存」——声音流走就没了,重复是在帮他把关键信息写进记忆,是必要的刷新。马丁·路德·金「I have a dream」重复八次,在纸上略显累赘,在耳朵里却是钉子,一锤一锤钉进历史。不是手法本身有好坏,是「读者能不能回看」决定了重复是负担还是恩惠。
这门「听觉」手艺,搬到文、讲、视频三种载体上各自怎么用?
书面:耳朵当编辑器——出声读以发现拗口、调长短句节奏,成品仍服务眼睛,可保留视觉结构。演讲:耳朵是唯一通道,全面口语化——拆从句、设问、重复、留停顿,写完必须站起来讲一遍卡表。视频/音频:再加一层画面与声音的配合,让眼睛看到的别和耳朵听到的打架,且音频脚本要彻底清除一切视觉指代。一条线索贯穿三者:载体越线性、越不可回看,「为耳朵」的回报就越高——书面是选修,演讲是必修,纯音频是生死线。