本書所談的是中文電腦史。然而更重要的是,它是通往書寫歷史新時代的初步路線圖。
從「拼音」步入「超書寫」
數位時代的中文如何從巨大的檢索字盤,走到現今的「超書寫」快速輸入?
--------------------------------------------------------------------------------------------------------
「《中文數位探索》是第一本探討數位時代中文發展史的書籍,以跨越十五年以上的研究為基礎,追溯了電子化中文從二戰結束誕生後,直至今日的繁榮發展過程。這部作品基於口述歷史、實體文物及來自亞洲、歐洲和北美幾十家館藏檔案。描述了包括IBM、中國中央新聞社、RCA、麻省理工學院、中央情報局、美國空軍、美國陸軍、五角大廈、蘭德公
司、英國電信巨頭Cable and Wireless(大東電報局)、矽谷、台灣軍方、日本工業界,以及中國大陸的高層智庫、工業和軍事機構中,那些古怪且精彩的人物故事。」
本書是墨磊寧教授研究漢字從打字機時代到資訊時代的輸入法演進過程的第二本書。承接第一本《中文打字機》的論述,這本《中文數位探索》從1940年代美國IBM公司推出的中文打字機開始談起,談論中文字如何與電腦結合,結合過程當中的各種輸入法嘗試,也會觸及當前數位時代的漢字輸入展望。
本書要回答的核心問題,是《中文打字機》裡尚未被完全解決的一個大哉問:「如何用一組鍵盤打出上百萬字的中文?」這曾經被認為是不可能的事,卻在漢字化入拼音系統後,在電腦時代達成了。這也造就了當前漢字的廣泛流通。
在個人電腦仍是雛形的時代,中文輸入就以圖形組成的方式,部首拆分的方式,集結各路菁英的熱情投入,研究出各種各樣的組合輸入方式。也因著QWERTY鍵盤在電腦輸入上成為主流,而使輸入方式聚焦在這有限的鍵盤上,衍生出倉頡、注音、拼音等各種輸入法,對輸入法的研究熱情在華文世界至今仍未休止。硬體的改進也促進了中文輸入的速度,從插入漢卡,到隨著電腦容量與計算能力的激增,一步步打造中文輸入更順暢的世界。
本書提出中文輸入的六大面向,依時序分章探討,包括自動完成、中文鍵盤、輸入法戰爭、印表機周邊、中文模組化,以及所謂「超書寫」的出現如何衝擊並影響了中文輸入法及漢字的未來。
另外,作者也觀察到當前中文在網路世界盛行的風潮,以及新一代中國年輕人「提筆忘字」的危機。這兩個並存但矛盾的現象為何會出現?要解答這個問題,就必須回到電腦誕生的時代,探究中文輸入法如何發展演變。
中文如何克服空前挑戰,徹底改變計算機世界?
標準的 QWERTY 鍵盤只有幾十個鍵。如何在這樣的設備上輸入中文——一種擁有數以萬計字符、沒有字母表的語言?在《中文數位探索》一書中,墨磊寧著手解決這個難題,並在此過程中發現,解開這個看似不可能的謎題,開創了書寫史上的新紀元──一種他稱之為「超書寫」(hypography)的書寫形式。歷經十五年的研究,這部開創性的漢字歷史描繪了中文數位技術在二戰後的起步,直至今日的多次更迭。
墨磊寧帶領讀者回顧了中文電腦科學技術的歷史和演變,展示了電子中文輸入法──使用字母數字符號生成漢字的軟件程序──的發展,以及它們對中文書寫方式產生的深遠影響。在這當中,墨磊寧介紹了來自 IBM、麻省理工學院、中央情報局、五角大樓、臺灣軍方及中共最高層(僅舉幾例)一批傑出而古怪的人物,以及他們在開發中文電腦科學技術過程中深入的貢獻,和意想不到的作用。最後,他展示了中國和非西方世界是如何──為了個人電腦革命而不得不發明的超書寫技術──將西方電腦從深刻的偏見中「拯救」出來,使其能夠在美洲和歐洲以外的市場取得一席之地。
《中文數位探索》是一部引人入勝、敘述精妙的歷史。文化如何影響數位演進,以及電腦又如何反過來塑造文化,對這些感興趣的人都必讀這本書。
好評推薦
張俊盛(國立清華大學資訊工程系教授、自然語言處理研究室主持人) 專文推薦
「本書詳細敘述漢字進入電腦的漫長歷史,不僅僅有技術的層面,有各式各樣的圖表,影像:從大鍵盤、形象代碼、語音代碼、對應到英文鍵盤、儲存為內碼、紀錄字型的艱辛過程。我特別欣賞他講故事追新聞的功力。」
各界推薦
「從打字機到電腦,墨磊寧不只讓日常生活科技現身歷史,更透過這些發明開展跨學科,超越在地與全球,文化與社會框架的宏觀論述,精彩地為『長20世紀文明』立下關鍵註腳。」
――郭文華(國立陽明交通大學科技與社會研究所教授)
「如果說墨磊寧在《中文打字機》開啟了中文『輸入』的先聲,那麼,《中文數位探索》要探詢的就是『如何能夠機械化地輸入成千上萬的漢字?』墨磊寧告訴我們中文輸入法最初是由非西方使用者為了適應主流的英語鍵盤所發明,但這不意味非英語系語言在現代技術中處於劣勢。相反地,這將引領我們重新思考現代資訊史中『西方』與『非西方』之間的認識論與技術權力樣態。」
――陳建守(中央研究院近代史研究所副研究員)
木子 (木子AI研究所主持人)
原書推薦
「這是一部生動、精確且富有挑戰性的發明家和技術人員的歷史,他們教會了電腦不同的書寫方式。中文電腦使運算的歷史去地方化。」
——安東尼‧格拉夫頓(Anthony Grafton),普林斯頓大學
「墨磊寧這本引人入勝且研究精巧的書闡明了使西方電腦與漢字相容所需的獨創性。透過詢問在電腦時代寫作意味著什麼,這部重要的著作為電腦歷史開闢了新的方向。」
—伊頓.麥地那(Eden Medina),麻省理工學院科學、技術與社會項目學程
「墨磊寧透過對數位時代中國輸入的引人入勝的描述,改寫了全球運算歷史的劇本。《中文數位探索》構思巧妙,研究精湛,是一次勝利之作。」
——維克特.蕭(Victor Seow),《碳技術統治》(Carbon Technocracy)作者
「墨磊寧扣人心弦的敘述充滿了歷史和技術見解,大膽宣稱中文運算已經改變了書寫本身的本質。」
——澤夫.韓德爾(Zev Handel),《漢學》(Sinography)作者
「這本精彩的書記錄了一些原本會丟失的事件:計算機如何使中文輸入演變成當今的高效形式。」
——肯.朗德(Ken Lunde),《中日韓越訊息處理》(CJKV Information Processing)作者
「這本書揭示了中文電腦輸入發明的迷人歷史,以前連人機交互專家都不知道,現在首次揭曉了。」
——翟樹民(Shumin Zhai),Google首席科學家兼 Gboard 總監
墨磊寧(Thomas S. Mullaney)
美國哥倫比亞大學歷史學博士,現為史丹福大學歷史學教授,主要研究方向為東亞史和科技史。他領導的「數位人文亞洲」(DHAsia)是史丹福大學亞洲研究的重點項目。著有《與國家和解:現代中國的族群》、《立國之道:現代中國的民族識別》等作品。
2018年,他以《中文打字機》(The Chinese Typewriter: A History)(2023,臺灣商務出版)獲得美國漢學界的費正清獎(John K. Fairbank Prize)並入圍列文森獎(Joseph Levenson Book Prize),說明本書備受中國及東亞研究圈高度肯定。本書也榮獲劉易士.孟福獎(Lewis Mumford Award)、《CHOICE》雜誌評選的2018年度傑出學術主題(the CHOICE Outstanding Academic Titles for 2018)以及2020年布里德獎(The Bridport Prize)。
其著作文章散見於《亞洲研究雜誌》、《技術與文化》、《外交事務》和《外交政策》等雜誌,《洛杉磯時報》、《大西洋月刊》、英國廣播公司都曾刊登他的作品。他也應邀於Google、微軟、Adobe 等科技公司舉辦講座。
吳國慶
中興大學外文系,台北藝術大學戲劇研究所畢業。曾任《Hi-Fi Choice》國際中文版副總編輯、《潮人物雜誌》美劇專欄作家,現任醒吾科大商業設計系講師。譯有《我們為何吃太多?全新的食慾科學與現代節食迷思》、《生命的一百種定義:原來還可以這樣活著,探索生物與非生物的邊界》、《電腦如何學會思考?》等書。
bb
致謝
導言:數位時代的中文
1. 當輸入法是一位女性時:IBM、劉淑蓮,以及電子化中文的新紀元
2. 打破魔咒:中文打字機與自動完成的發明經過
3. 告別QWERTY:尋找中文鍵盤之路
4. 輸入法之戰:支秉彝與超書寫的回歸
5. 尋找中國式的改裝:印表機、螢幕與周邊設備的政治
6. 關聯思考:中文進入預測文本的時代
結 語 .歡迎來到超書寫的世界
檔案藏館縮寫查詢
訪問與通訊
詞彙對照表
附註
發表過的文章
圖片說明
參考資料
結語(摘文)
雖然英語世界確實有一小部分人,從一九八〇年代就開始質疑QWERTY鍵盤的神聖地位,甚至有人呼籲廢除它。但除此之外的拉丁字母世界裡,有更多的人在一百年前開始就這麼說了。早在一八八〇年代(不是一九八〇年代),語言改革者、技術專家、國家建設者以及跨越現在的東亞、南亞、中東、北非等地的人,就已經開始提問:我們該如何克服QWERTY鍵盤的阻礙?20
來自非西方對QWERTY鍵盤的批評,其所涉及到的利害關係,遠比大衛等人著作中所表達的更為深刻。大衛抱怨由於QWERTY鍵盤的佈局,讓人每分鐘損失了幾個單字的輸入速度。而戴蒙只想從他的鍵盤上榨取更多潛力,以減輕手腕的負擔。與此同時,中國評論家則在爭論以QWERTY鍵盤為代表的鍵盤介面,以及其他以拉丁字母為中心的資訊技術,是否會將中文寫作完全排除在全球科技語言的現代化過程之外。日本、韓國、埃及、泰國、印度等地的改革者,則是擔心他們文字文化的命運,亦即擔心他們國家的未來。
大衛文章裡的諷刺重點,是作者探索所謂的QWERTY鍵盤「解決方案」時經常遇到的。因為就英語世界批評QWERTY鍵盤的人來說,我們通常聽到的答案裡,除了少數例外,通常都覺得應該更換鍵盤佈局。也就是說,大家都認為只要把按鍵移動到鍵盤上的不同位置,就可以擺脫QWERTY鍵盤的束縛。許多人提到最喜歡的鍵盤佈局之一就是「德沃夏克鍵盤」(Dvorak Keyboard),這是由華盛頓大學教授奧古斯特.德沃夏克所設計,他從大約一九一四年到一九三〇年代以及之後,都一直在研究他的鍵盤介面。許多西方世界批評QWERTY鍵盤的人,都在吹捧德沃夏克鍵盤的字母排列比較「科學」,宣稱它是一種拯救打字員的工具,可以把他們從「罪魁禍首」QWERTY的「陰謀」中拯救出來。21儘管在英語世界的人機互動情況下,這些作法似乎太過激進,但與非西方世界提出的方案相比,這些替代方案根本微不足道,甚至可以說是輕描淡寫。 中國科技工作者和語言改革者以及許多非西方世界的人,都知道情況不止如此。要想「克服」QWERTY鍵盤的阻礙,需要的補救措施絕不止是簡單重新排列字母而已。除了必須直接對抗和克服 QWERTY鍵盤本身,還要攻克根深蒂固、環環相扣的「假設」網路,QWERTY鍵盤只是其中最醒目的部分而已。還要克服的是「一鍵一符號,所見即所得」、「即時寫作」等神話,這些才是最終需要克服的障礙,因為寫作就是作為一種創作行為別無其他可能。所以無論德沃夏克鍵盤或其他鍵盤,都無法透過簡單的「重新排列」來解決問題。最終的答案,就是我在這本書中主張的超書寫。
中文只是眾多放棄傳統即時人機互動模型,一頭栽進超書寫輸入法方向的非拉丁文字系統之一。從全世界的範圍看,QWERTY鍵盤和其他QWERTY樣式的鍵盤無所不在。但傳統意義上的「打字」卻非如此。對於中文、日語、阿拉伯語、緬甸語、梵文或任何其他非拉丁文字來說,輸入法及其他許多「中介」程式,才是規則而非例外。它們被用來解決一個共同的問題:個人電腦(以及之前的電報、打字機、熱鉛排版等)輸入長期以來根深蒂固的偏見,這種偏見有利於拉丁字母,而不利於其他書寫系統。
請考慮以下幾點:
• 對於這個世界上大約四.六七億阿拉伯語使用者來說,電腦解決方案是必需的,才能讓阿拉伯語(這是一種字母幾乎都是連接在一起,並且會根據前後文改變形狀的文字),跟西方構建的文字處理程式的互動順利。因為在這些程式中,字母被預設為並不會互相接觸,也不會改變形狀。
• 對於超過七千萬以上的韓語使用者來說,電腦解決方案也是必需的,才能讓韓語(這是一種字母的尺寸和位置,都會依據前後文字因素而改變的語種)能在西方構建的電腦環境中運行,因為這些環境在個人電腦早期時,並沒有為其他類型的文字提供支援。
• 對於大約五.八八億印地語和烏爾都語使用者、約二.五億孟加拉語使用者以及幾億其他印度語言使用者來說,也必須開發其他電腦解決方案。例如,儘管梵文的子音字母的數量相對較少,但它們通常以「合體字」的形式出現,其形狀可能與原始構成部分有很大的差異(這是這類書寫系統的特點,早期西方製造的電腦同樣無法處理)。
即使在今天,為了使基於QWERTY鍵盤的個人電腦與緬甸語、孟加拉語、泰語、梵文、阿拉伯語、烏爾都語等相容,仍然需要超過七種以上的不同電腦解決方案(請注意,我並沒有寫成「讓緬甸語⋯⋯與QWERTY相容」)。這些方案包括:
1. 輸入法以及遞迴(不停出現)的彈出式選單(正如我們在書中所見),中文、日語、韓語和許多其他非拉丁文字系統都需要
2. 上下文形狀調整,對於阿拉伯語及其衍生形式以及緬甸語等文字都是必要的
3. 動態連字,阿拉伯語和泰米爾語等也需要
4. 放置變音符號,泰語等具有疊加變音符號的語系需要用到
5. 上下文重新排序,字母或字形的順序會根據上下文而改變(對於孟加拉語和梵文等印度文字來說相當重要,這些文字中的子音和隨後的母音會結合成組)
6. 拆分,對於印度文字來說也是必要的,單一字母或字形會同時出現在一行中的多個位置
7. 雙向性,適用於希伯來語和阿拉伯語等從右向左書寫的閃語系文字,但其數字會從左向右書寫(圖 7.2)
如果我們統計因其書寫系統而被「系統性」的排除在西方製造的打字機、鑄排機、蒙納鑄排機、個人電腦等的人口總數,亦即被迫轉向超書寫人機互動模式的人口總數,就會發現這個數字已經超過全球人口的一半。換句話說,在個人電腦革命初期和之後相當長的一段時間裡,地球上絕大多數的人,如果不透過硬體或軟體的方式「改裝」,就無法使用個人電腦。
我們可以說,正是受益於非西方和非拉丁世界這股狂熱的超書寫「改裝」潮流,電腦和各種新媒體才能持續發展並取得如此成就。舉例來說,雖然未臻完美,但這些改裝讓阿拉伯語文字首次能以正確連接的形式,出現在螢幕和印刷品上;讓韓語字母比例能夠完整顯示;讓印度語合體字也得以正確呈現等,這些只是其中的一些例子。如今的亞洲、非洲和中東地區等,已經成為世界上最具活力和利潤最豐厚的IT市場,讓歐美公司爭先恐後地想要打入這些市場。對於那些執著於「即時性」神話的人來說,這樣的景像似乎印證了他們早已知道的事實:亦即西方工程和創新的輝煌,再次將恩賜灑遍了世界「其他」地區。
但這完全是一種謬誤。並不是西方設計的電腦拯救了中國和非西方世界,反而是中國和非西方世界拯救了西方設計的電腦——確切地說是拯救了西方電腦根深蒂固的局限性(無論是在概念上或物質上)。如果沒有各種輸入法、上下文調整、動態連字、渲染引擎、排版引擎、自適記憶體、上下文分析、自動完成功能、預測文本輸入、BIOS改裝、印表機驅動程式的破解、中文語言晶片,以及最重要的,擁抱超書寫等各種努力,西方製造的電腦在美洲和歐洲以外的世界,都將無法取得有意義的立足之地。22如今,超書寫已經成為全球標準,因為正是超書寫讓全球的電腦得以實際應用。
當需要「輔助」程式的語言數量,超過了電腦原先運作的語言數量時,我們對於電腦和新媒體的理解將發生怎樣的變化呢?當超書寫技術比原本「正常」的正字法輸入技術更普遍時,我們對電子寫作的理解,又將發生怎樣的改變呢?
讓我們回到二〇一三年中國輸入法大賽的黃振宇身上,我們不禁要問:黃振宇是否能夠用紙和筆「手寫」出胡錦濤主席的演講稿呢?如果他做不到,如果他也「提筆忘字」,我們真的會認為他是失憶、失語或文盲嗎?
書寫已經改變了。我們理解書寫的框架也必須隨之改變。
導言:數位時代的中文
可能有一億名以上的中文使用者,遇到了一種奇怪的新型「認知障礙」的困擾。
他們正在忘記如何「寫」中文。
至少,已經有這樣的傳言出現。
這些報導開始於二十一世紀初,每則報導都有著驚人相似的敘述脈絡。一個人在突然之間,從一個能幹、有成就、通常受過高等教育的狀態,例如一位科學家、一位企業家、一位作家,轉變成了像學童一樣,甚至必須努力回憶最基本的中文字。
因為他們一提起筆卻忘了字怎麼寫:也就是傳言所說的「提筆忘字」1。
有些人稱之為「失語症」(Aphasia),一種導致無法說話的嚴重疾病。另外一些人則稱之為「書寫障礙」(Dysgraphia),這是失語症的姊妹疾病,不過它是針對書寫而非說話方面。還有人提議這是一種「奇怪的新文盲形式」 2。沒有人能理解這種流行病,其病理與傳統醫學大相逕庭。它的發病如此突然,以至於整個故事就像是直接從科幻小說頁面裡抄來的一樣。
「失寫症」(Character amnesia)——這是它被貼上的標籤3。
傳言逐漸演變成了令人警醒的統計數據:根據二〇一三年的一項調查,百分之九十八.八的受訪者宣稱自己有提筆忘字的經歷,其中有許多人每天都會發生4。整個國家似乎陷入了一場奇怪的「漢字危機」中5。
「失寫症」的龐大影響以及如此令人困惑的行為,都讓情況變得更糟糕。不過,就像許多公共衛生危機一樣,它並未嚴重影響到生活在社會邊緣的人──也就是那些被邊緣化和貧困的人。被這種病無情困擾著的反而是中國的精英階層,一個人越富有、越城市化,就越容易發生提筆忘字的情況;可支配收入越多的人,失去書寫能力的風險就越高。
罪魁禍首終於浮出水面:數位書寫。「失寫症」最常見於那些使用電腦、智慧型手機和平板電腦的人,也就是由任何使用QWERTY標準鍵盤或觸控板來書寫中文的電子設備所造成。這個人可能前一刻還在筆記型電腦或行動裝置上,穩定輸入長串的文字,然而一旦設備關閉後,他們的思維好像也跟著關閉了。
我們該如何理解這些驚人的報告呢?這是數位時代的又一個道德恐慌案例嗎──例如對於文本語言、表情符號、手寫能力下降或其他「語言衛生」問題的擔憂?抑或是二十一世紀的中國,已經成為數以億計的新文盲失寫症患者(illiterate aphasics)以及書寫障礙失憶症者(dysgraphic amnesiacs)的家呢?6如果是這樣,為什麼我們在任何地方都找不到這種危機的證據呢?是經濟上出現了缺口?又或許是高等教育的崩潰?果真如此,中國又怎麼可能成為世界上最活躍、最富有的數位經濟體之一呢?此外,中文網路上的活動如此興盛,僅在中國大陸估計就有九億網路用戶參與著狂熱、不間斷的中文內容交流。如果中國最懂上網、最懂技術的人都「無法書寫」(前面提過書寫障礙的基本定義)了,那麼到底是誰在進行這些中文書寫呢?
《中文數位探索》是第一本探討數位時代中文發展史的書籍,以跨越十五年以上的研究為基礎,追溯了電子化中文從二戰結束誕生後,直至今日的繁榮發展過程。這部作品基於口述歷史、實體文物及來自亞洲、歐洲和北美幾十家館藏檔案。描述了包括IBM、中國中央新聞社、RCA、麻省理工學院、中央情報局、美國空軍、美國陸軍、五角大廈、蘭德公司、英國電信巨頭Cable and Wireless(大東電報局)、矽谷、台灣軍方、日本工業界,以及中國大陸的高層智庫、工業和軍事機構中,那些古怪且精彩的人物故事。
然而這本書不僅為了展示形形色色的一群失敗者,也致力於解釋中文電腦處理的六個核心維度——理解數位時代中文必須掌握的六個公理。
為了探索這些公理,我們打算從中國河南省一個寒冷冬日下的禮堂,展開這趟旅程。二〇一三年十二月,也就是「提筆忘字」危機最嚴重的時候,五十五位才華橫溢的數位達人聚集此地。他們聚集的目的並非為了悲嘆「提筆忘字」這件事,而是為了在正面對抗中擊敗對手:亦即在打字比賽中贏得第一名,獲得吹噓自己是中國乃至全世界最快的電腦鍵盤手的權利。
……
在所有電腦和數位媒體裝置中,中文文字的輸入都依賴稱為「輸入法編輯器」的軟體程式—更廣為人知的名稱是「IME」(input method editor,輸入法編輯器,以下簡稱為「輸入法」)。輸入法是一種「中介軟體」,因它們是在用戶設備的硬體與軟體或應用程式之間運行而得名。無論你是在微軟Word中編寫中文文件、在網路搜尋、發送簡訊或其他操作,輸入法都在運作,截取用戶的所有按鍵操作,並嘗試確定用戶想要產生哪些中文字元。簡單來說就是輸入ymiw2klt4pwyy⋯⋯結果就會得到一串中文字。8
輸入法就像是一種不安分的生物。從使用者按下按鍵或滑動筆畫的那一刻起,它們就開始了一個動態的、反覆的過程,不斷捕捉用戶輸入的資料,並在電腦記憶體中搜尋可能匹配的中文字。目前最常用的輸入法是基於「漢語拼音」—也就是使用拉丁字母來描述中文字的發音。中國大陸的使用者最常使用的就是這種官方的羅馬拼音系統(拼音輸入並非一直都是最受歡迎的中文輸入方式,我們很快就會談到這一點。)。*
當第一個按鍵被按下(也許是「C」)時,像搜狗拼音、QQ拼音和谷歌拼音這樣的輸入法,就會開始向使用者提供選項。這些「候選字」會出現在螢幕邊緣的彈出式選單中,它們的發音都是以「C」開頭的字,例如「吃」(chi)、「才」(cai) 以及其他上百種可能性。
當使用者按下第二個鍵(假設為「H」)時,輸入法會調整候選字列表。它開始只顯示發音是以「CH」開頭的中文字元(「才」的可能性被排除了,但「吃」的可能性依舊保留)。一旦使用者在彈出式選單中看到他們想要的字,只需要再按最後一個按鍵—空格鍵、輸入鍵或數字鍵,就可以選到該字,將字添加到主要的文字編輯視窗內(也許使用者想輸入的詞是「chaoxi」,即「抄襲」)(圖0.2)。這種一個接一個按鍵的操作,就是輸入法編輯器如何透過字母、數字與符號,用QWERTY鍵盤產生中文字的過程。