2008年11月5日 星期三

簡立峰談數位閱讀與Google~轉載自Snowred.tw's watching 2006年

舞菇小評:
雖然這篇文章發表時間已經有點久遠了,但是這一篇會議紀錄真的做得很棒,舞菇那時也有到現場聽課…

對簡立峰老師簡直敬愛到不行…本來想直接把版主的網址放在網誌清單上,
可是無論怎麼做,就是無法直接連結到這一篇文章…而多才多藝的版主,
想做的事情真的太多也太雜了…所以只好轉貼這篇文章…
發表這篇紀錄的版主網頁是http://snowredtw.blogspot.com/

Snowred.tw's watching
簡立峰談數位閱讀與Google

上星期六(2006.09.30)去參加了一場數位出版與閱讀的研討會
七個月前加入Google台灣工程研究所的簡立峰所長,做了一場「數位閱讀與Google」的報告,
向憂心忡忡的台灣出版界發表Google在書籍數位化方面的走向。
即使我覺得已經看多聽多了Google的故事或神話,但當天還是有點小驚訝到。
我想別人或許也有興趣,也為了避免腦碟日久消磁,就整理了一下當時的重點如下(小標題是我加的):
(以下的「我」為簡立峰)神秘兮兮的對外發言保密措施首先要說明的是,
我在外面發表的所有powerpoint等投影片,都要經過老闆審核,
所以,我每次出去做報告演講,乾脆把老闆發下來的投影片挑出幾張,整理一下,就可以使用了。
也因此每次報告的投影片都差不多。不過,目前的技術還無法預先審過要說出的每一句話,
所以現在用嘴說出來的部份,還是很自由的,因此不會與其他場次的內容都一樣。(!)
Google是硬體公司許多人沒有意識到Google並不只是搜尋引擎,它還有很多層面。
Google的理想,是組織世界上的資訊,也因此需要很多的硬碟。
以Gmail為例,一億個使用者,需要多少硬碟容量?
若每個人用1G的話(事實上現在每個使用者至少已經可用2G多),就是個龐大的數字,這還不算Google Vedio。
現在的使用者,把所有的資料存在網路上的硬碟,這是以前想像不到的方式。
Google可以說是個硬體公司,需要很多很多的電腦主機,每一分鐘都燒壞一個主機。
當你查一個關鍵字的時候,全世界數十萬台PC主機動起來,瞬間取得答案並且合併出結果。
因此主機的價格要便宜,否則公司無法負擔,別人用買100元買的主機,我們非得要用1塊錢來買不可,不然行不通。
硬體幾乎都在台灣採購,Google需要什麼硬體都是由自己設計,台灣生產,ODM 也在台灣。
就這個部分來看,台灣對Google的影響是百分之百。
人才與發明而控制主機的軟體,Google都是自己開發。
Java、Firefox、internet的發明人(或共同發明者),都是Google的工程師。
他們並不是在Google如今將近一萬名員工時才加入公司的,
而是Google在還是個300人小公司時就進來了。
在小規模時就能吸引這些人,這是Google 的過人之處。
新進人員要加入Google時,大家都聽過,要經過很難的考試,這些題目連我都覺得艱難,
大概是念資工系的人在學校時會遇到的最難的題目--
雖然是我出的,這就是老師的好處啊--,而通過考試的人,
需要連續答對20幾個這種等級問題,平均每題作答的時間只有三到五分鐘。
Google在這些人的努力之下,每週最少也會發表一種新產品或新服務。
我們的問題不是在於發明不出東西來,而是發明的東西太多,太多發明排不上隊,
就像香港擁擠的機場,很多飛機排隊等著起飛。「Google台灣」成立之後的第一個貢獻,
就是讓台灣繁體中文首頁,加上一個「最多」,將Google的一些使用者常用的工具與服務,
在繁體中文首頁上呈現出來。

但事實上Google提供的新服務太多,很多服務都沒有中文化,即使是英文介面的服務,
也很多沒有介紹給使用者,都是使用者自己翻箱倒櫃去找出來用的。
即使在這種情況下,Google還是經常購買別人的發明,別人已經有的,
我們就盡量用收購的方式,不必自己花時間研發。
購買了之後,因為Google通常面對的是大量使用的情況,與一般軟體處理的數量不同,
所以這些發明,通常需要再經過我們的修改。
Google Book Search與出版業Google的自我定位是平台,我們不作內容,
以後也不會作(又是Google自出生以來不斷強調的立場)。我們不會去和生產的內容者去競爭。
Google Book Search 就是提供技術平台,幫助出版社推廣書籍,並不是要和出版社競爭。
我們不會作球員兼裁判的事情。如果把自己生產的內容放到搜尋的結果中,會讓使用者起疑,
會失去使用者的信任。出版社參加Google Book Search,可以完全控制內容,
那些要放上Google Book Search而哪些不要,隨時都可以增加或刪除。
Google Book Search將書籍放上網路,是更方便使用者搜尋,而且也有保護版權的措施,
對於有版權的書籍,使用者只能看到關鍵字搜尋的那一頁,以及前後兩頁,共五頁,
而且會限制每一個IP在一定時間內搜尋同一本書的次數,
不會讓使用者透過關鍵字搜尋而把整本書看完。
Google Book Search對於一些出版商是有幫助的,
有的出版商因為參加Google Book Search而使銷售增加三倍。
在過去,有很大的出版集團,但一般人未必感覺得到,而是感覺到有很大的書店。
現在,不管是多大的出版集團,你只有一個網址。這一點跟過去改變很大。
在 Google Book Search,小出版商與大出版商的地位很可能會翻轉過來,
以前的大、小,未必還有意義。由於出版商之間有「排他」現象,某幾本書多一些人看,
另幾本書就減少被閱讀、被購買的機會,因此,網路時代的出版界有可能重新洗牌。
現在的書籍,名稱就要便於搜尋,也許書名的前半段是個吸引人但看不太懂意思的一段文字,
後半段的副標題,就要很清楚表達這本書到底在幹什麼,否則使用者一定搜尋不到。
書籍數位化工作Google Book Search要依靠掃瞄、OCR(Optical Character Recognize光學文字辨識技術),將大量書籍數位化。
你要數位化幾本書可以靠毅力,但是數位化一億本書,就要靠好的技術。
許多大學想自己來進行書籍數位化的工作,但是他們發現各大學各自進行的成本或技術的門檻太高,不如交給Google來執行。
而且我們數位化過程根本不收錢,完全免費,只要把書載過來就好了。
這讓各大學與圖書館更樂於合作。在掃瞄書籍方面,我們有自動將書籍翻頁、掃瞄的機器,
而OCR技術Google應該是全世界最好的,對掃瞄後的文字,辨識率非常高。
事實上,OCR辨識率只要到達百分之八十、九十,在搜尋上就不會有問題。
OCR辨識出來的文字,事實上是給電腦看的,使用者下關鍵字,電腦尋找,
然後把搜尋結果的那一頁顯示出來,但顯示給使用者的頁面,其實是影像檔而不是文字。
文字只是電腦尋找關鍵字的時候用的。
Google Book Search很快將出現中文書籍中文書籍的OCR技術,目前正在大陸測試,
不久之後就會推出,到時候Google Book Search就會有中文書籍。
英文版的Google Book Search,搜尋書籍的結果,會呈現出在美國的那些書店可以買到那本書。
以後台灣也會有這種服務。翻書的體驗書籍數位化之後,對於閱讀的體驗會有很大改變。
現在已經有些電子書的工具,可以做到很像真的在翻閱一本實體書的感覺,
即使是用筆記型電腦,在越來越輕薄短小的趨勢下,像以前看書一樣在沙發上、在床上,
也會越來越普遍,你不用為了看電子書綁在電腦桌前。
這樣發展下去,傳統式的看書的感覺會不見了。紙本書籍、紙本報紙的閱讀年齡,正在不斷老化。
玩Game長大的世代,對於紙本都是字的書籍會不耐煩,會跳躍式閱讀,可能更喜愛看多媒體的產品。
科技並不是故意要取代紙本書籍,而是趨勢自然形成。也許不是在短期之內,
但長期來看,不同類型的書,被數位化電子書衝擊的時間會不同。
例如學術論文和童書,被衝擊的時間點會不一樣。
不只是書,辦公室也越來越電子化。Google台灣的辦公室沒有印表機。
我到Google七個月了,沒有用過一張紙,簽名都在電腦上。
Google台灣沒有讓一棵樹倒下。(這是簡老師延續在中研院時代愛講冷笑話的習慣XD。
至於Google辦公室沒用紙這件事情....我當時立刻想到的是Google的耗電量
Google News不只是Google Book Search,整個潮流對於內容生產者的衝擊是很明顯的,
包括書籍,報紙,音樂,軟體等方面。以前這些內容賣的是載具,書、紙、光碟,
但是技術進步之後已經漸漸改變了。當使用者吃習慣了便宜飯,就不會想花太多錢去買這些東西。
例如Google News之類的服務出現之後,看報紙的比例一定往下降。
不過,有許多人抱怨Google News上的「台灣版」繁體中文新聞中,大陸新聞太多,
其實也有很多香港使者抱怨香港版的台灣新聞太多,這都是因為目前的技術,
還沒有辦法完全判斷繁體字的新聞之中,哪些是台灣、香港、大陸,大家都有繁體字的新聞。
繁體中文、簡體中文大家會看到很多簡體中文在Google或Google News、Google Scholar
(以後也會出現在Google Book Search),繁體中文使用者有危機感。
但是繁體中文仍然有機會。我們兩千多萬人越來越會看簡體字,同樣的,對岸十幾億人
(只要有上網的話)也越來越會看繁體字,我們也並不吃虧。
使用詞彙的習慣會有差別,但Gap會越來越小,不成問題。
繁體字的創作可以持續,反正繁體、簡體在電腦上只要按一個鍵就可以互換,
不過,若要考慮大陸市場去創作、出版,則是另一個問題。
Google不會放棄繁體中文,但是繁體中文的服務量趕不上簡體中文是趨勢(更不用說英文),
也許100個簡體中文介面,同時才有50個繁體中文。長期來說這是趨勢。
套用數學的說法,長期而言繁體中文的絕對影響會增加,但相對影響(在中文世界的比例)會減少。
Google奇特的「本土化」作業方式Google台灣的工作,並不是把Google的所有產品通通化為繁體中文,
而是由每個產品的原始團隊去進行localize本土化的工作,繁體中文介面由Google台灣監看有無問題,
也可提供協助,但真正要做localize的,是原團隊。
當然,這樣的方式會常常遭遇到文化適應、衝擊的問題,我們常犯錯,常需要改進。
那Google台灣的工作到底要作什麼?老闆也沒有規定任何方向,
只要求做到最好,把最好的人才找進來。Google台灣現在有十個人,
但我們不是要作十個人的事情,而是要利用所有Google工程師的智慧來完成一件事情。
工作的地點,並不影響工作的進行,即使是在美國總部,所有的工作也是在網路上,沒太大差別。
個人創作的的興起對於台灣出版業的衝擊,我想除了數位化、簡繁體中文之外,還有個人出版的興起。
技術的進步讓個人以部落格、vedio出版,都越來越容易。個人出版的內容,很多都很新鮮有趣,很吸引人。
在Google Vedio上,下載量最大的是個人創作的有趣影片,而不是好萊塢之類的電影。
那麼,出版社編輯的價值是不是不見了?Google是不是造成了危機?
我想Google無心造成危機,這個危機是全球化帶來的。在全球化趨勢之下,
品牌定於一尊,其他人只能做供應商。若出版商的加值鏈沒有創造獨特的東西,
不管是編輯還是什麼,若只是創作的話,在未來很容易被個人所取代。
趨勢、趨勢、趨勢我以使用的立場來看,數位化使流通變得更加容易,
但使用者未必願意掏錢買。只有最喜歡的東西,才能讓使用者願意花錢。
這時候,有名的作家會比出版社更重要,因為作家就是讀者所認識的品牌。
就如同唱片業,明星比業者更為人所知,也更影響消費者。
贏家通吃的趨勢,將會更加嚴重。

沒有留言: