2013年1月26日

還文於民


記錄傳承臺灣的歷史和文化,除了要靠「人」來寫之外,用來寫作的「文字」同樣重要。在這世界上,臺灣在用的正體中文只能靠臺灣自已保存和維護。這件事,教育部責無旁貸。

相信也是有這樣的覺悟,教育部提供了好幾個線上辭典,如《教育部電子辭典》、《教育部重編國語辭典修訂本》、小學程度專用的《國語小字典》、以及內建三隻小豬的《成語典》等等。

因為有在學的孩子,幾年來我不時會查這些辭典,發現了一些問題。我在 2008 年寫的《一蹶不振》一文是和《國語小字典》的注音有關,這裡講講其他問題。

查詢功能不時會失效

寫這篇文的時候,《教育部電子辭典》(http://140.111.34.54/e_dictionary.aspx#)的查詢功能就是爛掉的。

我說啊,解釋文字的電子辭典沒有文字網址只有數字 IP,誰來解釋給我聽一下?

不需登入的網頁會自動把你登出

不論按 Cancel 或是 OK,一律回到《成語典》的首頁。Stateless 的 HTTP、又沒有登入,有什麼理由不能讓使用者停留在結果頁,一定要把使用者登出?是要證明你和銀行網頁一樣專業嗎?

查個東西需要 N 次點擊

以《成語典》為例,至少需要五動才能看到「一蹶不振」這個成語的解釋:

  1. 連進首頁, flash 動畫
  2. 按 Skip -> 搜尋入口頁, flash 動畫
  3. 搜尋「一蹶」 -> 搜尋結果頁
  4. 點擊「一蹶不振」 -> 大樹頁
  5. 點擊「用法」 -> 彈出視窗
  6. 如果想進一步查相關的資料,要下拉捲軸才能看到音讀與釋義、典源、書證、用法說明、辨識、參考詞語這些連結。

用慣 Google、Yahoo! 這些搜尋引擎的人,通常只花「進首頁」、「打搜尋字按 ENTER」二動甚至用瀏覽器的搜尋列一動得到結果,五動根本是不可思議!

問題真是罄竹難書

設計良好的網站,不用讀「使用手冊」就能自行摸索出用法,想想 Plurk、Facebook、GMail、搜尋引擎就知道。

為小學生設計的《國語小字典》有些什麼問題?不用我來說,看他有個「使用說明」就有譜了吧?看看裡面的「常見問題」更是清楚,我節錄幾則:

問題03: 使用瀏覽器Internet Explorer 9.0版本(以下簡稱IE9)時,部分畫面會出現字體重疊的狀況,該如何解決?
解 答: 可試以下列方式解決:開啟瀏覽器IE9→按下鍵盤上的F12鍵→於自動開啟的新視窗上方功能列表點選「瀏覽器模式」→點選Internet Explorer 8或Internet Explorer 7作為瀏覽器模式。
問題04: 為什麼有時候會出現系統登出的訊息?
解 答: 為維護連線速度品質,當閒置太久時系統會自動登出,以管制流量,只要回到首頁即可重新查詢。
問題07: 為什麼「圖片索引」中某些黑白圖片不太清晰?
解 答: 本典收有部分線條較細的黑白線描圖,縮小成索引圖檔時呈現不清晰的狀況,將陸續檢討並更新。

問題的根源是什麼?

我見過一些官員,他們很清楚政府和民間的界限:政府不該親自下來做商業公司能做、或是會做得比政府好的事,而是該創造大環境(或小環境),讓人民有機會發展。

但是教育部親自建字典應用網站這件事,其實就跨過了這個界限。

教育部在這件事的天職是把字典的內容弄對(啊我又想到三隻小豬),至於字典要如何呈現、網頁應如何設計才會有好的使用者體驗、用 Flash 還是 HTML5 技術、如何和最多瀏覽器相容、該不該有手機版、要不要做手機 App、要買多少主機才能負荷流量需求、如何維持主機 24x7 運轉... 這些事,是民間公司的專長。何況網路技術一日千里,教育部不該花納稅人的錢苦苦追趕技術,也不必外包給廠商去追技術。

只要把資料公開就好。


捲起袖子,動手解決問題

所以我要響應零時政府 g0v.tw 的活動,來做 3du.tw,把字、詞、成語、定義、例句等等正體中文資料,用開放的文字 API 釋放出來,加上索引和搜尋的功能,讓任何想加值的個人或公司都可以使用。

教育部網頁上都寫版權所有耶!」你說。「這樣沒有法律問題嗎?」

拿公司薪水的員工在上班期間產出的智慧財產,屬於公司所有,應該沒有疑問吧?

那拿納稅人薪水的教育部在上班期間用納稅人的錢產出的智慧財產,納稅人就算所有權因為太多人不好處理,有使用權難道不是天經地義嗎?

我會遠距參加 1/27 的台灣零時政府第壹次公地放領黑客松,希望能找到同好,一起來做資料收集、資料庫、索引、搜尋、API 等等的工作,也歡迎對 API client 有興趣的朋友,來寫個範例網頁或範例手機 App 給大家聞香一下。沒報到名又想參與的朋友,可以在噗浪上發私噗給我 @pingooo。

這只是「還文於民」的第一步,之後還要細水長流,可以做的事還很多呢!

溫故而知新照片所有人是 Kanko*,依 CC-by 2.0 授權條款使用。)

22 則留言 :

  1. 依著作權法第九條規定
    政府著作不具有著作權保障

    回覆刪除
    回覆
    1. 這個說法不對,沒有著作權的只有特定的公文書,不是全部。

      引自 http://www.copyrightnote.org/crnote/bbs.php?board=9&act=read&id=55
      除著作權法第九條第一項第一款、第二款所定「不得為著作權之標的」的政府出版品外,受著作權法保護的政府出版品,包括第五十條「以中央或地方機關或公法人名義公開發表之著作」,尚及於「政府機關所屬之學校」及「以政府機關及其所屬機構、學校之經費」出版或發行的著作,應注意的是其著作人與著作財產權歸屬的問題。

      刪除
    2. 是。這個活動所據的是著作權法第50條:

      以中央或地方機關或公法人之名義公開發表之著作,在合理範圍內,得重製、公開播送或公開傳輸。

      我參與的一小部份,附上 README 如右: http://www.audreyt.org/newdict/README.txt

      刪除
    3. 我只是對這篇講的沒有法律問題提出看法而已,當然您只抓前三千字應該算合理使用,但是如果要全部砍走那又是另一回事,這的確是有著作權的問題的。

      刪除
  2. 我沒有計畫參加 g0v.tw ,但對這計畫有興趣,
    這計畫如果有需要作 parser 、處理資料寫些 client 的地方,我願意參一腳。

    回覆刪除
  3. 我也有興趣參加這個計劃,如果有需要幫忙的地方,我也可以來幫忙。

    回覆刪除
  4. 記得教育部的辭典有光碟版, 查了一下有這篇:
    http://www.stat.gov.tw/ct.asp?xItem=4971&ctNode=5637
    以及 Jedi 有這篇:
    http://jedi.org/blog/archives/005809.html

    回覆刪除
  5. 原來這也可以算是 open data 嗎……!
    我對這個與文字有關的計畫很有興趣,如果要推動的話,請務必讓我加入。

    回覆刪除
  6. 奇怪了我怎麼一直不能回覆,是留言中有網址的關係嗎?

    我也曾經以JavaScript設計了「教育部國語辭典Pro」(請以Google搜尋),當初就是因為受不了教育部字典可笑的使用者介面和「不永久」網址,但哪來一部繁中字典比得上它的資料量呢?雖恨卻不得不用啊!

    如果有機會參與你的計畫,請務必通知我!

    回覆刪除
  7. 這是我很常用的服務,我也想參加這個計畫!

    回覆刪除
  8. 視覺設計有需要幫忙請讓我知道 ;)

    回覆刪除
  9. 我是歷史系的學生,也認識一些中文系的朋友。
    自己有在自學PHP和MYSQL。
    如果不嫌棄,我也願意參與計畫與協助:)

    回覆刪除
    回覆
    1. 您好,目前主要需要幫忙的是把教育部的造字和 Unicode 的實際字碼統合。

      想參與的各位,請到這裡編輯 :

      https://hackpad.com/3du.tw-Unicode-Map-uGgOPAFgxDM

      這張表是 medicalw1i、kcwu、gugod 和我整理後,尚未找到對應的字。之前有找到的,例如 966a 是<幽懷賦>作者李翶的「翶」,fa4c 是<國語.魯語上>罜䍡的「䍡」等等,也歡迎校訂:

      https://dl.dropbox.com/u/4582065/characters/characters.html

      刪除
    2. #3du #g0v 不到 24 小時,「𧮫𡧮𢬵㹠䒷鞼䴈䆉㔶㟏䁮㡛㺎䛟䰖㯶㲪㧙䁆㘉䔿䞤䉛䫜㩍䇓䃴㩴㣥䞟䋶䍮䍤䬀䰄䚻㺜䍽䱇㵣䄙䬠」等三百多字已全數初步檢字完畢,資料後續整理中。非常感謝所有 Hackpad 共筆朋友的幫忙! m(_ _)m

      刪除
    3. 單字定義部份全部檢字完畢之後,笨貓 Yao Wei 又找出了詞條定義部份用到的 463 字,目前 round 2 進行中,網址仍在:

      https://hackpad.com/3du.tw-Unicode-Map-uGgOPAFgxDM

      刪除
    4. 第二輪 463 字已全部檢完,成果詳見 https://github.com/g0v/moedict-epub/blob/master/sym.txt 。

      絕大部份的字 Han Nom A+B ( http://vietunicode.sourceforge.net/fonts/fonts_hannom.html )都能顯示,但有兩字例外,附通同字如下:

      9255 廨 <= U+2A818
      fc49 旼 <= U+2AC0B

      再次感謝大家協力襄助。

      刪除
  10. http://www.facebook.com/events/137803063050340/
    平反鄭大為教練之法庭關鍵戰役

    鄭大為的律師主辦,鄭大為的律師為了幫助鄭大為,直到現在一分錢未取。

    還請大家支持,還給台灣一個乾淨不民粹的體育空間。

    回覆刪除
  11. 捲起袖子動手作,貢獻部份己力,小弟會著手利用 HTML5 + XULRunner 寫離線跨平台之桌面應用程式。
    https://github.com/racklin/moe-dictionary-app

    回覆刪除
  12. 插個花,重編國語辭典修訂本嚴格來說不是教育部寫的,也不是教育部員工寫的(非公務人員),所以要用公文書來認定它不受著作權規範是有問題的,請仔細看辭典裡附了約百人的編輯群,著作權認真來說是這些人的。退一步來看,辭典內容仍然是經過編輯和寫作,與一般公文書性質相異。那也許有人會問:不是教育部出錢請這些人編寫的嗎?而且辭典都寫了版權屬教育部所有。嗯... 這是個複雜的問題,有興趣的人可以自己找資料或討論,我只是想說萌典或欄主的作法目前是遊走在灰色地帶,但絕不是毫無法律問題的,因此在做這些事時,最好也考慮如何保護自己。

    回覆刪除
  13. 這計劃太酷了~
    給作者一個鼓勵!

    回覆刪除
  14. 這計劃太酷了!
    給作者一個鼓勵~

    回覆刪除