IMEの辞書フォーマットの互換性について調べる
現在、日本語ではいくつかの異なるIMEが利用されています。[1]
主要なIMEには、いずれも独自のかな漢字変換を登録できる「ユーザ定義辞書」(名称は様々)機能があり、辞書のインポート/エクスポートが可能です。
そのため、複数人/複数デバイスで辞書を共有したり、IMEを乗り換える際に辞書データを引き継いだりすることができます。
しかしながら、各IMEは独自の辞書フォーマットを持っており、 複数のIME間で辞書資源を再利用するのは一筋縄では行きません。
しかも、 MS/Googleの2大主要IMEがファイルの正確な仕様を整理された一次情報の形で公開していない雰囲気でした。(あまりよく調べていないので、あったら教えてください。)
この記事では、主要なIMEの辞書フォーマットについて調査し、どのフォーマットが他のIMEで使用できるかをまとめます。
ここでは、主要なIMEとして、以下を対象とします。
- Microsoft 日本語IME (Windows)
- Google 日本語入力
- ATOK
- macOS 日本語IM (旧 ことえり)
ちなみに、MacOSでは日本語IMとは別にText Replacement機能でも辞書登録が可能です。こちらはplist形式で保存されており、また話が変わってくるので割愛。
これとは別に、SKKの事情も調べたかったのだけれど、闇が深いようでよくわからない ので 今回は見送り 。
卒業研究の中間報告の提出期限が迫るなか、どうしても個人的な興味で調べたくなったところで調査したものなので、あまり筋の良い出典に当たれていない点はご容赦ください……(よくわからない個人ブログに基づく情報が多分に含まれます)
#結論
↓ FROM TO → | MS | ATOK | macOS | |
---|---|---|---|---|
Microsoft 日本語IME | ✅ | ✅ | ✅ | ❌ |
Google日本語入力 | ❌ | ✅ | ⚠️ | ❌ |
ATOK | ✅ | ✅ | ✅ | ❌ |
macOS 日本語IM (or ことえり) | ❌ | ✅ | ✅ | ✅ |
#詳細な仕様
#Microsoft 日本語IME
1次情報がよくわからなかったのだけれど、こういう記事を見つけた。
- デフォルトの拡張子は
.txt
- フォーマットはタブ区切りテキスト
形式:
かな 変換後 品詞 コメント
品詞は、以下があるようです。比較的fine-grained。
Microsoft 日本語IMEの品詞一覧
- あわ行五段
- か行五段
- さ行五段
- た行五段
- な行五段
- ま行五段
- ら行五段
- が行五段
- ば行五段
- さ変動詞
- ざ変動詞
- 一段動詞
- 形容詞
- 形容詞ガル
- 形容詞ュウ
- 形容動詞
- 形容動詞ノ
- 形容動詞タル
- さ変名詞
- さ変名詞非接尾
- ざ変名詞
- 名詞
- 名詞非接尾
- 数量
- 数詞
- 姓
- 名
- 国
- 支庁
- 県
- 郡
- 区
- 市
- 町
- 村
- 駅
- 地名その他
- 社名
- 固有名詞
- 副詞
- 感動詞
- 接続詞
- 連体詞
- 慣用句
- 単漢字
- 接頭語
- 冠数詞
- 接尾語
- 助数詞
#Google日本語入力
こちらもよくわからないのだけれど、こんな記事 を見かけた。
それから、OSS版であるところのMozcのユーザ定義辞書インポート部分を読むと、まあまあ分かる。
- デフォルトの拡張子は
.txt
- フォーマットはタブ区切りテキスト
- 文字コードはUTF-8 BOMなし
形式:
かな 変換後 品詞 コメント
品詞の一覧は、以下らしい。
Google日本語入力の品詞一覧
- 名詞
- 短縮よみ
- 候補のみ
- 固有名詞
- 人名
- 姓
- 名
- 組織名
- 地名
- 名詞サ変
- 名詞形動
- 数字
- アルファベット
- 記号
- 顔文字
- 副詞
- 連体詞
- 接続詞
- 感動詞
- 接頭辞
- 助数詞
- 接尾一般
- 接尾人名
- 接尾地名
- 動詞ワ行五段
- 動詞カ行五段
- 動詞サ行五段
- 動詞タ行五段
- 動詞ナ行五段
- 動詞マ行五段
- 動詞ラ行五段
- 動詞ガ行五段
- 動詞バ行五段
- 動詞ハ行五段
- 動詞一般
- 動詞カ変
- 動詞サ変
- 動詞ザ変
- 動詞ラ変
- 形容詞
- 終助詞
- 句読点
- 独立語
- 抑制単語
#ATOK
ATOKの辞書フォーマットは、公式ドキュメントがわかりやすいです。
- デフォルトの拡張子は
.txt
- フォーマットはタブ区切りテキスト
- 文字コードはShift_JISが標準, オプションでUnicode(UTF-8?)も可[2]
形式1(必須項目のみ):
かな 変換後 品詞
形式2(オプション項目を含む):
かな 変換後 品詞 コメント 自動置換する/しない 置換候補1 置換候補2 ... 置換候補5
非常に整った品詞の一覧があります。
また、()内に示した番号でも指定できるのが特徴的です。
ATOKの品詞一覧
- 固有組織(6)
- 固有商品(7)
- 固有一般(8)
- 名詞サ変(9)
- 名詞ザ変(10)
- 名詞形動(11)
- 名サ形動(12)
- 形容詞(37)
- 形容詞ウ(38)
- 形容詞イ(68)
- 形容詞エ(69)
- 形容動詞(39)
- 形動タリ(40)
- カ行五段(23)
- ガ行五段(24)
- サ行五段(25)
- タ行五段(26)
- ナ行五段(27)
- バ行五段(28)
- マ行五段(29)
- ラ行五段(30)
- ワ行五段(31)
- ハ行四段(32)
- 一段動詞(33)
- カ変動詞(34)
- サ変動詞(35)
- ザ変動詞(36)
- ワ行五段音便(43)
- カ行五段特殊(72)
- ラ行五段特殊(73)
- ワ行五段特殊(71)
- ナ変動詞(44)
- ラ変動詞(45)
- カ行上二段(46)
- ガ行上二段(47)
- タ行上二段(48)
- ダ行上二段(49)
- ハ行上二段(50)
- バ行上二段(51)
- マ行上二段(52)
- ヤ行上二段(53)
- ラ行上二段(54)
- カ行下二段(55)
- ガ行下二段(56)
- サ行下二段(57)
- ザ行下二段(58)
- タ行下二段(59)
- ダ行下二段(60)
- ナ行下二段(61)
- ハ行下二段(62)
- バ行下二段(63)
- マ行下二段(64)
- ヤ行下二段(65)
- ラ行下二段(66)
- ワ行下二段(67)
- 顔文字(70)
- 短縮読み(74)
- 数詞(13)
- 副詞(14)
- 連体詞(15)
- 接続詞(16)
- 感動詞(17)
- 独立語(18)
- 接頭語(19)
- 冠数詞(20)
- 接尾語(21)
- 助数詞(22)
- 単漢字(41)
- 終助詞(42)
#macOS 日本語IM
公式ドキュメント があります。さすがApple。
- テキストファイル
- ASCIIカンマ区切り
形式1(コメントなし):
かな,変換後,品詞
形式2(コメントあり):
コメントの前のカンマが2つ連続である点が特徴的。
かな,変換後,品詞,,コメント
品詞の一覧も公式ドキュメントにあります。かなり貧困。
macOS 日本語IMの品詞一覧
- 普通名詞
- サ変名詞
- 人名
- 地名
- 形容詞
- 副詞
- 接尾語
- 動詞
- その他すべての品詞