http://green.ribbon.to/~ikazuhiro/にて提供しているソフトウェア及びパッチに関する質問、要望等あれば御記入下さい。
By mutochan この投稿を引用
はじめまして。OALD7を変換するツールを出されていたことを初めて知りました。IDM形式を変換できるものは初めてなのではないでしょうか。私は知識がないのでまだ何もできないのですがLDOCE4v2 (LONGMAN Dictionary of Contemporary English UPDATED EDITION)をEPWINGで使えるようになれば、とてもすばらしいことだと思います。機会がありましたら、ご検討いただけたら幸いです。
No.29 2007/11/25 11:10:08
By kazuhiro このコメントを引用
LDOCE4v2を含め、他のいわゆるidm形式の辞書を購入する予定はありません。従って、私自身がLDOCE4v2等の変換ツールを公開する可能性は極めて低いと思います。http://ikazuhiro.s206.xrea.com/article.php/oald7_compressに、OALD7で使用されている圧縮形式のついてのメモがありますので興味がおありでしたらご参照ください。ただし、LDOCE4v2とどの程度共通しているかは不明です。http://space.geocities.jp/pss2007x/の様なツールもあるのでまるっきり違うということは無いと思いますが。
No.30 2007/11/26 10:30:49
By mutochan このコメントを引用
お返事ありがとうございます。知識はまったくのゼロですが、少しずつでも勉強してみますね。
No.31 2007/11/27 19:12:47
By matsugorou この投稿を引用
さっそくのご返答、ありがとうございます。1.辞書タイトルはご指摘の方法で解決しました。2.フランス語特殊文字が日本語の文字コード (JIS X 0208)で?に文字化けしてしまう課題。 ご指摘の『tablesファイルのutf2euc_tableを編集して文字を追加すれば、』はまだ文字化けの???のままです。 %utf2euc_table = ( # (FULLWIDTH TILDE, U+FF5E) -> (WAVE DASH, U+301C) "\xEF\xBD\x9E" => "\xE3\x80\x9C", # (FULLWIDTH HYPHEN-MINUS, U+FF0D) -> (MINUS SIGN, U+2212) "\xEF\xBC\x8D" => "\xE2\x88\x92", 'aacute' => 'a'', 'Aacute' => 'A'', 'eacute' => 'e'', 'Eacute' => 'E'', 'iacute' => 'i'', 'Iacute' => 'I'', 'oacute' => 'o'', 'Oacute' => 'O'', 'uacute' => 'u'', 中略 'Uuml' => 'U"', 'yuml' => 'y"', 'Yuml' => 'Y"', 'aelig' => 'ae', 'AElig' => 'AE', 'oelig' => 'oe', 'OElig' => 'oe', "\xc2\xb2" => '^2', );$utf2euc_regexp = '(';foreach $_ (keys(%utf2euc_table)) { $utf2euc_regexp .= "$_|";}$utf2euc_regexp =~ s/\|$/\)/; 以上のように書き加えて編集し、上書き保存したうえでWiki-fpw を1000件で2回、実験したところ。DDwinでみると、以前とおなじように文字化けで???になります。 外字を使うことで解決するようにおもわれるのですが。 『FreePWINGのドキュメント』で説明されている、外字の生成、本文への外字の書き込み方法をhishida氏の配布されたLatin1(フランス語特殊文字あり)入りのGaijiMap.xmlとGaiji.xmlに応用するしかたが解りません。 もう少しで、、、完全なのですが、知識不足です。 それでも、ザウルスで伏字つきでもWikipediaが読めることはすばらしいです。感謝しています。 それと今回はkazuhiroさんにお教えいただいて、Linux,Perleは自分にはまったく関係のないものだったのが、暗号をといていくような楽しみを少し味わうことができました。 Linuxの入門書をよんでいます。ありがとうございました。
No.27 2007/11/12 02:37:05
utf2euc_tableは、例えば 'æ' => 'ae',の様に、ハッシュテーブルの要素は変換元の文字そのものを記述します。また、Perlの一般的な事項ですが、アポストロフィ(')で囲まれた文字列リテラル内でアポストロフィを使用する場合はエスケープしてください。 'á' => 'a\'',
No.28 2007/11/12 10:20:57
Bonjour.教えていただいたように、分冊にすることによって仏語版WikipediaのEPWING化変換になんとか成功しました。ありがとうございます。 1.なんどやっても止まってしまう、Entry49729 Modèleはskip-headings に '^[Entry49729 Modele]', と書き込むことで通り抜けました。 workarounds で対処すべきことなのでしょうか? 2.フランス語特殊文字が日本語の文字コード (JIS X 0208)で?に文字化けしてしまう課題。 ご指摘の『tablesファイルのutf2euc_tableを編集して文字を追加すれば、』で今日から解決策を探したいと思います。 BSTudio のBSTudioのGaiji.Map.xmlおよびGaiji.xmlでは「Latin1」がすでに設定してあるとのことを知りました。どういうふうに具体的にいかせるかはまだまったくわからないのですが。研究したいと思います。3.辞書タイトル、日本語版ウィキィペディアという記述は、EPWing変換後のファイル名をかえても残るのですが、変更可能でしょうか? ザウルスに変換した日本語版とフランス語版のWikipediaをいれて毎日使っています。 ありがとうございました。
No.25 2007/11/10 18:45:07
> 1.なんどやっても止まってしまう、Entry49729 Modèleはskip-headings に> '^[Entry49729 Modele]', と書き込むことで通り抜けました。> workarounds で対処すべきことなのでしょうか?具体的に何が原因で止まっているのか分からないのでなんとも言えません。特定の項目だけスキップしたい場合は'^Modèle$',等のようにskip_headingsに追加してください。> 3.辞書タイトル、日本語版ウィキィペディアという記述は、EPWing変換後のファイル名を> かえても残るのですが、変更可能でしょうか?catalogs.txtを編集してください。
No.26 2007/11/11 17:38:33
Bonjour, matsugorou です。すぐにご返答いただきありがとうございます。ご指摘のように、わたしがダウンロードしたファイルは間違いで、伸長前で600MBありました。伸長して2.9GBあります。教えていただいた、「分冊して」ということでwikipedia-fpw.conf を編集しようとしているのですが、書き換え方がわかりません。 以下の部分だろうといろいろメクラメッポウやってみましたが、ダメでした。Entry 7537 :Thomas Pyndonのところでいつも止まってしまいます。ちなみに全体のEntry数は114万7662件のようです。# この正規表現にタイトルがマッチするページは書籍に収録されません。#my @skip_headings = ( '^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):', '^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|’|・)+$', # '^Category:.*操り人形だと疑われるユーザー', );my $skip_heading = '';if (@skip_headings) { foreach $heading (@skip_headings) { $skip_heading .= '|'.$heading; } $skip_heading =~ s/^\|(.*)$/\($1\)/; $fpwwikipedia_conf{'skip_heading'} = $skip_heading;} AからL で1冊、M からZで 1冊、計2冊でまず、試してみたいと思います。それでだめなら3冊と。 具体的にはどのような書き換えになるのでしょうか? お時間のあるときで結構です、お答え待ちしながら、Linux,Perl,正規表現の学習をしたいとおもいます。 お元気で、
No.23 2007/11/06 08:12:37
分冊は、例えばmy @skip_headings = ( '^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):', '^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|’|・)+$', '^[^a-mA-M]');のようにしてA-Mで始まる見出しを収録し、書籍を保存してからmy @skip_headings = ( '^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):', '^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|・|・)+$', '^[a-mA-M]' );のようにしてA-M以外でで始まる見出しを収録すればよいと思います。(確認はしていません)ただし、Entry 7537で止まるというのは容量の問題ではなくwikipedia-fpwのバグで止まっている可能性が高いように思います。相互参照を無効にしても同じ場所で止まるか一度確認したほうがよいと思います。
No.24 2007/11/07 03:53:23
By matugorou この投稿を引用
kazuhiro さん はじめましてwikipedia-fpw 公開ありがとうございました。まったくの初心者なものですから、cygwinもperle もはじめてです。3日かかりましたが、成功したときは感激しました。 フランスに住んでいるので、フランス語のWikipedia はできないだろうか?とここ1週間、いろいろ勉強し、試してみましたが、やはりできません。 仏語版のダンプデータは解凍して893.625kbでした。1. fpw.conf を書き換える必要があると思うのですが、from to とか、、、。わかりません。2. フランス語の文字コードは euc-frと書くのでしょうか、Latin-1 iso-8859-1, utf-8 のままでいいのでしょうか、、?こういうことを勉強すればという方向でもおしえていただければ幸いです。よろしくお願いします。
No.21 2007/11/04 06:43:44
出先でダウンロードできないので確認していませんが、通常、文字コードを変更する必要はありません。ただし、ソースはhttp://download.wikimedia.org/frwiki/だと思うのですが、伸長前の状態で600MB以上あるように思います。JIS X 4081の収納効率の悪さ(アルファベットも含めていかなる文字も2バイト必要)も考慮すると、そのままだと作成されるデータが大きすぎると思います。以前にこの掲示板で英語版について書いたように、wikipedia-fpw.conf を編集して分冊する必要があると思います。また、フランス語に特有の文字で日本語の文字コード (JIS X 0208) に無いものは収録できず、'?' になります。これについては、tablesファイルのutf2euc_tableを編集して文字を追加すれば、ある程度は対応できるかもしれません。
No.22 2007/11/05 05:52:14
By 白井 この投稿を引用
こんにちは、白井です。lookup の tarball ですが、UNIX 上でみると中に含まれているファイルで必要ないものにまで実行属性が付いているものが多々あります。例えば、lisp/*.el などなど。% ls -latotal 760drwxr-xr-x 2 ... Oct 8 19:23 .drwxr-xr-x 5 ... Oct 8 19:23 ..-rwxr--r-- 1 ... Oct 8 18:40 ChangeLog-rwxr--r-- 1 ... Mar 13 2007 Makefile.am-rw-r--r-- 1 ... May 29 23:00 Makefile.in-rwxr--r-- 1 ... Nov 21 2005 README-rwxr--r-- 1 ... Nov 21 2005 TODO-rwxr--r-- 1 ... Nov 21 2005 evi-mule.el-rwxr--r-- 1 ... Sep 24 16:45 evi.el-rwxr--r-- 1 ... Nov 21 2005 lookup-compile.el-rwxr--r-- 1 ... Sep 24 17:00 lookup-content.el-rwxr--r-- 1 ... Nov 21 2005 lookup-entry.el .....Windows + cygwin で使っていると気づかないかも知れないのですが、やっぱり余分な実行属性が付いているのはよろしくないと思われます。ぼくも Meadow で新しく作った elisp ファイルを cvs commit して、後から叱られることがたまにありますが ^^;;;もう一点、ndic.el の (point-min) に無駄な文字発見!!です。;;; (exp 1) と同じ意味とは知らなかった。。。
No.15 2007/10/19 13:22:58
ご指摘ありがとうございます。パーミッションについてはリリース前には一応気をつけていたのですが、そういえば最近はサボっていたような気がします。どうも、cvsのリポジトリを作った時に使ったのがcygwinではなくWindows のバイナリだった為か、リポジトリのパーミッションからしておかしかったようです。Lookup についてはリポジトリのパーミッションを付け替えたので次のリリースからは大量におかしなパーミッションがついたりはしないと思います。それから、(point-min) の話が何を指しているのかよく分からなかったので申し訳ありませんがもう少し詳しく教えていただけないでしょうか?
No.16 2007/10/19 23:02:45
By 白井 このコメントを引用
こんにちは、白井です。> 次のリリースからは大量におかしなパーミッションがついたりはしないと思います。よろしくお願いします。> (point-min) の話が何を指しているのかよく分からなかったあら、ズバリ書けば良かったですね。お手数をお掛けしました。lookup の tarball を貰ってきて展開だけした状態で% head -1 lookup-1.4+media-20071008/lisp/ndic.ele;;; ndic.el --- Lookup by free dictionariesと 'e' が行頭に入っています。知らなかったのですが e はその文字だけで自然対数の底を表わすようです。そのため、エラーにはならないのでしょうね。e => 2.718281828459045
No.18 2007/10/22 09:58:48
解説ありがとうございます。鈍くてすいません。これも修正しておきましたので、次のリリースで直ります。ちなみに、オリジナルのLookup 1.4の時点で既にそうなっていました。
No.19 2007/10/22 12:26:05
> オリジナルのLookup 1.4の時点で既にそうなっていました。あら本当だ。なんで今までだれも気づかないかなぁ。。。ぼくは、sdic も使っているので、その辺をいじるために ndic.el を開いて気づいたんですけどね (^_^)
No.20 2007/10/22 13:07:59
By Hiro この投稿を引用
OALD7変換スクリプト、活用させていただいております。ありがとうございます。さて、例えばexplainをOALD7で調べると、 Can you explain the situation to me?×Can you explain me the situation?というふうに、×印で誤用を明記してあります。ところが、変換スクリプトでepwingにしたものは、×印が表示されず、両方とも正しい例文であるかのように表示されてしまいます。×印を正しくepwingに変換する方法はありますでしょうか?
No.11 2007/10/01 20:06:55
By Hiro このコメントを引用
たびたびすみません。×印で誤用が示してあるのは、シャープの電子辞書版のOALDでした。CDROM版のには、打ち消し線が引かれていますね。これだと、技術的に難しいかも知れませんが、用例と誤用の区別がつかないのも困るので、何かよい方法があったらお聞かせ下さい。
No.12 2007/10/01 20:21:06
JIS X 4081では打ち消し線というものは多分ないと思います。電子辞書版のように×印をつけてみましたのでhttp://green.ribbon.to/~ikazuhiro/dic/files/tmp/fpwoald7をダウンロードして差し替えた後、fpwmake cleanfpwmakeで再度変換してみてください。
No.13 2007/10/02 00:38:47
素早い対応ありがとうございます。早速試してみましたが、完璧です。本当に良いものを、ありがとうございました。
No.14 2007/10/02 02:01:52
以下のフォームに記事No.と投稿時のパスワードを入力すれば、 投稿後に記事の編集や削除が行えます。