Kazuhiro's BBS

http://green.ribbon.to/~ikazuhiro/にて提供しているソフトウェア及びパッチに関する質問、要望等あれば御記入下さい。

書き込み一覧

LDOCE4v2

By mutochan この投稿を引用

はじめまして。
OALD7を変換するツールを出されていたことを初めて知りました。
IDM形式を変換できるものは初めてなのではないでしょうか。
私は知識がないのでまだ何もできないのですが
LDOCE4v2 (LONGMAN Dictionary of Contemporary English UPDATED EDITION)
をEPWINGで使えるようになれば、とてもすばらしいことだと思います。
機会がありましたら、ご検討いただけたら幸いです。

No.29 2007/11/25 11:10:08

Re: LDOCE4v2

By kazuhiro URL このコメントを引用

LDOCE4v2を含め、他のいわゆるidm形式の辞書を購入する予定はありません。
従って、私自身がLDOCE4v2等の変換ツールを公開する可能性は極めて低いと思います。

http://ikazuhiro.s206.xrea.com/article.php/oald7_compress

に、OALD7で使用されている圧縮形式のついてのメモがありますので興味がおありでしたらご参照ください。
ただし、LDOCE4v2とどの程度共通しているかは不明です。

http://space.geocities.jp/pss2007x/

の様なツールもあるのでまるっきり違うということは無いと思いますが。

No.30 2007/11/26 10:30:49

Re: LDOCE4v2

By mutochan このコメントを引用

お返事ありがとうございます。
知識はまったくのゼロですが、少しずつでも勉強してみますね。

No.31 2007/11/27 19:12:47

フランス語版 Wikipedia

By matsugorou この投稿を引用

さっそくのご返答、ありがとうございます。

1.辞書タイトルはご指摘の方法で解決しました。

2.フランス語特殊文字が日本語の文字コード (JIS X 0208)で?に文字化けしてしまう課題。
   ご指摘の『tablesファイルのutf2euc_tableを編集して文字を追加すれば、』はまだ文字化けの???のままです。
   
   %utf2euc_table =
(
# (FULLWIDTH TILDE, U+FF5E) -> (WAVE DASH, U+301C)
"\xEF\xBD\x9E" => "\xE3\x80\x9C",
# (FULLWIDTH HYPHEN-MINUS, U+FF0D) -> (MINUS SIGN, U+2212)
"\xEF\xBC\x8D" => "\xE2\x88\x92",
'aacute' => 'a'',
'Aacute' => 'A'',
'eacute' => 'e'',
'Eacute' => 'E'',
'iacute' => 'i'',
'Iacute' => 'I'',
'oacute' => 'o'',
'Oacute' => 'O'',
'uacute' => 'u'',
中略
'Uuml' => 'U"',
'yuml' => 'y"',
'Yuml' => 'Y"',
'aelig' => 'ae',
'AElig' => 'AE',
'oelig' => 'oe',
'OElig' => 'oe',

"\xc2\xb2" => '^2',
);

$utf2euc_regexp = '(';
foreach $_ (keys(%utf2euc_table)) {
$utf2euc_regexp .= "$_|";
}
$utf2euc_regexp =~ s/\|$/\)/;

  以上のように書き加えて編集し、上書き保存したうえでWiki-fpw を1000件で2回、実験したところ。
DDwinでみると、以前とおなじように文字化けで???になります。


  外字を使うことで解決するようにおもわれるのですが。

  『FreePWINGのドキュメント』で説明されている、外字の生成、本文への外字の書き込み方法をhishida氏の配布されたLatin1(フランス語特殊文字あり)入りのGaijiMap.xmlとGaiji.xmlに応用するしかたが解りません。
  
もう少しで、、、完全なのですが、知識不足です。

  それでも、ザウルスで伏字つきでもWikipediaが読めることはすばらしいです。感謝しています。

  それと今回はkazuhiroさんにお教えいただいて、Linux,Perleは自分にはまったく関係のないものだったのが、暗号をといていくような楽しみを少し味わうことができました。

  Linuxの入門書をよんでいます。

ありがとうございました。

No.27 2007/11/12 02:37:05

Re: フランス語版 Wikipedia

By kazuhiro URL このコメントを引用

utf2euc_tableは、例えば
'æ' => 'ae',
の様に、ハッシュテーブルの要素は変換元の文字そのものを記述します。

また、Perlの一般的な事項ですが、アポストロフィ(')で囲まれた
文字列リテラル内でアポストロフィを使用する場合はエスケープしてください。
'á' => 'a\'',

No.28 2007/11/12 10:20:57

フランス語版 Wikipedia

By matsugorou この投稿を引用

Bonjour.

教えていただいたように、分冊にすることによって仏語版WikipediaのEPWING化変換になんとか成功しました。

ありがとうございます。
 
1.なんどやっても止まってしまう、Entry49729 Modèleはskip-headings に '^[Entry49729 Modele]', と書き込むことで通り抜けました。
   workarounds で対処すべきことなのでしょうか?

 2.フランス語特殊文字が日本語の文字コード (JIS X 0208)で?に文字化けしてしまう課題。
   ご指摘の『tablesファイルのutf2euc_tableを編集して文字を追加すれば、』で今日から解決策を探したいと思います。
   BSTudio のBSTudioのGaiji.Map.xmlおよびGaiji.xmlでは「Latin1」がすでに設定してあるとのことを知りました。どういうふうに具体的にいかせるかはまだまったくわからないのですが。研究したいと思います。

3.辞書タイトル、日本語版ウィキィペディアという記述は、EPWing変換後のファイル名をかえても残るのですが、変更可能でしょうか?

 ザウルスに変換した日本語版とフランス語版のWikipediaをいれて毎日使っています。
 ありがとうございました。

No.25 2007/11/10 18:45:07

Re: フランス語版 Wikipedia

By kazuhiro URL このコメントを引用

> 1.なんどやっても止まってしまう、Entry49729 Modèleはskip-headings に
> '^[Entry49729 Modele]', と書き込むことで通り抜けました。
>    workarounds で対処すべきことなのでしょうか?

具体的に何が原因で止まっているのか分からないのでなんとも言えません。
特定の項目だけスキップしたい場合は
'^Modèle$',
等のようにskip_headingsに追加してください。

> 3.辞書タイトル、日本語版ウィキィペディアという記述は、EPWing変換後のファイル名を
> かえても残るのですが、変更可能でしょうか?

catalogs.txtを編集してください。

No.26 2007/11/11 17:38:33

フランス語版 Wikipedia

By matsugorou この投稿を引用

Bonjour,
matsugorou です。
すぐにご返答いただきありがとうございます。

ご指摘のように、わたしがダウンロードしたファイルは間違いで、伸長前で600MBありました。伸長して2.9GBあります。

教えていただいた、「分冊して」ということでwikipedia-fpw.conf を編集しようとしているのですが、書き換え方がわかりません。
 以下の部分だろうといろいろメクラメッポウやってみましたが、ダメでした。Entry 7537 :Thomas Pyndonのところでいつも止まってしまいます。ちなみに全体のEntry数は114万7662件のようです。


# この正規表現にタイトルがマッチするページは書籍に収録されません。
#
my @skip_headings = (
'^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):',
'^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|’|・)+$',
# '^Category:.*操り人形だと疑われるユーザー',
);

my $skip_heading = '';

if (@skip_headings) {
foreach $heading (@skip_headings) {
$skip_heading .= '|'.$heading;
}
$skip_heading =~ s/^\|(.*)$/\($1\)/;
$fpwwikipedia_conf{'skip_heading'} = $skip_heading;
}

 AからL で1冊、M からZで 1冊、計2冊でまず、試してみたいと思います。それでだめなら3冊と。

 具体的にはどのような書き換えになるのでしょうか?

 お時間のあるときで結構です、お答え待ちしながら、Linux,Perl,正規表現の学習をしたいとおもいます。

 お元気で、
 

No.23 2007/11/06 08:12:37

Re: フランス語版 Wikipedia

By kazuhiro URL このコメントを引用

分冊は、例えば

my @skip_headings = (
'^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):',
'^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|’|・)+$',
'^[^a-mA-M]'
);

のようにしてA-Mで始まる見出しを収録し、書籍を保存してから

my @skip_headings = (
'^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):',
'^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|・|・)+$',
'^[a-mA-M]'
);

のようにしてA-M以外でで始まる見出しを収録すればよいと思います。
(確認はしていません)

ただし、Entry 7537で止まるというのは容量の問題ではなく
wikipedia-fpwのバグで止まっている可能性が高いように思います。
相互参照を無効にしても同じ場所で止まるか
一度確認したほうがよいと思います。

No.24 2007/11/07 03:53:23

フランス語版 Wikipedia

By matugorou この投稿を引用

kazuhiro さん はじめまして
wikipedia-fpw 公開ありがとうございました。まったくの初心者なものですから、cygwinもperle もはじめてです。3日かかりましたが、成功したときは感激しました。
 フランスに住んでいるので、フランス語のWikipedia はできないだろうか?とここ1週間、いろいろ勉強し、試してみましたが、やはりできません。

 仏語版のダンプデータは解凍して893.625kbでした。

1. fpw.conf を書き換える必要があると思うのですが、from to とか、、、。わかりません。
2. フランス語の文字コードは euc-frと書くのでしょうか、Latin-1 iso-8859-1, utf-8 のままでいいのでしょうか、、?

こういうことを勉強すればという方向でもおしえていただければ幸いです。よろしくお願いします。

No.21 2007/11/04 06:43:44

Re: フランス語版 Wikipedia

By kazuhiro URL このコメントを引用

出先でダウンロードできないので確認していませんが、
通常、文字コードを変更する必要はありません。
ただし、ソースは
http://download.wikimedia.org/frwiki/
だと思うのですが、伸長前の状態で600MB以上あるように思います。
JIS X 4081の収納効率の悪さ(アルファベットも含めていかなる文字も
2バイト必要)も考慮すると、そのままだと作成されるデータが
大きすぎると思います。

以前にこの掲示板で英語版について書いたように、wikipedia-fpw.conf を
編集して分冊する必要があると思います。

また、フランス語に特有の文字で日本語の文字コード (JIS X 0208) に
無いものは収録できず、'?' になります。
これについては、tablesファイルのutf2euc_tableを編集して文字を
追加すれば、ある程度は対応できるかもしれません。

No.22 2007/11/05 05:52:14

ファイルのパーミション

By 白井 URL この投稿を引用

こんにちは、白井です。

lookup の tarball ですが、UNIX 上でみると中に含まれているファイルで必要ないものにまで実行属性が付いているものが多々あります。例えば、lisp/*.el などなど。

% ls -la
total 760
drwxr-xr-x 2 ... Oct 8 19:23 .
drwxr-xr-x 5 ... Oct 8 19:23 ..
-rwxr--r-- 1 ... Oct 8 18:40 ChangeLog
-rwxr--r-- 1 ... Mar 13 2007 Makefile.am
-rw-r--r-- 1 ... May 29 23:00 Makefile.in
-rwxr--r-- 1 ... Nov 21 2005 README
-rwxr--r-- 1 ... Nov 21 2005 TODO
-rwxr--r-- 1 ... Nov 21 2005 evi-mule.el
-rwxr--r-- 1 ... Sep 24 16:45 evi.el
-rwxr--r-- 1 ... Nov 21 2005 lookup-compile.el
-rwxr--r-- 1 ... Sep 24 17:00 lookup-content.el
-rwxr--r-- 1 ... Nov 21 2005 lookup-entry.el
.....

Windows + cygwin で使っていると気づかないかも知れないのですが、やっぱり余分な実行属性が付いているのはよろしくないと思われます。ぼくも Meadow で新しく作った elisp ファイルを cvs commit して、後から叱られることがたまにありますが ^^;;;

もう一点、ndic.el の (point-min) に無駄な文字発見!!です。

;;; (exp 1) と同じ意味とは知らなかった。。。

No.15 2007/10/19 13:22:58

Re: ファイルのパーミション

By kazuhiro URL このコメントを引用

ご指摘ありがとうございます。

パーミッションについてはリリース前には一応気をつけていたのですが、
そういえば最近はサボっていたような気がします。

どうも、cvsのリポジトリを作った時に使ったのがcygwinではなく
Windows のバイナリだった為か、リポジトリのパーミッションからして
おかしかったようです。
Lookup についてはリポジトリのパーミッションを付け替えたので
次のリリースからは大量におかしなパーミッションがついたりはしないと思います。

それから、(point-min) の話が何を指しているのかよく分からなかったので
申し訳ありませんがもう少し詳しく教えていただけないでしょうか?

No.16 2007/10/19 23:02:45

Re: ファイルのパーミション

By 白井 URL このコメントを引用

こんにちは、白井です。

> 次のリリースからは大量におかしなパーミッションがついたりはしないと思います。

よろしくお願いします。

> (point-min) の話が何を指しているのかよく分からなかった

あら、ズバリ書けば良かったですね。お手数をお掛けしました。lookup の tarball を貰ってきて展開だけした状態で

% head -1 lookup-1.4+media-20071008/lisp/ndic.el
e;;; ndic.el --- Lookup by free dictionaries

と 'e' が行頭に入っています。知らなかったのですが e はその文字だけで自然対数の底を表わすようです。そのため、エラーにはならないのでしょうね。

e => 2.718281828459045

No.18 2007/10/22 09:58:48

Re: ファイルのパーミション

By kazuhiro URL このコメントを引用

解説ありがとうございます。鈍くてすいません。
これも修正しておきましたので、次のリリースで直ります。

ちなみに、オリジナルのLookup 1.4の時点で既にそうなっていました。

No.19 2007/10/22 12:26:05

Re: ファイルのパーミション

By 白井 URL このコメントを引用

> オリジナルのLookup 1.4の時点で既にそうなっていました。

あら本当だ。なんで今までだれも気づかないかなぁ。。。
ぼくは、sdic も使っているので、その辺をいじるために ndic.el を開いて気づいたんですけどね (^_^)

No.20 2007/10/22 13:07:59

OALDの記号について

By Hiro この投稿を引用

OALD7変換スクリプト、活用させていただいております。
ありがとうございます。

さて、例えばexplainをOALD7で調べると、
Can you explain the situation to me?
×Can you explain me the situation?
というふうに、×印で誤用を明記してあります。

ところが、変換スクリプトでepwingにしたものは、×印が表示されず、
両方とも正しい例文であるかのように表示されてしまいます。

×印を正しくepwingに変換する方法はありますでしょうか?

No.11 2007/10/01 20:06:55

Re: OALDの記号について

By Hiro このコメントを引用

たびたびすみません。

×印で誤用が示してあるのは、シャープの電子辞書版のOALDでした。
CDROM版のには、打ち消し線が引かれていますね。
これだと、技術的に難しいかも知れませんが、
用例と誤用の区別がつかないのも困るので、何かよい方法があったらお聞かせ下さい。

No.12 2007/10/01 20:21:06

Re: OALDの記号について

By kazuhiro URL このコメントを引用

JIS X 4081では打ち消し線というものは多分ないと思います。
電子辞書版のように×印をつけてみましたので

http://green.ribbon.to/~ikazuhiro/dic/files/tmp/fpwoald7

をダウンロードして差し替えた後、
fpwmake clean
fpwmake
で再度変換してみてください。

No.13 2007/10/02 00:38:47

Re: OALDの記号について

By Hiro このコメントを引用

素早い対応ありがとうございます。
早速試してみましたが、完璧です。

本当に良いものを、ありがとうございました。

No.14 2007/10/02 02:01:52

以下のフォームに記事No.と投稿時のパスワードを入力すれば、 投稿後に記事の編集や削除が行えます。

73/200件 [ ページ : << 1 2 3 4 5 6 7 8 9 10 11 >> ]

- HOME - お知らせ(3/8) - 記事検索 - 携帯用URL - フィード - ヘルプ - メール - 環境設定 -

Rocket Board Type-X (Free) Rocket BBS