Kazuhiro's BBS

http://green.ribbon.to/~ikazuhiro/にて提供しているソフトウェア及びパッチに関する質問、要望等あれば御記入下さい。

書き込み一覧

フランス語版 Wikipedia

By matsugorou この投稿を引用

さっそくのご返答、ありがとうございます。

1.辞書タイトルはご指摘の方法で解決しました。

2.フランス語特殊文字が日本語の文字コード (JIS X 0208)で?に文字化けしてしまう課題。
   ご指摘の『tablesファイルのutf2euc_tableを編集して文字を追加すれば、』はまだ文字化けの???のままです。
   
   %utf2euc_table =
(
# (FULLWIDTH TILDE, U+FF5E) -> (WAVE DASH, U+301C)
"\xEF\xBD\x9E" => "\xE3\x80\x9C",
# (FULLWIDTH HYPHEN-MINUS, U+FF0D) -> (MINUS SIGN, U+2212)
"\xEF\xBC\x8D" => "\xE2\x88\x92",
'aacute' => 'a'',
'Aacute' => 'A'',
'eacute' => 'e'',
'Eacute' => 'E'',
'iacute' => 'i'',
'Iacute' => 'I'',
'oacute' => 'o'',
'Oacute' => 'O'',
'uacute' => 'u'',
中略
'Uuml' => 'U"',
'yuml' => 'y"',
'Yuml' => 'Y"',
'aelig' => 'ae',
'AElig' => 'AE',
'oelig' => 'oe',
'OElig' => 'oe',

"\xc2\xb2" => '^2',
);

$utf2euc_regexp = '(';
foreach $_ (keys(%utf2euc_table)) {
$utf2euc_regexp .= "$_|";
}
$utf2euc_regexp =~ s/\|$/\)/;

  以上のように書き加えて編集し、上書き保存したうえでWiki-fpw を1000件で2回、実験したところ。
DDwinでみると、以前とおなじように文字化けで???になります。


  外字を使うことで解決するようにおもわれるのですが。

  『FreePWINGのドキュメント』で説明されている、外字の生成、本文への外字の書き込み方法をhishida氏の配布されたLatin1(フランス語特殊文字あり)入りのGaijiMap.xmlとGaiji.xmlに応用するしかたが解りません。
  
もう少しで、、、完全なのですが、知識不足です。

  それでも、ザウルスで伏字つきでもWikipediaが読めることはすばらしいです。感謝しています。

  それと今回はkazuhiroさんにお教えいただいて、Linux,Perleは自分にはまったく関係のないものだったのが、暗号をといていくような楽しみを少し味わうことができました。

  Linuxの入門書をよんでいます。

ありがとうございました。

No.27 2007/11/12 02:37:05

Re: フランス語版 Wikipedia

By kazuhiro URL このコメントを引用

utf2euc_tableは、例えば
'æ' => 'ae',
の様に、ハッシュテーブルの要素は変換元の文字そのものを記述します。

また、Perlの一般的な事項ですが、アポストロフィ(')で囲まれた
文字列リテラル内でアポストロフィを使用する場合はエスケープしてください。
'á' => 'a\'',

No.28 2007/11/12 10:20:57

フランス語版 Wikipedia

By matsugorou この投稿を引用

Bonjour.

教えていただいたように、分冊にすることによって仏語版WikipediaのEPWING化変換になんとか成功しました。

ありがとうございます。
 
1.なんどやっても止まってしまう、Entry49729 Modèleはskip-headings に '^[Entry49729 Modele]', と書き込むことで通り抜けました。
   workarounds で対処すべきことなのでしょうか?

 2.フランス語特殊文字が日本語の文字コード (JIS X 0208)で?に文字化けしてしまう課題。
   ご指摘の『tablesファイルのutf2euc_tableを編集して文字を追加すれば、』で今日から解決策を探したいと思います。
   BSTudio のBSTudioのGaiji.Map.xmlおよびGaiji.xmlでは「Latin1」がすでに設定してあるとのことを知りました。どういうふうに具体的にいかせるかはまだまったくわからないのですが。研究したいと思います。

3.辞書タイトル、日本語版ウィキィペディアという記述は、EPWing変換後のファイル名をかえても残るのですが、変更可能でしょうか?

 ザウルスに変換した日本語版とフランス語版のWikipediaをいれて毎日使っています。
 ありがとうございました。

No.25 2007/11/10 18:45:07

Re: フランス語版 Wikipedia

By kazuhiro URL このコメントを引用

> 1.なんどやっても止まってしまう、Entry49729 Modèleはskip-headings に
> '^[Entry49729 Modele]', と書き込むことで通り抜けました。
>    workarounds で対処すべきことなのでしょうか?

具体的に何が原因で止まっているのか分からないのでなんとも言えません。
特定の項目だけスキップしたい場合は
'^Modèle$',
等のようにskip_headingsに追加してください。

> 3.辞書タイトル、日本語版ウィキィペディアという記述は、EPWing変換後のファイル名を
> かえても残るのですが、変更可能でしょうか?

catalogs.txtを編集してください。

No.26 2007/11/11 17:38:33

フランス語版 Wikipedia

By matsugorou この投稿を引用

Bonjour,
matsugorou です。
すぐにご返答いただきありがとうございます。

ご指摘のように、わたしがダウンロードしたファイルは間違いで、伸長前で600MBありました。伸長して2.9GBあります。

教えていただいた、「分冊して」ということでwikipedia-fpw.conf を編集しようとしているのですが、書き換え方がわかりません。
 以下の部分だろうといろいろメクラメッポウやってみましたが、ダメでした。Entry 7537 :Thomas Pyndonのところでいつも止まってしまいます。ちなみに全体のEntry数は114万7662件のようです。


# この正規表現にタイトルがマッチするページは書籍に収録されません。
#
my @skip_headings = (
'^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):',
'^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|’|・)+$',
# '^Category:.*操り人形だと疑われるユーザー',
);

my $skip_heading = '';

if (@skip_headings) {
foreach $heading (@skip_headings) {
$skip_heading .= '|'.$heading;
}
$skip_heading =~ s/^\|(.*)$/\($1\)/;
$fpwwikipedia_conf{'skip_heading'} = $skip_heading;
}

 AからL で1冊、M からZで 1冊、計2冊でまず、試してみたいと思います。それでだめなら3冊と。

 具体的にはどのような書き換えになるのでしょうか?

 お時間のあるときで結構です、お答え待ちしながら、Linux,Perl,正規表現の学習をしたいとおもいます。

 お元気で、
 

No.23 2007/11/06 08:12:37

Re: フランス語版 Wikipedia

By kazuhiro URL このコメントを引用

分冊は、例えば

my @skip_headings = (
'^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):',
'^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|’|・)+$',
'^[^a-mA-M]'
);

のようにしてA-Mで始まる見出しを収録し、書籍を保存してから

my @skip_headings = (
'^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):',
'^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|・|・)+$',
'^[a-mA-M]'
);

のようにしてA-M以外でで始まる見出しを収録すればよいと思います。
(確認はしていません)

ただし、Entry 7537で止まるというのは容量の問題ではなく
wikipedia-fpwのバグで止まっている可能性が高いように思います。
相互参照を無効にしても同じ場所で止まるか
一度確認したほうがよいと思います。

No.24 2007/11/07 03:53:23

フランス語版 Wikipedia

By matugorou この投稿を引用

kazuhiro さん はじめまして
wikipedia-fpw 公開ありがとうございました。まったくの初心者なものですから、cygwinもperle もはじめてです。3日かかりましたが、成功したときは感激しました。
 フランスに住んでいるので、フランス語のWikipedia はできないだろうか?とここ1週間、いろいろ勉強し、試してみましたが、やはりできません。

 仏語版のダンプデータは解凍して893.625kbでした。

1. fpw.conf を書き換える必要があると思うのですが、from to とか、、、。わかりません。
2. フランス語の文字コードは euc-frと書くのでしょうか、Latin-1 iso-8859-1, utf-8 のままでいいのでしょうか、、?

こういうことを勉強すればという方向でもおしえていただければ幸いです。よろしくお願いします。

No.21 2007/11/04 06:43:44

Re: フランス語版 Wikipedia

By kazuhiro URL このコメントを引用

出先でダウンロードできないので確認していませんが、
通常、文字コードを変更する必要はありません。
ただし、ソースは
http://download.wikimedia.org/frwiki/
だと思うのですが、伸長前の状態で600MB以上あるように思います。
JIS X 4081の収納効率の悪さ(アルファベットも含めていかなる文字も
2バイト必要)も考慮すると、そのままだと作成されるデータが
大きすぎると思います。

以前にこの掲示板で英語版について書いたように、wikipedia-fpw.conf を
編集して分冊する必要があると思います。

また、フランス語に特有の文字で日本語の文字コード (JIS X 0208) に
無いものは収録できず、'?' になります。
これについては、tablesファイルのutf2euc_tableを編集して文字を
追加すれば、ある程度は対応できるかもしれません。

No.22 2007/11/05 05:52:14

ファイルのパーミション

By 白井 URL この投稿を引用

こんにちは、白井です。

lookup の tarball ですが、UNIX 上でみると中に含まれているファイルで必要ないものにまで実行属性が付いているものが多々あります。例えば、lisp/*.el などなど。

% ls -la
total 760
drwxr-xr-x 2 ... Oct 8 19:23 .
drwxr-xr-x 5 ... Oct 8 19:23 ..
-rwxr--r-- 1 ... Oct 8 18:40 ChangeLog
-rwxr--r-- 1 ... Mar 13 2007 Makefile.am
-rw-r--r-- 1 ... May 29 23:00 Makefile.in
-rwxr--r-- 1 ... Nov 21 2005 README
-rwxr--r-- 1 ... Nov 21 2005 TODO
-rwxr--r-- 1 ... Nov 21 2005 evi-mule.el
-rwxr--r-- 1 ... Sep 24 16:45 evi.el
-rwxr--r-- 1 ... Nov 21 2005 lookup-compile.el
-rwxr--r-- 1 ... Sep 24 17:00 lookup-content.el
-rwxr--r-- 1 ... Nov 21 2005 lookup-entry.el
.....

Windows + cygwin で使っていると気づかないかも知れないのですが、やっぱり余分な実行属性が付いているのはよろしくないと思われます。ぼくも Meadow で新しく作った elisp ファイルを cvs commit して、後から叱られることがたまにありますが ^^;;;

もう一点、ndic.el の (point-min) に無駄な文字発見!!です。

;;; (exp 1) と同じ意味とは知らなかった。。。

No.15 2007/10/19 13:22:58

Re: ファイルのパーミション

By kazuhiro URL このコメントを引用

ご指摘ありがとうございます。

パーミッションについてはリリース前には一応気をつけていたのですが、
そういえば最近はサボっていたような気がします。

どうも、cvsのリポジトリを作った時に使ったのがcygwinではなく
Windows のバイナリだった為か、リポジトリのパーミッションからして
おかしかったようです。
Lookup についてはリポジトリのパーミッションを付け替えたので
次のリリースからは大量におかしなパーミッションがついたりはしないと思います。

それから、(point-min) の話が何を指しているのかよく分からなかったので
申し訳ありませんがもう少し詳しく教えていただけないでしょうか?

No.16 2007/10/19 23:02:45

Re: ファイルのパーミション

By 白井 URL このコメントを引用

こんにちは、白井です。

> 次のリリースからは大量におかしなパーミッションがついたりはしないと思います。

よろしくお願いします。

> (point-min) の話が何を指しているのかよく分からなかった

あら、ズバリ書けば良かったですね。お手数をお掛けしました。lookup の tarball を貰ってきて展開だけした状態で

% head -1 lookup-1.4+media-20071008/lisp/ndic.el
e;;; ndic.el --- Lookup by free dictionaries

と 'e' が行頭に入っています。知らなかったのですが e はその文字だけで自然対数の底を表わすようです。そのため、エラーにはならないのでしょうね。

e => 2.718281828459045

No.18 2007/10/22 09:58:48

Re: ファイルのパーミション

By kazuhiro URL このコメントを引用

解説ありがとうございます。鈍くてすいません。
これも修正しておきましたので、次のリリースで直ります。

ちなみに、オリジナルのLookup 1.4の時点で既にそうなっていました。

No.19 2007/10/22 12:26:05

Re: ファイルのパーミション

By 白井 URL このコメントを引用

> オリジナルのLookup 1.4の時点で既にそうなっていました。

あら本当だ。なんで今までだれも気づかないかなぁ。。。
ぼくは、sdic も使っているので、その辺をいじるために ndic.el を開いて気づいたんですけどね (^_^)

No.20 2007/10/22 13:07:59

OALDの記号について

By Hiro この投稿を引用

OALD7変換スクリプト、活用させていただいております。
ありがとうございます。

さて、例えばexplainをOALD7で調べると、
Can you explain the situation to me?
×Can you explain me the situation?
というふうに、×印で誤用を明記してあります。

ところが、変換スクリプトでepwingにしたものは、×印が表示されず、
両方とも正しい例文であるかのように表示されてしまいます。

×印を正しくepwingに変換する方法はありますでしょうか?

No.11 2007/10/01 20:06:55

Re: OALDの記号について

By Hiro このコメントを引用

たびたびすみません。

×印で誤用が示してあるのは、シャープの電子辞書版のOALDでした。
CDROM版のには、打ち消し線が引かれていますね。
これだと、技術的に難しいかも知れませんが、
用例と誤用の区別がつかないのも困るので、何かよい方法があったらお聞かせ下さい。

No.12 2007/10/01 20:21:06

Re: OALDの記号について

By kazuhiro URL このコメントを引用

JIS X 4081では打ち消し線というものは多分ないと思います。
電子辞書版のように×印をつけてみましたので

http://green.ribbon.to/~ikazuhiro/dic/files/tmp/fpwoald7

をダウンロードして差し替えた後、
fpwmake clean
fpwmake
で再度変換してみてください。

No.13 2007/10/02 00:38:47

Re: OALDの記号について

By Hiro このコメントを引用

素早い対応ありがとうございます。
早速試してみましたが、完璧です。

本当に良いものを、ありがとうございました。

No.14 2007/10/02 02:01:52

EPWINGに興味を持っているんですが

By kitani この投稿を引用

公開していただいたEPWING化のための記述に興味を持っていろいろ調べていますが、経験がないためだけでなく知識が足らずに理解できずにいます。
WindowsではCygwinというソフトを導入する必要らしい。まではわかったのですが
makeというコマンドがわからず立ち往生しています。
教えていただけるよいサイトがわからずにいます。
大変厚かましく、非常に恐縮なのですが教えを請うわけにはいきませんか。
当然、無理なお願いと知っていますが万が一教えていただければ大変うれしいのですが・・・。

No.6 2007/09/19 23:06:29

Re: EPWINGに興味を持っているんですが

By kazuhiro URL このコメントを引用

「makeというコマンドがわからず」というのはmakeコマンドを
インストールする方法がわからないという意味でしょうか?

その前提で書きますが、Cygwin上でFreePWINGを動作させるのに必要な
コマンドは全てCygwinのインストーラからインストールできたと思います。
例えばmakeであれば、Cygwinのインストーラを起動し、packageを
選択する画面でAll->Develと手繰れば中にmakeがあるはずです。

No.7 2007/09/20 11:59:03

Re: EPWINGに興味を持っているんですが

By kitani このコメントを引用

ご返答感謝します。
Makeは自動的に入っているのですね。ありがとうございました。
よくわからないまま、いろいろなサイトを探していました。

Encode-2.23を解凍したフォルダーEncode1を
C:\Cygwin\home\Administrator\
に移し以下のように操作しました。
これで正常に終えているのでしょうか
見るものがすべて初めてなので
エラーメッセージのような気がして不安で固まっています。
正しく終えたような気もするのですが間違えていると次からの操作がすべて無駄になるために慎重になりすぎているのかもしれません。

Cygwinを起動
$ CD Encode1
$ perl Makefile.pl
Writing Makefile for Encode::Byte
Writing Makefile for Encode::CN
Writing Makefile for Encode::EBCDIC
Writing Makefile for Encode::JP
Writing Makefile for Encode::KR
Writing Makefile for Encode::Symbol
Writing Makefile for Encode::TW
Writing Makefile for Encode::Unicode
Writing Makefile for Encode

$ make
makefile:555: *** multiple target pattens. Stop.
$,make test
makefile:555: *** multiple target pattens. Stop.
$,make install
makefile:555: *** multiple target pattens. Stop.

No.8 2007/09/20 19:59:01

Re: EPWINGに興味を持っているんですが

By kazuhiro URL このコメントを引用

makeは残念ながらうまくいってないと思います。
しかし、新しくCygwinをインストールしたのであれば
Encodeモジュールはperlに標準で含まれており、
追加でインストールする必要はないはずです。

No.9 2007/09/20 21:25:00

Re: EPWINGに興味を持っているんですが

By kitani このコメントを引用

アドバイスありがとうございます。
makeについて教えていただき再インストールした時はmakeは自動的に入りました。しかし、サイトによっては、makeが自動的に入らないようです。
どのサイトからインストールしたのか覚えていないのですが、あらためてCygwinを入れようとしたらmakeもperlもskipになっていました。

Cygwinとともにmakeとperlをインストールし直しました。
同じコマンドを実行しましたが、違う反応をしました。いろいろと試しながらでしていますので、迷走状態です。しばらくがんばってみます。

No.10 2007/09/24 13:20:41

以下のフォームに記事No.と投稿時のパスワードを入力すれば、 投稿後に記事の編集や削除が行えます。

72/200件 [ ページ : << 1 2 3 4 5 6 7 8 9 10 11 >> ]

- HOME - お知らせ(3/8) - 記事検索 - 携帯用URL - フィード - ヘルプ - メール - 環境設定 -

Rocket Board Type-X (Free) Rocket BBS