Kazuhiro's BBS

http://green.ribbon.to/~ikazuhiro/にて提供しているソフトウェア及びパッチに関する質問、要望等あれば御記入下さい。

書き込み一覧

フランス語版 Wikipedia

By matsugorou この投稿を引用

Bonjour,
matsugorou です。
すぐにご返答いただきありがとうございます。

ご指摘のように、わたしがダウンロードしたファイルは間違いで、伸長前で600MBありました。伸長して2.9GBあります。

教えていただいた、「分冊して」ということでwikipedia-fpw.conf を編集しようとしているのですが、書き換え方がわかりません。
 以下の部分だろうといろいろメクラメッポウやってみましたが、ダメでした。Entry 7537 :Thomas Pyndonのところでいつも止まってしまいます。ちなみに全体のEntry数は114万7662件のようです。


# この正規表現にタイトルがマッチするページは書籍に収録されません。
#
my @skip_headings = (
'^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):',
'^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|’|・)+$',
# '^Category:.*操り人形だと疑われるユーザー',
);

my $skip_heading = '';

if (@skip_headings) {
foreach $heading (@skip_headings) {
$skip_heading .= '|'.$heading;
}
$skip_heading =~ s/^\|(.*)$/\($1\)/;
$fpwwikipedia_conf{'skip_heading'} = $skip_heading;
}

 AからL で1冊、M からZで 1冊、計2冊でまず、試してみたいと思います。それでだめなら3冊と。

 具体的にはどのような書き換えになるのでしょうか?

 お時間のあるときで結構です、お答え待ちしながら、Linux,Perl,正規表現の学習をしたいとおもいます。

 お元気で、
 

No.23 2007/11/06 08:12:37

Re: フランス語版 Wikipedia

By kazuhiro URL このコメントを引用

分冊は、例えば

my @skip_headings = (
'^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):',
'^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|’|・)+$',
'^[^a-mA-M]'
);

のようにしてA-Mで始まる見出しを収録し、書籍を保存してから

my @skip_headings = (
'^(Wikipedia|MediaWiki|Template|WP|Portal|Category|画像):',
'^( | |\xEF\xBC\x8D|\xE2\x88\x92|‐|-|\'|・|・)+$',
'^[a-mA-M]'
);

のようにしてA-M以外でで始まる見出しを収録すればよいと思います。
(確認はしていません)

ただし、Entry 7537で止まるというのは容量の問題ではなく
wikipedia-fpwのバグで止まっている可能性が高いように思います。
相互参照を無効にしても同じ場所で止まるか
一度確認したほうがよいと思います。

No.24 2007/11/07 03:53:23

フランス語版 Wikipedia

By matugorou この投稿を引用

kazuhiro さん はじめまして
wikipedia-fpw 公開ありがとうございました。まったくの初心者なものですから、cygwinもperle もはじめてです。3日かかりましたが、成功したときは感激しました。
 フランスに住んでいるので、フランス語のWikipedia はできないだろうか?とここ1週間、いろいろ勉強し、試してみましたが、やはりできません。

 仏語版のダンプデータは解凍して893.625kbでした。

1. fpw.conf を書き換える必要があると思うのですが、from to とか、、、。わかりません。
2. フランス語の文字コードは euc-frと書くのでしょうか、Latin-1 iso-8859-1, utf-8 のままでいいのでしょうか、、?

こういうことを勉強すればという方向でもおしえていただければ幸いです。よろしくお願いします。

No.21 2007/11/04 06:43:44

Re: フランス語版 Wikipedia

By kazuhiro URL このコメントを引用

出先でダウンロードできないので確認していませんが、
通常、文字コードを変更する必要はありません。
ただし、ソースは
http://download.wikimedia.org/frwiki/
だと思うのですが、伸長前の状態で600MB以上あるように思います。
JIS X 4081の収納効率の悪さ(アルファベットも含めていかなる文字も
2バイト必要)も考慮すると、そのままだと作成されるデータが
大きすぎると思います。

以前にこの掲示板で英語版について書いたように、wikipedia-fpw.conf を
編集して分冊する必要があると思います。

また、フランス語に特有の文字で日本語の文字コード (JIS X 0208) に
無いものは収録できず、'?' になります。
これについては、tablesファイルのutf2euc_tableを編集して文字を
追加すれば、ある程度は対応できるかもしれません。

No.22 2007/11/05 05:52:14

ファイルのパーミション

By 白井 URL この投稿を引用

こんにちは、白井です。

lookup の tarball ですが、UNIX 上でみると中に含まれているファイルで必要ないものにまで実行属性が付いているものが多々あります。例えば、lisp/*.el などなど。

% ls -la
total 760
drwxr-xr-x 2 ... Oct 8 19:23 .
drwxr-xr-x 5 ... Oct 8 19:23 ..
-rwxr--r-- 1 ... Oct 8 18:40 ChangeLog
-rwxr--r-- 1 ... Mar 13 2007 Makefile.am
-rw-r--r-- 1 ... May 29 23:00 Makefile.in
-rwxr--r-- 1 ... Nov 21 2005 README
-rwxr--r-- 1 ... Nov 21 2005 TODO
-rwxr--r-- 1 ... Nov 21 2005 evi-mule.el
-rwxr--r-- 1 ... Sep 24 16:45 evi.el
-rwxr--r-- 1 ... Nov 21 2005 lookup-compile.el
-rwxr--r-- 1 ... Sep 24 17:00 lookup-content.el
-rwxr--r-- 1 ... Nov 21 2005 lookup-entry.el
.....

Windows + cygwin で使っていると気づかないかも知れないのですが、やっぱり余分な実行属性が付いているのはよろしくないと思われます。ぼくも Meadow で新しく作った elisp ファイルを cvs commit して、後から叱られることがたまにありますが ^^;;;

もう一点、ndic.el の (point-min) に無駄な文字発見!!です。

;;; (exp 1) と同じ意味とは知らなかった。。。

No.15 2007/10/19 13:22:58

Re: ファイルのパーミション

By kazuhiro URL このコメントを引用

ご指摘ありがとうございます。

パーミッションについてはリリース前には一応気をつけていたのですが、
そういえば最近はサボっていたような気がします。

どうも、cvsのリポジトリを作った時に使ったのがcygwinではなく
Windows のバイナリだった為か、リポジトリのパーミッションからして
おかしかったようです。
Lookup についてはリポジトリのパーミッションを付け替えたので
次のリリースからは大量におかしなパーミッションがついたりはしないと思います。

それから、(point-min) の話が何を指しているのかよく分からなかったので
申し訳ありませんがもう少し詳しく教えていただけないでしょうか?

No.16 2007/10/19 23:02:45

Re: ファイルのパーミション

By 白井 URL このコメントを引用

こんにちは、白井です。

> 次のリリースからは大量におかしなパーミッションがついたりはしないと思います。

よろしくお願いします。

> (point-min) の話が何を指しているのかよく分からなかった

あら、ズバリ書けば良かったですね。お手数をお掛けしました。lookup の tarball を貰ってきて展開だけした状態で

% head -1 lookup-1.4+media-20071008/lisp/ndic.el
e;;; ndic.el --- Lookup by free dictionaries

と 'e' が行頭に入っています。知らなかったのですが e はその文字だけで自然対数の底を表わすようです。そのため、エラーにはならないのでしょうね。

e => 2.718281828459045

No.18 2007/10/22 09:58:48

Re: ファイルのパーミション

By kazuhiro URL このコメントを引用

解説ありがとうございます。鈍くてすいません。
これも修正しておきましたので、次のリリースで直ります。

ちなみに、オリジナルのLookup 1.4の時点で既にそうなっていました。

No.19 2007/10/22 12:26:05

Re: ファイルのパーミション

By 白井 URL このコメントを引用

> オリジナルのLookup 1.4の時点で既にそうなっていました。

あら本当だ。なんで今までだれも気づかないかなぁ。。。
ぼくは、sdic も使っているので、その辺をいじるために ndic.el を開いて気づいたんですけどね (^_^)

No.20 2007/10/22 13:07:59

OALDの記号について

By Hiro この投稿を引用

OALD7変換スクリプト、活用させていただいております。
ありがとうございます。

さて、例えばexplainをOALD7で調べると、
Can you explain the situation to me?
×Can you explain me the situation?
というふうに、×印で誤用を明記してあります。

ところが、変換スクリプトでepwingにしたものは、×印が表示されず、
両方とも正しい例文であるかのように表示されてしまいます。

×印を正しくepwingに変換する方法はありますでしょうか?

No.11 2007/10/01 20:06:55

Re: OALDの記号について

By Hiro このコメントを引用

たびたびすみません。

×印で誤用が示してあるのは、シャープの電子辞書版のOALDでした。
CDROM版のには、打ち消し線が引かれていますね。
これだと、技術的に難しいかも知れませんが、
用例と誤用の区別がつかないのも困るので、何かよい方法があったらお聞かせ下さい。

No.12 2007/10/01 20:21:06

Re: OALDの記号について

By kazuhiro URL このコメントを引用

JIS X 4081では打ち消し線というものは多分ないと思います。
電子辞書版のように×印をつけてみましたので

http://green.ribbon.to/~ikazuhiro/dic/files/tmp/fpwoald7

をダウンロードして差し替えた後、
fpwmake clean
fpwmake
で再度変換してみてください。

No.13 2007/10/02 00:38:47

Re: OALDの記号について

By Hiro このコメントを引用

素早い対応ありがとうございます。
早速試してみましたが、完璧です。

本当に良いものを、ありがとうございました。

No.14 2007/10/02 02:01:52

EPWINGに興味を持っているんですが

By kitani この投稿を引用

公開していただいたEPWING化のための記述に興味を持っていろいろ調べていますが、経験がないためだけでなく知識が足らずに理解できずにいます。
WindowsではCygwinというソフトを導入する必要らしい。まではわかったのですが
makeというコマンドがわからず立ち往生しています。
教えていただけるよいサイトがわからずにいます。
大変厚かましく、非常に恐縮なのですが教えを請うわけにはいきませんか。
当然、無理なお願いと知っていますが万が一教えていただければ大変うれしいのですが・・・。

No.6 2007/09/19 23:06:29

Re: EPWINGに興味を持っているんですが

By kazuhiro URL このコメントを引用

「makeというコマンドがわからず」というのはmakeコマンドを
インストールする方法がわからないという意味でしょうか?

その前提で書きますが、Cygwin上でFreePWINGを動作させるのに必要な
コマンドは全てCygwinのインストーラからインストールできたと思います。
例えばmakeであれば、Cygwinのインストーラを起動し、packageを
選択する画面でAll->Develと手繰れば中にmakeがあるはずです。

No.7 2007/09/20 11:59:03

Re: EPWINGに興味を持っているんですが

By kitani このコメントを引用

ご返答感謝します。
Makeは自動的に入っているのですね。ありがとうございました。
よくわからないまま、いろいろなサイトを探していました。

Encode-2.23を解凍したフォルダーEncode1を
C:\Cygwin\home\Administrator\
に移し以下のように操作しました。
これで正常に終えているのでしょうか
見るものがすべて初めてなので
エラーメッセージのような気がして不安で固まっています。
正しく終えたような気もするのですが間違えていると次からの操作がすべて無駄になるために慎重になりすぎているのかもしれません。

Cygwinを起動
$ CD Encode1
$ perl Makefile.pl
Writing Makefile for Encode::Byte
Writing Makefile for Encode::CN
Writing Makefile for Encode::EBCDIC
Writing Makefile for Encode::JP
Writing Makefile for Encode::KR
Writing Makefile for Encode::Symbol
Writing Makefile for Encode::TW
Writing Makefile for Encode::Unicode
Writing Makefile for Encode

$ make
makefile:555: *** multiple target pattens. Stop.
$,make test
makefile:555: *** multiple target pattens. Stop.
$,make install
makefile:555: *** multiple target pattens. Stop.

No.8 2007/09/20 19:59:01

Re: EPWINGに興味を持っているんですが

By kazuhiro URL このコメントを引用

makeは残念ながらうまくいってないと思います。
しかし、新しくCygwinをインストールしたのであれば
Encodeモジュールはperlに標準で含まれており、
追加でインストールする必要はないはずです。

No.9 2007/09/20 21:25:00

Re: EPWINGに興味を持っているんですが

By kitani このコメントを引用

アドバイスありがとうございます。
makeについて教えていただき再インストールした時はmakeは自動的に入りました。しかし、サイトによっては、makeが自動的に入らないようです。
どのサイトからインストールしたのか覚えていないのですが、あらためてCygwinを入れようとしたらmakeもperlもskipになっていました。

Cygwinとともにmakeとperlをインストールし直しました。
同じコマンドを実行しましたが、違う反応をしました。いろいろと試しながらでしていますので、迷走状態です。しばらくがんばってみます。

No.10 2007/09/24 13:20:41

wiki-fpw素晴らしいっ!

By Oki! この投稿を引用

kazuhiroさんはじめまして。wiki-fpwの公開ありがとうございます。感謝感激です。
早速jawikiを変換して、自分のPDAに入れて楽しんでいます。
オフラインでこれくらいの分量の辞書、いや、書き込みを楽しめるというのは素晴らしいですね!

私の環境はcygwinですが、8月バージョンで内部リンクありで無事に変換できました。Core Duo 1.66GHzのノートで6時間くらいの処理でした。

調子にのってenwiki(英語版)トライアルしましたが、こちらは途中でerror2が出てストップでした。
よりによって単語[police]で止まったので笑いましたが...なんか、以前、速度違反(10kmオーバーかい!)で白バイに捕まったときを思い出してしまいました。

No.3 2007/09/06 06:59:54

Re: wiki-fpw素晴らしいっ!

By kazuhiro URL このコメントを引用

FreePWINGやEBStudioでは作成される書籍(HONMONファイル)のサイズが
2GB以内でなければいけません。
日本語版WikipediaでもHONMONファイルのサイズは約1.5GBあり、
それよりもはるかに文量の多い英語版Wikipediaでは
この制限にひっかかってしまいます。

wikipedia-fpw.confのskip_headingsを書き換えて、
A-Eで始まる単語で1冊、F-Jで始まる単語で1冊のように分冊すれば
作成は可能かもしれません。
ただし、相互参照は同じ分冊内にある単語に対してしか行えません。

No.4 2007/09/06 22:59:35

2GBの壁

By Oki! このコメントを引用

EnWikipediaの件、ご返答ありがとうございました。
2GBというのは、EPWING規格の壁のようですね。
文字情報だけで2GBを越える辞書ができようとは、
規格制定当時は思いもしなかったでしょう。

原因がはっきりわかってすっきりしました。
今後ともすばらしいソフト、よろしくお願いします。

No.5 2007/09/09 07:39:44

テスト

By kazuhiro この投稿を引用

テスト投稿です。

No.1 2007/08/29 11:03:48

Re: テスト

By kazuhiro このコメントを引用

コメントのテストです。

No.2 2007/08/29 11:06:50

以下のフォームに記事No.と投稿時のパスワードを入力すれば、 投稿後に記事の編集や削除が行えます。

70/200件 [ ページ : << 1 2 3 4 5 6 7 8 9 10 ]

- HOME - お知らせ(3/8) - 記事検索 - 携帯用URL - フィード - ヘルプ - 環境設定 -

Rocket Board Type-X (Free) Rocket BBS