Kazuhiro's BBS

http://green.ribbon.to/~ikazuhiro/にて提供しているソフトウェア及びパッチに関する質問、要望等あれば御記入下さい。

書き込み一覧

oald7-fpwで無圧縮wavにする時

By hamuzou この投稿を引用

oald7-fpw-20090320-src.tar.gzを使わせていただき、OALDをEBWinやEBPocketで使えてとても感謝しています。
Windows以外の環境でも音声再生に挑戦しようと、無圧縮PCM・16bit・11025hzの設定にした所、「warning: missed RIFF/WAVE header.」というエラーが出ました。これについては、oald7soundで、
if ($sound =~ /RIFF....(.*?)data....(.*$)/) {
この部分を
if ($sound =~ /RIFF....(.*?)data....(.*$)/s) {
こうするとうまくいったようです。

しかし..EBWinで音声が再生されないのです!?何故でしょう?また、DDWinでは概ね再生できるのですが、「window,weep,tripper,tray,unify」などのUK音声でSeekErrorが発生します。後ろの方の単語なので容量オーバーなどではと思ったのですが、何か良い方法などありますでしょうか。

No.177 2010/04/20 01:20:46

Re: oald7-fpwで無圧縮wavにする時

By kazuhiro URL このコメントを引用

> if ($sound =~ /RIFF....(.*?)data....(.*$)/) {
> この部分を
> if ($sound =~ /RIFF....(.*?)data....(.*$)/s) {
> こうするとうまくいったようです。

確かに問題のある表現だと思います。
ただ、手元の環境では元の状態でもこのwarningは出現しませんでした。
元のデータが改訂されたのかもしれません。
いずれにせよ変更は取り込む予定としました。

DDWinで2GB超の部分にアクセスできない問題は、DDWinが修正されない
限り回避できないと思います。
EBWinで音声が再生できない原因はよくわかりません。
ただ、実際に2GB超で音声データを持つ書籍は存在しなかったはずなので、
EBWin (に限らずEPWINGブラウザ全般) で、2GB超の領域にある
音声データへのアクセスは十分に検証されていない可能性があります。
一度こちらでも動作を確認してみます。

No.179 2010/04/21 12:17:07

Re: oald7-fpwで無圧縮wavにする時

By hamuzou このコメントを引用

なるほど!確かに2GBをちょっと超えていた気がします。8bitだとノイズが結構あった気がしたので16bitにしたせいですね。納得しました。
とりあえず、音声の無音部分除去などで2GB未満になるか試してみます!

No.181 2010/04/22 22:05:31

Re: oald7-fpwで無圧縮wavにする時

By kazuhiro URL このコメントを引用

> > if ($sound =~ /RIFF....(.*?)data....(.*$)/) {
> > この部分を
> > if ($sound =~ /RIFF....(.*?)data....(.*$)/s) {
> > こうするとうまくいったようです。
> 確かに問題のある表現だと思います。
> ただ、手元の環境では元の状態でもこのwarningは出現しませんでした。

すみません、確認の仕方が間違っていました。
ご指摘の通りのバグで、こちらでもwarningが出ました。


それから、EBWinでの音声再生での件ですが、oald7-fpw.confで

'sound_sox_options' => '-c 1 -r 11025 -2 --endian little',

と指定して実行した場合は問題ありませんでした。
また、ビッグエンディアンでWAVデータを作成するとWindowsの
コーデックでは再生できないらしく、今回の件と関係あるかもしれません。

No.182 2010/04/22 22:53:03

Re: oald7-fpwで無圧縮wavにする時

By hamuzou このコメントを引用

> それから、EBWinでの音声再生での件ですが、oald7-fpw.confで
>
> 'sound_sox_options' => '-c 1 -r 11025 -2 --endian little',
>
> と指定して実行した場合は問題ありませんでした。
> また、ビッグエンディアンでWAVデータを作成するとWindowsの
> コーデックでは再生できないらしく、今回の件と関係あるかもしれません。
EBWinで再生する事ができました。ありがとうございます!
また、前後の無音部分カットでhonmonのサイズが1.85GBになったのでDDWinでも再生できて今の所問題無さそうです。SOXの呼び出し部分を下記のようにして前後の無音をカットしました。

sox -V1 -t wav $tmp_wav_name -c 1 -r 11025 -2 --endian little -t wav - silence 1 00:00:00.2 1% reverse silence 1 00:00:00.2 1% reverse|

ただし、これだと音声により失敗する(無音になる?)事があったので、サイズが約0.7秒未満なら失敗と見なして無音カット無しで作り直すようにしました。

if (length($sound) < 11025*2*0.7) {
作り直す
}

soxのオプションがいまいち理解できてなく、もっと上手く処理する方法があるかも知れません(汗)。とりあえず目的は達成できたのでこのまま使ってみます。
アドバイスありがとうございました!

No.183 2010/04/24 11:04:01

英語版の変換

By koishi この投稿を引用

いつもwikiでお世話になっております。
ちょっとわがままなお願いですが、もしよろしければ、英語版の変換済みのデータはどこかにアップしていただけないでしょうか。

No.176 2010/04/18 15:53:50

Re: 英語版の変換

By kazuhiro URL このコメントを引用

私自身が変換後のデータをどこかにアップロードするつもりは
今のところありません。
そもそも私自身はwikipedia-fuwを使用しており、wikipedia-fpwを
ほとんど使用していないので、koishiさんが期待するデータを
持っていない可能性の方が高いように思います。

No.178 2010/04/21 12:16:38

Re: 英語版の変換

By koishi このコメントを引用

> 私自身が変換後のデータをどこかにアップロードするつもりは
> 今のところありません。
> そもそも私自身はwikipedia-fuwを使用しており、wikipedia-fpwを
> ほとんど使用していないので、koishiさんが期待するデータを
> 持っていない可能性の方が高いように思います。

kazuhiro様 ご返事、ありがとうございました。大変わがままなお願いをしまして申し訳ありませんでした。

No.180 2010/04/21 17:34:19

[要出典]の部分が削除されてしまう

By rikimaru この投稿を引用

こんにちは

日本語版wikipediaの変換で、[要出典]とされている部分が
削除されてしまっているようなのですが、これは意図的に
そうなさっているのでしょうか?
例えば「クラムボン」の記事など、途中がごっそりと抜け落ちて
読みにくくなってしまうので、削除されないようにしたいのですが
どうしたらいいでしょうか。
よろしくお願い致します。

No.173 2010/02/23 02:59:22

Re: [要出典]の部分が削除されてしまう

By kazuhiro URL このコメントを引用

以前にも書きましたが、テンプレートの内容は原則削除で、個人的に
必要だったものや要望があったものについては個別に対応しています。
fpwwikipediaの

# Format supported templates.
$text =~ s/\{\{[lL]ang\|[a-z-]+\|([^\}]+)\}\}/$1/g;
$text =~ s/\{\{:利用者:Bcjp\/t\/fbp国内表_top\|[^\}]*\}\}/\{\|/g;
$text =~ s/\{\{サッカー代表個人成績\|[^\}]+\}\}/\{\|/g;
$text =~ s/\{\{lang-en-short\|([^\}]+)\}\}/英: $1/g;
$text =~ s/\{\{IPA\|([^\}]+)\}\}/[$1]/g;

の後ろに

$text =~ s/\{\{要出典範囲\|([^\}]+)\}\}/$1/g;

のような内容を追加すれば削除はされなくなると思います。
根本的に対応するためにはスクリプトを全面的に変更する必要が
あると思いますが、今のところする予定はありません。

No.174 2010/02/24 21:21:21

Re: [要出典]の部分が削除されてしまう

By rikimaru このコメントを引用

kazuhiro様

コメントをどうもありがとうございました。よく分かりました。
フランス語版だと日付の表示が消えるという現象があるのですが、
これもDateというテンプレートが消されているためだということが分かりました。
今から変換し直そうと思います。どうもありがとうございました。

No.175 2010/02/25 01:16:50

英語版の変換で

By kolo URL この投稿を引用

お世話になっております
お忙しいところ申し訳ありません。
現在、英語版のダンプデータを変換しているのですが、下記エラーが出てしまいました。

---------------------------------------------------
Entry: 9326858; Canfield Island Site
Entry: 9326859; Dalius aurelius bio
Entry: 9326861; Raglan, Chatham-Kent, Ontario
Entry: 9326862; List of Sweet Adelines International quartet champions by year
Entry: 9326863; Raglan, Durham Regional Municipality, Ontario
Entry: 9326865; Ferdinand Faithfull Begg
Entry: 9326868; Railton, Ontario
Entry: 9326870; List of Pan American Games
fuwwikipedia: Elapsed time : 78283sec.
fuwwikipedia: Number of entries: 4040910
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwsort -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwindex -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwcontrol -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwlink -workdir work -module BDB


/usr/local/libexec/freeuwing/fuwlink: unknown tag name, cgraph:math_xmlns="http://www.w3.org/1998/Math/MathML": line 2119183, work/textref

---------------------------------------------------

どのように訂正すればよろしいでしょうか。ご教授ください。

あと、 Jiro さんのNo.156の投稿に対するNo.157の

---------------------------------------------------

print "Entry: $page_count; $heading\n";

の直前に

if ($heading =~ /^Backfitting algorithm$/) {
$text =~ s/&amp;lt;math /&amp;lt;math&amp;gt; /;
}

のようなコードを入れてください (&は正しくは半角です)。

-----------------------------------------------------

ですが、

&amp;lt;
&amp;gt;

ではなくて、

&lt;(すべて半角)
&gt;(すべて半角)

ではないでしょうか。
念のためご報告まで。

No.158 2010/02/01 15:52:00

Re: 英語版の変換で

By kazuhiro URL このコメントを引用

> 現在、英語版のダンプデータを変換しているのですが、
> 下記エラーが出てしまいました。
> /usr/local/libexec/freeuwing/fuwlink: unknown tag name, cgraph:math_xmlns="http://www.w3.org/1998/Math/MathML": line 2119183, work/textref

半分無理矢理通すようにしたので下記のものと差し替えてください。
真面目な対策はそのうち考えます。

http://green.ribbon.to/~ikazuhiro/dic/files/tmp/fuwwikipedia
http://green.ribbon.to/~ikazuhiro/dic/files/tmp/fuwwikipedia_cgraph

> あと、 Jiro さんのNo.156の投稿に対するNo.157の
(snip)
> ですが、

> &amp;lt;
> &amp;gt;

> ではなくて、

> &lt;(すべて半角)
> &gt;(すべて半角)

> ではないでしょうか。

すみません、その通りです。
このBBSへの書き込みで試行錯誤している間におかしくなった事に
気付いていませんでした。

No.159 2010/02/03 08:34:05

Re: 英語版の変換で

By kolo URL このコメントを引用

早速の回答ありがとうございます。
いつもいつもすみません。

>> あと、 Jiro さんのNo.156の投稿に対するNo.157の
(snip)
>> ですが、

>> &amp;lt;
>> &amp;gt;

>> ではなくて、

>> &lt;(すべて半角)
>> &gt;(すべて半角)

>> ではないでしょうか。

>すみません、その通りです。
>このBBSへの書き込みで試行錯誤している間におかしくなった事に
>気付いていませんでした。

掲示板に投稿してから、なにかキツイ書き方になっていないか心配してましたが、あちゃー、ですね。
いや、掲示板に投稿したら対応していただけるだけでありがたいですし、責めるようなニュアンスはまったくありませんので、その点は誤解なきよう。文字だけのコミュニケーションは難しいですね。

これから早速、英語版に取り掛かってみます。
うちのマシンだとちょっと時間がかかりますので、ここに再度書き込みがなければ問題なし、ということでお願いします。(1週間ぐらいかかるかもしれませんので。)

ありがとうございました。

No.160 2010/02/03 17:41:54

Re: 英語版の変換で

By kolo URL このコメントを引用

えーと、結果が出てきました。

前回20091128版から、ちょうど20100130版のダンプデータがアップされたのでエントリーが増えています。

で、またエラーが出てしまいました。
------------------------------------------------------------------
Entry: 9541302; Chalkboard (disambiguation)
Entry: 9541303; Club haus
Entry: 9541304; Kocarija
Entry: 9541306; Greatest Hits (Beth Nielsen Chapman album)
Entry: 9541307; Maha Dharma
fuwwikipedia: Elapsed time : 72311sec.
fuwwikipedia: Number of entries: 4106106

/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwsort -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwindex -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwcontrol -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwlink -workdir work -module BDB

/usr/local/libexec/freeuwing/fuwlink: unknown tag name, text:536f7665726569676e207374617465: line 1, work/textref
------------------------------------------------------------------
これはどのように訂正すればよいのでしょうか。

No.161 2010/02/07 16:54:32

Re: 英語版の変換で

By kazuhiro URL このコメントを引用

手元の環境 (openSUSE 11.1 (x86_64), perl 5.10.0) では
問題ありませんでした。
バグ以外の原因として思いつくのは

・wikipedia-fuw.confで、デバッグモードが有効で、skip_count か
 entry_count を 0 以外にしている。
・preparser 実行後に wikipedia-fuw.conf を書き換え、その後に
 touch preparse.dep 等を行ってpreparserの実行をskipした。

くらいでしょうか。前者であればデバッグモードを無効にしてください。
後者の場合はfuwmake cleanを実行してからやり直してください。
今のところこれ以上の心当たりはありません。

No.162 2010/02/10 09:00:34

Re: 英語版の変換で

By kolo URL このコメントを引用

そうですか。
>
> ・wikipedia-fuw.confで、デバッグモードが有効で、skip_count か
>  entry_count を 0 以外にしている。

これはしていませんが

> ・preparser 実行後に wikipedia-fuw.conf を書き換え、その後に
>  touch preparse.dep 等を行ってpreparserの実行をskipした。

ああーなんかありそうだー。

実は
----------------------------------------------
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwsort -workdir work
/usr/bin/sort: ??????: work/sortKFvvbD: No space left on device
make: *** [work/sort.dep] エラー 141
----------------------------------------------
で、100GB超の容量があるから余裕だと思っていたのに残量不足で、急遽いろいろファイルを削除してから、手動で
----------------------------------------------
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwsort -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwindex -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwcontrol -workdir work
/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwlink -workdir work -module BDB
----------------------------------------------
を一行ずつ入れたんですよ。

残量がないのはこちらのミスですし、お恥ずかしいので、そこのいきさつは関係ないだろうとおもってスキップしたんですよ。
で、もしかして、残量がないのにむりやりファイルをつくってファイルが壊れたのかなとか投稿してからいろいろ可能性を考えていたんですが、ほかのファイルは壊れていないしなにが原因かなぁと悩んでいたんですが、そうか、preparserの実行をskipした可能性があるんですね。

わかりました。もう一度やってみます。

No.163 2010/02/10 18:48:59

Re: 英語版の変換で

By kolo URL このコメントを引用

結果が出てきました。
やはり途中で容量不足で止まってしまって、そこから手作業でコマンドを入れたのがだめだったようです。
今度はエラーもなく最後まで到達しました。

それでまた問題が発生したのですが、今回できた HONMONを

emacs-23.1-bin-i386.zip
lookup-1.4+media-20091030.tar.gz 
eblook-1.6.1+media-20090709-eb4.4.2+u-20100121.exe

で見てみようと思ったのですが、どうにも検索できません。

今までの、日本語版のウィキペディアや、「FreePWING による各種辞書」のサイトで配布されている辞書は問題なく動作して検索もばっちりできましたが、UTF-8 版のほうはちゃんと :coding の指定も utf-8 にしたのですが、検索で出てきません。

検索式は =<>@-w でちゃんとでてくるのですが、アルファベットをいれてもなにも引っかかってきません。
で、eblook 単体でみてみたのですが、
-----------------------------------------------------
eblook> book wikip
eblook> list
1. wikip ウィキペディア英語版
eblook> select 1
eblook> info
disc type: EPWING
character code: JIS X 0208
the number of dictionries: 1
eblook> subinfo
title: ウィキペディア英語版
directory: wikip
search methods:
font sizes:
-----------------------------------------------------
ということで、 search methods: になにも出てきていません。

ちなみにウィキペディアの日本語版だと、
-----------------------------------------------------
eblook> book wikip
eblook> list
1. wikip ウィキペディア日本語版
eblook> select 1
eblook> info
disc type: EPWING
character code: JIS X 0208
the number of dictionries: 1
eblook> subinfo
title: ウィキペディア日本語版
directory: wikip
search methods: word endword exactword wild
font sizes:
eblook>
-----------------------------------------------------

今回 Emacs をはじめて使いましたのでどっか設定が間違っているのかもしれませんがなにかわかりましたら教えていただけないでしょうか。

よろしくお願いします。

No.164 2010/02/14 03:20:58

Re: 英語版の変換で

By kazuhiro URL このコメントを引用

FreeUWINGで作成した書籍は
> character code: JIS X 0208
ではなく
> character code: UTF-8
となるはずです。
実際にはCATALOGSの内容で決まりますので、wikipedia-fpwに付属の
catalogs.txtを使用した、もしくはwikipedia-fpwで作成された
CATALOGSファイルを使用している可能性を疑います。

No.165 2010/02/14 08:20:53

Re: 英語版の変換で

By kolo URL このコメントを引用

Catalogs  はそうでした。12月の中旬に思い立った最初の頃は FPW の方で作ろうと思っていたんですが、英語版なのだから、最初から UTF-8 版の方がいいかなとおもって 1月に変更してました。
最近は 7-ZIP で圧縮して保存しているので、日本語版ウィキペディアでも「皮だけ」再利用して HONMON だけ入れ替えていて(なにか freepwing-1.6.tar.bz2 になってから fpwmake package をやると、リンクのあたりからやり直しをするじゃないですか。なぜなんでしょう。特に不便は感じていないので報告しませんでしたが、まさかここで引っかかってくるとは。とほほ・・・。手を抜いたらいけないってことですね。)シェルスクリプトでダンプのダウンロードから 7-ZIP の圧縮まで自動で更新しているのですが、英語版もそのシェルスクリプトを再利用したので、最初の頃は、

fuwmake HASH_MOD=BDB FPWLINKMOD=BDB

とかやってしまいエラーがバンバン出ていまして、そうですか、またやってしまいましたか。どうも私には文字コードは鬼門みたいです。

で、早速カタログを変更して見ました。

-----------------------------------------------------
eblook> book enwiki_u
eblook> list
1. enwiki_u ウィキペディア英語版
eblook> select 1
eblook> info
disc type: EPWING
character code: UTF-8
the number of dictionries: 1
eblook> subinfo
title: ウィキペディア英語版
directory: enwiki_u
search methods:
font sizes:
eblook> search a
An error occured in search_pattern: no such search method
eblook> search *A*
An error occured in search_pattern: no such search method
eblook>
-----------------------------------------------------
やはりmethods になにも出てきません。

ちなみに、さっき
-----------------------------------------------------
# 書籍に収納するエントリの最大数を指定します。
# 0の場合は無制限になります。
# デバッグ用です。
#
'entry_count' => 2,
------------------------------------------------------
エントリーを2にしてデバッグでやってみましたが、同じ結果が出ました。

search methods: になにも出てきません。

Emacs の Lookup では オープニング画面で日本語版と同じようにいろいろ検索式がでてくるのですが。
------------------------------------------------------
Type `m' to select, `u' to unselect, `?' for help.

% Identifier Title Method
- ---------- ----- ------
* ndeb+/dictionary/ja-wikipedia20100208-7z/WIKIP:wikip ウィキペディア日本語版 =<>@-w
* ndeb+/dictionary/roget-fpw1.0.1/ROGET:roget Roget’s =<>@-w
* ndeb+/dictionary/en-wikipedia20100130-utf8-7z/ENWIKI_U:enwiki_u ウィキペディア英語版 =<>@-w
------------------------------------------------------
今回 20100130 版の英語版ダンプデータからできた HONMON は 9.87 GB (10,599,487,488 バイト)になりました。
ファイルがどこか壊れているということなんでしょうか。

No.166 2010/02/14 10:16:44

Re: 英語版の変換で

By kazuhiro URL このコメントを引用

FreeUWINGで提供されている手段でパッケージを作成やインストールを
行っているのであれば、Makefileの
DIR =
の行と、catalogs.txtの
Directory =
の行に食い違いが無いか確認してください。

そうでない場合は、eblookに指定したディレクトリから見て
enwiki_u/data/honmonが存在しているかどうか確認してください。

それから、Lookupのndeb[s]エージェントにおける検索方法の表示に
ついては実際に書籍がサポートしている検索方法を反映せずに決め打ちに
なっていますので無視してください。

No.167 2010/02/14 21:51:44

Re: 英語版の変換で

By kolo URL このコメントを引用

今朝がた作ったエントリーが2個だけの HONMON でパッケージを作り解凍をして HONMON だけ入れ替えてみました。
フォルダの構造が、なんか勘違いして間違っていました。
中身も 同じフォルダー名の入れ子でしたね。
ヒューマンエラーが一番厄介です。
失礼しました。

英語版をせっかく作ったので WIKIP_U に変更しました。
また HONMON 作り直しかとおもってちょっと気が遠くなりかけましたが、カタログのディレクトリ指定だけで大丈夫ですね?

-----------------------------------------------
eblook> book wikip_u
eblook> list
1. wikip_u ウィキペディア英語版
eblook> select 1
eblook> info
disc type: EPWING
character code: UTF-8
the number of dictionries: 1
eblook> subinfo
title: ウィキペディア英語版
directory: wikip_u
search methods: word endword exactword
font sizes:
eblook> search a
1. 60:1049 A
2. 43426:55 Floppy disk
3. 206784:1210 Ogonek
4. 457979:1744 ・
5. 474259:1900 ・
6. 533246:457 Caron
7. 550099:1108 ・
8. 550100:518 ・
9. 550101:601 ・
10. 777436:1297 A (TV system)
11. 789484:233 Ordinal indicator
12. 806044:141 Vietnamese alphabet
13. 839682:1840 Ring (diacritic)
14. 947099:93 Frontier Wrestling Alliance
15. 1355337:1634 窒
16. 1404142:1045 蓄
17. 1602754:1903 Medal of Honor: Airborne
18. 1633504:648 Unicode subscripts and superscripts
19. 1669885:1539 逐
20. 1785044:27 Anarchy
21. 1815308:248 Static library
22. 1949825:1916 A-
23. 2111146:1800 Umlaut (diacritic)
24. 2374373:236 Grave accent
25. 2557953:49 筈
26. 2697974:876 Double grave accent
27. 3687154:1607 Guitar Hero: Aerosmith
28. 4316084:1630 Enclosed A
29. 4632255:105 ZE:A
eblook>

-----------------------------------------------

Emacs でも表示できるのを確認しました。

ああ、やっと出てきました。ちょっと感動です。

ご助力ありがとうございました。やっと辿り着けました。


EBWin では、辞書名はでてきますが、本文が空で表示されました。




後気になったのですが



間違いがあるといけないと思っていてエントリー数を2から0に戻していたのですが、

いま

fuwmake package 

をする際にやっぱりダーっとエントリーがスクロールされて表示されたので度肝を抜かれました。

私の使用している 東芝 dynabook J40
Intel Pentium M 1.7GHz
ですと、

/usr/local/libexec/freeuwing/perl.sh /usr/local/libexec/freeuwing/fuwlink -workdir work -module BDB

が表示されてからだいたい今回の 20100130 英語版ダンプで 14 時間経過しています。

すでに HONMON ができていて後は圧縮してくれればいいだけなのにやり直しになるのはつらいですのでやっぱりフォルダだけ ”着せ替え” になる予感です。
今回 HONMON の差し替えだけで Lookup で表示できたので、とりあえずは満足しています。

ダイレクトにリナックスにインストールするオプションもあるわけですし、HONMON 作成後に必ずしもパッケージ作業が必要というわけではない、とおもっていたんですが、それとも以前はなかったなにかのチェックがパッケージ作業で新たに出現したのでしょうか。生半可な知識が一番怖いということで、思わぬトラップがありそうで気になります。
まあ英語版は 9GB 以上あって、FAT なフォーマットの SD カードには当然入らないですし、DVD に焼いて保存管理しようと思っていますので、必ず 7-ZIP で 1.9GB ごとに分割圧縮する予定す。
パッケージ作業が「必要」でなければ特に不満はないのですが。というか必要なしであってくれ、と祈っているくらいです。
fuwmake package にファイルのボリューム分割指定はたしか無かったですもんね。見落としがあるかもしれませんが。

まあ、この件は FreePWING の作者さんじゃないとわからないですよね。

とくに緊急ではないので問題がなさそうであれば別にいいかな、と思っていますので、wikipedia-fuw-20091202-src.tar.gz のほうでどうしてもパッケージに一旦しなければならない、というような問題が無ければ読み流してください。


あと、英語版なのに、JAWIKI_U というのもちょっとなんなので、ちょっと気がつきにくい点でみな迷うとおもうのでアナウンスを、次回アップデートのときにでもぜひご検討願いたいと思います。もしまた見落としていまして、すでにアナウンス済みであればご容赦ください。

No.168 2010/02/15 06:25:39

Re: 英語版の変換で

By kazuhiro URL このコメントを引用

> 英語版をせっかく作ったので WIKIP_U に変更しました。
> また HONMON 作り直しかとおもってちょっと気が遠くなりかけましたが、
> カタログのディレクトリ指定だけで大丈夫ですね?

ディレクトリに指定した内容はHONMONファイルの内容には影響を与えません。

> EBWin では、辞書名はでてきますが、本文が空で表示されました。

現時点でJIS X 4081 UTF-8 extensionの書籍を検索できるのは
eblook 1.6.1+mediaだけだと思います。

> 間違いがあるといけないと思っていてエントリー数を2から0に
> 戻していたのですが、いま
>
> fuwmake package 
>
> をする際にやっぱりダーっとエントリーがスクロールされて表示されたので
> 度肝を抜かれました。

wikipedia-fuw.conf を更新すれば当然最初から作り直されます。

> なにか freepwing-1.6.tar.bz2 になってから fpwmake package を
> やると、リンクのあたりからやり直しをするじゃないですか。

fpwmake && fpwmake package
と実行するとfpwlinkが2回実行されるという意味でしょうか。
手元では再現しません。
fpwmake packageの実行前に依存するファイルを更新してしまっている
可能性を疑います。

> あと、英語版なのに、JAWIKI_U というのもちょっとなんなので、
> ちょっと気がつきにくい点でみな迷うとおもうのでアナウンスを、
> 次回アップデートのときにでもぜひご検討願いたいと思います。

何をアナウンスして欲しいという主旨なのか分かりませんでした。

No.169 2010/02/15 23:20:11

Re: 英語版の変換で

By kolo URL このコメントを引用

> ディレクトリに指定した内容はHONMONファイルの内容には影響を与えません。


了解しました。



> 現時点でJIS X 4081 UTF-8 extensionの書籍を検索できるのは
> eblook 1.6.1+mediaだけだと思います。


了解しました。


>
> wikipedia-fuw.conf を更新すれば当然最初から作り直されます。
> fpwmake && fpwmake package
> と実行するとfpwlinkが2回実行されるという意味でしょうか。
> 手元では再現しません。
> fpwmake packageの実行前に依存するファイルを更新してしまっている
> 可能性を疑います。

いや、いつもの日本語版でもそうなるのですが・・・。
1.6 になる前までは FPW の方でパッケージまで作って DVD に焼いて保存していたのですが、いまではやらなくなりました。
再現しませんか。


もうかれこれ2008年の4月から変換をしているので、日本語版で試行錯誤はしないのですが、

> fpwmake && fpwmake package

これはやっていませんでしたね。

1.6がでた当時は、まだシェルスクリプトも書いてなくて、手作業で一つ一つ

fpwmake

をやって、おっかなびっくり出来上がっているのを確認してから

fpwmake package

をやっていました。別々にやるとそういう現象が起きるのかも?

&& で間髪いれずにやらないといけないのかな?


というか

fpwmake と fpwmake package の間に 各種データーのチェックが入る・・・なぜ? HONMONはできあがっているのに、とは思いますが、まあ本題からなにか話題がそれてしまいました。



まあ、lzma よりも 7-ZIP のほうが詳しい取説があってオプションがいろいろ選べて便利なのでパッケージ作業が必要なければ別にいいのですが。


> > あと、英語版なのに、JAWIKI_U というのもちょっとなんなので、
> > ちょっと気がつきにくい点でみな迷うとおもうのでアナウンスを、
> > 次回アップデートのときにでもぜひご検討願いたいと思います。
>
> 何をアナウンスして欲しいという主旨なのか分かりませんでした。

wikipedia-fpw の方では フォルダは WIKIP なので、英語版だろうが、日本語版だろうが作っても違和感がないですが、

wikipedia-fuw  のほうは デフォルトで JAWIKI_U になっていて、カタログだけではなくて Makefile のほうも訂正しないとパッケージをつくったらフォルダも JAWIKI_U になってしまうので、 英語版やフランス版を作ったときに 日本語版でもないのに JAWIKI_U というフォルダが自動で出来てしまうのが、ちょっと気になっただけです。

最初にわかっていれば、ああ、ここも変更項目なのだな、 conf ファイルのほかにも、カタログと Makefile も変更するのだな、というのでスムーズにいくかな、くらいの意味です。

まあフォルダとカタログを直せばいいだけなので、そう大騒ぎすることでもないかもしれません。が、ウィキペディアのためにリナックス UNIX に足をつっこんだ初心者には敷居が高くなるかもしれません。


・・・気にしすぎですかね。

ちょっと Readme にひとこと書いていただければうれしいな、くらいの意味だったのですが。

No.170 2010/02/16 00:04:13

Re: 英語版の変換で

By kazuhiro URL このコメントを引用

> wikipedia-fuw  のほうは デフォルトで JAWIKI_U になっていて、
> カタログだけではなくて Makefile のほうも訂正しないと
> パッケージをつくったらフォルダも JAWIKI_U になってしまうので、
> 英語版やフランス版を作ったときに 日本語版でもないのに JAWIKI_U
>  というフォルダが自動で出来てしまうのが、ちょっと気になっただけです。

README にあるように、wikipedia-fuw は
「FreeUWING を利用してウィキペディア日本語版のダンプデータを
JIS X 4081 UTF-8 extension に準拠するように変換するツール」です。
英語版やフランス語版からの変換を積極的にすすめていはいませんし、
FreeUWING のドキュメントの守備範囲なので積極的に READMEに
記載する意思は今のところありません。

catalogs.txt に、変更する場合は FreeUWING (FreePWINGから内容は
変えていませんが) のドキュメントを参照するように書くことを検討します。

No.171 2010/02/17 21:36:17

Re: 英語版の変換で

By kolo URL このコメントを引用

お手数をおかけしてすみません。

あれから快適ライフを満喫しています。

半月近くお付き合いありがとうございました。


またなにか問題が発生したらよろしくお願いします。
(なるべく自分で解決するつもりですが。なかなかPerlは難しいですね。)

No.172 2010/02/19 08:35:56

(No Subject)

By Jiro この投稿を引用

wikipedia-fpw-20091202で、英語版wiki(enwiki-latest-pages-articles.xml.bz2)をEPWINGに変換しようとしたのですが、

Entry: 9261091; Backfitting algorithm
./fpwwikipedia_cgraph: invalid tag name: cgraph:math_\hat{f}_1^(i) </math
gnumake: *** [work/cgraph.dep] Error 2

このようなエラーが出てとまってしまいました。
解決策があれば、よろしくお願いいたします。

No.156 2009/12/18 22:14:07

Re:

By kazuhiro URL このコメントを引用

元データの文法エラーのようなので、fpwwikipediaとfpwwikipedia_cgraphの、

print "Entry: $page_count; $heading\n";

の直前に

if ($heading =~ /^Backfitting algorithm$/) {
$text =~ s/&amp;lt;math /&amp;lt;math&amp;gt; /;
}

のようなコードを入れてください (&は正しくは半角です)。
もしくはダンプデータを直接修正してください。

No.157 2009/12/20 08:40:07

wikipedia-fpw:redirect での検索インデックスが不正です

By たかはし この投稿を引用

バージョン:wikipedia-fpw-20091012-src.tar.gz

【redirect での検索インデックスが不正です】

fpwwikipedia での、以下の部分?:
# Expand search entry by redirect
if (length($entry_headings->get($key))) {
push (@keys, split(/\t/, $entry_headings->get($key)));
}


EBDump での前方一致表記形INDEX の出力結果:
('−>' が、'>' となっているのは、FreePWing で '−' が削除される仕様のため)
block#=11B826(1161254)
ID=60 桁数=120 要素数=10
HASH=HASH(0X9AFFA88)>GET(営団日比谷線脱線衝突事故)[120] <blk=11B827(1161255)>
WIKIPEDIAFPW::HASH::HASH=HASH(0X9AFFA88)>GET(LGA775)[120] <blk=11B828(1161256)>
WIKIPEDIAFPW::HASH::HASH=HASH(0X9AFFA88)>GET(じおきゃっしんぐ)[120] <blk=11B829(1161257)>
WIKIPEDIAFPW::HASH::HASH=HASH(0X9AFFA88)>GET(アカデミー脚色賞)[120] <blk=11B82A(1161258)>
WIKIPEDIAFPW::HASH::HASH=HASH(0X9AFFA88)>GET(バーバラパーマー)[120] <blk=11B82B(1161259)>
・・・
・・・
HASH=HASH(0X9AFFA88)>GET(ERONE)[90] <blk=11B831(1161265)>
HASH=HASH(0X9AFFA88)>GET(MICROSDアタッチメントMASD1)[90] <blk=11B832(1161266)>
HASH=HASH(0X9AFFA88)>GET(XREA)[90] <blk=11B833(1161267)>
HASH=HASH(0X9AFFA88)>GET(うぉーかーぶれいん)[90] <blk=11B834(1161268)>


・このため、「WIKI」で検索すると 38,559 件がヒットします。
・このため、「HASH」で検索すると 89,414 件がヒットします。
・このため、検索用INDEXのサイズが、50575 Blocks x 2,048b ≒ 100MB と肥大化(本来は、その半分程度)
・このため、「リダイレクト元のキーワード」での検索が不可能となっています。


どこを直せば宜しいのでしょうか?

No.152 2009/12/02 04:36:36

Re: wikipedia-fpw:redirect での検索インデックスが不正です

By kazuhiro URL このコメントを引用

すみません、チェックが不十分だったようです。
取り急ぎ、preparserの最後のほうにある、

$output->print("$heading\t$redirects->get($heading)\n");



$output->print("$heading\t" . $redirects->get($heading) . "\n");

と変更してみてください。

No.153 2009/12/02 08:34:37

Re: wikipedia-fpw:redirect での検索インデックスが不正です

By たかはし このコメントを引用

直りました。ありがとうございまいました。

No.154 2009/12/02 21:05:41

Re: wikipedia-fpw:redirect での検索インデックスが不正です

By kazuhiro URL このコメントを引用

修正版を出しました。
ご報告ありがとうございました。

No.155 2009/12/04 08:51:56

wikiのepwing化

By kitani この投稿を引用

久しぶりにwikipediaをEPWING化しようとしました。
Cygwin上でwikipedia-fpw-20080616で変換を試みましたが、反応がほとんどなく変換を始めません。以前は同じ環境でできたはずです。

wikipedia-fpw-20091006に変えたところ変換を始めたのですが、3時間後ぐらいに下記のエラーで止まりました。再度試みましたが同じ結果でした。

'enable_reference' => 0 にすると変換は一応終了しました。しかし、entry:130691までしか変換は行っていませんでした。
wikipediaを現時点のものではなく9月27日のものを使うとentry:249696までいき終了しました。
2Gを当然超えていません。

よくわからないまま、見よう見まねで行っているので的を射ていない文章かもしれませんが、変換できる方法を教えて頂けるとありがたいです。EPWING化の度に質問をして申し訳なく思います。

なお、windows2000 512Mです。
メモリー不足でしょうか?

perlは5.8.8でUSE_64_BIT_INTとUSE_LARGE_FILESはあるようです。

−−−略−−−
Entry: 130691; X-繝。繝ウ
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwsort -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwindex -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwcontrol -workdir work
/usr/local/libexec/freepwing/perl.sh /usr/local/libexec/freepwing/fpwlink -workdir work
/usr/local/libexec/freepwing/fpwlink:unknow tag name, text:e38393e38383e38388e6bc94e7ae97: line 13,work/textref
make:***[work/link.dep]Error 255

No.148 2009/10/19 18:42:28

Re: wikiのepwing化

By kazuhiro URL このコメントを引用

「Cygwinのperlでfpwwikipediaを実行するとperlが落ちる」に
あてはまっている様に思います。
PerlをCygwinから提供されている最新版 (5.10) にしてみてください。

ちなみに、メモリー不足の場合はその時点で正しくエラーが出て終了します。

No.149 2009/10/19 21:47:51

Re: wikiのepwing化

By kitani このコメントを引用

レス感謝します。
ハードル高そうですが、チャレンジしてみます。
ありがとうございます。

No.150 2009/10/19 22:47:47

Re: wikiのepwing化

By kitani このコメントを引用

ありがとうございました。無事変換できました。
すばらしいソフトと適切なアドバイス感謝します。

No.151 2009/10/23 21:46:28

以下のフォームに記事No.と投稿時のパスワードを入力すれば、 投稿後に記事の編集や削除が行えます。

72/200件 [ ページ : << 1 2 3 4 5 6 7 8 9 10 11 >> ]

- HOME - お知らせ(3/8) - 記事検索 - 携帯用URL - フィード - ヘルプ - メール - 環境設定 -

Rocket Board Type-X (Free) Rocket BBS