SHARE
TWEET

htmltodat

nanashi_kana Mar 24th, 2015 (edited) 7,770 Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
  1. 【Jane Styleでの2ch.netの過去ログ取得方法】2015/12/18
  2.  
  3. 0) サポート
  4.     htmltodatのサポートは以下のBBSのスレッドにて行われているが、本説明についての質問はしないようにしてください
  5.     htmltodatサポートスレッド
  6.     http://jbbs.shitaraba.net/bbs/read.cgi/computer/1929/1038588508/
  7.  
  8. 1) 入手
  9.     http://mukiyu.g.ribbon.to/
  10.      htmltodat 0.11.8(909k byte)の中のhtmltodat.exe/bregexp.dll/nkf32.dllの3つと
  11.     http://mirrorhenkan.g.ribbon.to/jane/htmltodat-convert2/
  12.      htmltodat-convert2_20121221 (5k byte)の中のhtmltodat-convert2.wsfをJane2ch.exeと同じフォルダに解凍する
  13.  
  14.     ※ zipの解凍にエクスプローラの機能を使う人は解凍前にダウンロードセキュリティブロックを解除しておく
  15.       (htmltodat0.11.6.zip 及び htmltodat-convert2_20121221.zipを右クリックしプロパティを開いて下の方にある
  16.        セキュリティ 「ブロックの解除」ボタンをクリック後に解凍する)
  17.     ※ なお、Jane Style(Jane2ch.exe)のあるフォルダがわからない人は、以下の3)と同様の手順でコマンド登録に
  18.       コマンド名、Janeのフォルダを開く
  19.       コマンド内容、explorer "$BASEPATH"
  20.       を追加し、レス表示欄で右クリックし、「Janeのフォルダを開く」を選択実行するとフォルダが開く
  21.  
  22. 2) 設定
  23.     htmltodat.exeを起動し、prmファイルを以下の手順で作成して終了する
  24.     左下3番目prmファイルボタン→入力欄を右クリックして以下の「prmファイル設定内容」を貼り付ける
  25.     保存ボタン→任意の名前.prmと名づけJane2ch.exeと同じフォルダに保存する
  26.     ※ 以降の説明のため、保存したファイル名を仮に「2ch_net.prm」としておく
  27.  
  28. 3) コマンド登録
  29.     Jane Styleのメニューから、ツール-設定-コマンド
  30.     コマンド名に、任意に指定する(仮に「過去ログ取得(htmltodat)」としておく)
  31.     実行するコマンドに、wscript "$BASEPATHhtmltodat-convert2.wsf" "$LINK$URL" "2ch_net"
  32.     を入れて追加ボタンを押して後、OKボタンを押して設定を終了する
  33.     ※ ここで、"2ch_net" は、2)で保存したprmファイル名を拡張子を除いて指定する
  34.     ※ なお、直接Jane2chフォルダにある(無ければ作成)command.datに設定してもよい(Janeを終了して作業する)
  35.         過去ログ取得(htmltodat)=wscript "$BASEPATHhtmltodat-convert2.wsf" "$LINK$URL" "2ch_net"
  36.       を追加して上書き保存し終了する
  37.  
  38. 4) 過去ログを取得する
  39.     以下のa)~c)のどれかの手順で実行する
  40.  
  41.     ※ 一度でも該当スレを開いたことがある場合は、事前にログ削除して、a)、c)の手順で実行すればレス内容が表示されないということは起きない
  42.  
  43.     a) 別スレで表示されているURLのリンクを右クリックし、
  44.     b) 開いている該当する過去ログのスレ表示欄から右クリックし
  45.     c) 書き込みウィンドウやメモ欄でURLを書き込んだ後プレビューでリンクを右クリックし
  46.         ※既に開いたことがある場合は、ログ削除しないと「ここ壊れています」と表示される場合がある
  47.     上記3)で登録したコマンドを選択する
  48.     htmltodatが起動されて自動実行され、終了後過去スレが表示されるか、又は既に開いている過去スレにフォーカスが移る
  49.  
  50.     ※***************************************************************************************
  51.     ※ 【スレ内容が表示されない場合】
  52.     ※ 再描画(デフォルトのスレッドツールバーなら左から3つ目のアイコンを右クリック)を実行後、(一旦別スレに移動して戻るか)、
  53.     ※ 又は、一旦スレを閉じて開き直す(メニュー-ファイル-最近閉じたスレから)
  54.     ※***************************************************************************************
  55.  
  56. 5) なお、一連のファイルをJane2chフォルダ直下に置きたくない場合、以下のようにwsfファイルを修正する
  57.     例
  58.     Jane Style
  59.        ┗script
  60.          ┗htmltodat
  61.              ┗htmltodat-convert2.wsf
  62.    
  63.     ・command.datに
  64.     過去ログ取得(htmltodat)=wscript "$BASEPATHscript\htmltodat\htmltodat-convert2.wsf" "$LINK$URL" "2ch_net"
  65.    
  66.     ・htmltodat-convert2.wsf修正箇所
  67.     【13行目 挿入】
  68.     var base = (new ActiveXObject("WScript.Shell")).CurrentDirectory + "\\";
  69.     (new ActiveXObject("WScript.Shell")).CurrentDirectory = cur;
  70.    
  71.     【20行目 curをbaseに】
  72.     var log = GetProf("PATH", "LogBasePath", base, base + "Jane2ch.ini");
  73.    
  74.     【66行目 curをbaseに】
  75.     cmd.Run("\"" + base + "Jane2ch.exe\" " + "\"" + WScript.Arguments(0) + "\"");
  76.  
  77. 6) スレタイトルを正常なタイトルに設定し直す方法
  78.     以前のprmファイルを使っていて、スレタイトルが「2ちゃんねる専用ブラウザをご利用の皆さまへ」になってしまうと
  79.     ログを削除して新しいprmファイルで取得しなおしてもスレタイトルは変更されません
  80.    
  81.     対処方法
  82.         Jane Styleを終了させ、エクスプローラから直接目的のログファイルの格納されているフォルダを見る
  83.         そこにある [スレッド-ID].idx ファイルと BoardDB.db ファイルを削除する
  84.         Jane Styleを起動する
  85.  
  86.  
  87. ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
  88. ※以下をコピー&ペーストする場合は、行番号が表示されていない RAW Paste Data 又は メニュー RAW で表示した後で
  89.   コピーするか 又は、一旦左上のメニューから DOWNLOAD してからメモ帖などで開いてコピーしてください
  90.     以下の05系と06系は一緒のファイルに入れないでファイルを分けてください
  91.     また、切り取り線はコピーしないでください
  92.       ※初出元  http://jbbs.shitaraba.net/bbs/read.cgi/computer/1929/1038588508/934
  93.                 http://jbbs.shitaraba.net/bbs/read.cgi/computer/1929/1038588508/936
  94.  
  95.  
  96. ━━━━━━ prmファイル設定内容 : ここから read.cgi ver 06系(新サーバー potato/tamae/hanabi)━━━━━━━
  97. コメント:
  98. # 2chのread.cgiからの出力を変換-20151208
  99. # 2chのcgi仕様変更(06系)に対応
  100. # まだ今後の推移が読めないので様子見バージョン
  101.  
  102. HTTPヘッダの追加:
  103. User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; LCJB; rv:11.0) like Gecko
  104.  
  105. URLの変換:
  106. s#http://(.+?)/test/read\.cgi/(.+?)/(\d+)/?.*#http://$1/test/read.cgi/$2/$3/#
  107.  
  108. アンカー削除:
  109. false
  110.  
  111. プレビューを表示しない:
  112. true
  113.  
  114. 後処理:
  115. # BE周りの処置
  116. s#<img src="http://(img\.2ch\.net/.+?)">#sssp://$1#igk
  117. s#</div><div class="be .*?><a href="http://be\.2ch\.net/user/(\d+).*?>\?(.*?)</a># BE:$1-$2#ig
  118. # jump.2chは無駄なので取っ払う
  119. s#<a href="http://jump\.2ch\.net.*?>(.*?)</a>#$1#igk
  120. # フルパスを相対パスに変換(やらなくても問題ないかもしれないが一応昔の仕様に合わせる)
  121. s#<a href="http://.*?\.2ch\.net/(test/read\.cgi/.*?/\d+/\d+)#<a href="../$1#igk
  122. s#<a href="http.*?>(.*?)</a>#$1#igk
  123. # お絵かき機能のimgタグを除去
  124. s#<img src="(.*?)">#$1#igk
  125.  
  126. 正規表現:
  127. m#<div\ class="number">([0-9]+).+?<div\ class="name"><b>(?:<a\ href="mailto:(.*?)">)?(.*?)(?:</a>)?</b></div><div\ class="date">(.*?)</div><div\ class="message">(.*?)</div>#mi
  128. ━━━━━━ prmファイル設定内容 : ここまで ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
  129.  
  130.  
  131.  
  132.  
  133. ━━━━━━ prmファイル設定内容 : ここから read.cgi ver 05系(旧サーバー)━━━━━━━━━━━━━━━━
  134. コメント:
  135. # 2chのread.cgi 05系からの出力を変換-20151209
  136. # 元datに近づけるためアンカー削除はオフにし
  137. # 後処理で不要なもののみ削除する
  138. # メール欄デコード処理は不要になったので削除
  139. # バナー広告にマッチしないよう正規表現を修正
  140.  
  141. HTTPヘッダの追加:
  142. User-Agent: Mozilla/5.0 (Windows NT 6.3; WOW64; Trident/7.0; LCJB; rv:11.0) like Gecko
  143.  
  144. URLの変換:
  145. s#http://(.+?)/test/read\.cgi/(.+?)/(\d+)/?.*#http://$1/test/read.cgi/$2/$3/#
  146.  
  147. アンカー削除:
  148. false
  149.  
  150. プレビューを表示しない:
  151. true
  152.  
  153. 後処理:
  154. # アンカータグ削除(レスアンカーに対するタグは削除しない)
  155. s#<a href="http.*?>(.*?)</a>#$1#igk
  156. # BE周りの処置
  157. s#<img src="http://(img\.2ch\.net/.+?)">#sssp://$1#igk
  158. # 以下はhtmltodatの内部処理に組み込まれているので不要
  159. #s#<a href=.?javascript:be\((\d+)(?:,\d+)?\).*?>\?(.*?)</a>#BE:$1-$2#igk
  160.  
  161. 正規表現:
  162. m#<dt.*?>([0-9]+).+?(?:"mailto:(.+?)">)?<b>(.+?)</b>(?:</font>|</a>) ?:(.*?)<dd>(.*?)<br><br>(<dt.*?>|</dl>|<div)#mi
  163. ━━━━━━ prmファイル設定内容 : ここまで ━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
RAW Paste Data
Top