From ef77a256de527f6d00212839e55f949024f2e7bc Mon Sep 17 00:00:00 2001 From: Tomofumi Yagi Date: Wed, 16 Sep 2020 18:11:22 +0900 Subject: tdf#60145 sw: fix UTF-8 encoding without BOM is not detected Writer can now detect Unicode type even if importing text file does not have a BOM. Change-Id: I70fa4145672d855f9ef9df040a930ff5d1564905 Reviewed-on: https://gerrit.libreoffice.org/c/core/+/102884 Tested-by: Jenkins Reviewed-by: Eike Rathke Reviewed-by: Michael Stahl --- sw/qa/extras/txtimport/data/UTF16BEWITHBOM.txt | Bin 0 -> 1290 bytes sw/qa/extras/txtimport/data/UTF16BEWITHOUTBOM.txt | Bin 0 -> 1288 bytes sw/qa/extras/txtimport/data/UTF16LEWITHBOM.txt | Bin 0 -> 1290 bytes sw/qa/extras/txtimport/data/UTF16LEWITHOUTBOM.txt | Bin 0 -> 1288 bytes sw/qa/extras/txtimport/data/UTF8WITHBOM.txt | 2 + sw/qa/extras/txtimport/data/UTF8WITHOUTBOM.txt | 2 + sw/qa/extras/txtimport/data/bullets.odt | Bin 0 -> 10379 bytes sw/qa/extras/txtimport/txtimport.cxx | 155 ++++++++++++++++++++++ 8 files changed, 159 insertions(+) create mode 100755 sw/qa/extras/txtimport/data/UTF16BEWITHBOM.txt create mode 100755 sw/qa/extras/txtimport/data/UTF16BEWITHOUTBOM.txt create mode 100755 sw/qa/extras/txtimport/data/UTF16LEWITHBOM.txt create mode 100755 sw/qa/extras/txtimport/data/UTF16LEWITHOUTBOM.txt create mode 100755 sw/qa/extras/txtimport/data/UTF8WITHBOM.txt create mode 100755 sw/qa/extras/txtimport/data/UTF8WITHOUTBOM.txt create mode 100644 sw/qa/extras/txtimport/data/bullets.odt create mode 100644 sw/qa/extras/txtimport/txtimport.cxx (limited to 'sw/qa/extras/txtimport') diff --git a/sw/qa/extras/txtimport/data/UTF16BEWITHBOM.txt b/sw/qa/extras/txtimport/data/UTF16BEWITHBOM.txt new file mode 100755 index 000000000000..2e0455704058 Binary files /dev/null and b/sw/qa/extras/txtimport/data/UTF16BEWITHBOM.txt differ diff --git a/sw/qa/extras/txtimport/data/UTF16BEWITHOUTBOM.txt b/sw/qa/extras/txtimport/data/UTF16BEWITHOUTBOM.txt new file mode 100755 index 000000000000..0551ae547521 Binary files /dev/null and b/sw/qa/extras/txtimport/data/UTF16BEWITHOUTBOM.txt differ diff --git a/sw/qa/extras/txtimport/data/UTF16LEWITHBOM.txt b/sw/qa/extras/txtimport/data/UTF16LEWITHBOM.txt new file mode 100755 index 000000000000..43ed8143ef9b Binary files /dev/null and b/sw/qa/extras/txtimport/data/UTF16LEWITHBOM.txt differ diff --git a/sw/qa/extras/txtimport/data/UTF16LEWITHOUTBOM.txt b/sw/qa/extras/txtimport/data/UTF16LEWITHOUTBOM.txt new file mode 100755 index 000000000000..d2cc98e785ce Binary files /dev/null and b/sw/qa/extras/txtimport/data/UTF16LEWITHOUTBOM.txt differ diff --git a/sw/qa/extras/txtimport/data/UTF8WITHBOM.txt b/sw/qa/extras/txtimport/data/UTF8WITHBOM.txt new file mode 100755 index 000000000000..afd812fe6ff3 --- /dev/null +++ b/sw/qa/extras/txtimport/data/UTF8WITHBOM.txt @@ -0,0 +1,2 @@ +漢a' +彼は背後にひそかな足音を聞いた。それはあまり良い意味を示すものではない。誰がこんな夜更けに、しかもこんな街灯のお粗末な港街の狭い小道で彼をつけて来るというのだ。人生の航路を捻じ曲げ、その獲物と共に立ち去ろうとしている、その丁度今。 彼のこの仕事への恐れを和らげるために、数多い仲間の中に同じ考えを抱き、彼を見守り、待っている者がいるというのか。それとも背後の足音の主は、この街に無数にいる法監視役で、強靭な罰をすぐにも彼の手首にガシャンと下すというのか。彼は足音が止まったことに気が着いた。あわてて辺りを見回す。ふと狭い抜け道に目が止まる。 彼は素早く右に身を翻し、建物の間に消え去った。その時彼は、もう少しで道の真中に転がっていたごみバケツに躓き転ぶところだった。 彼は暗闇の中で道を確かめようとじっと見つめた。どうやら自分の通ってきた道以外にこの中庭からの出道はないようだ。 足音はだんだん近づき、彼には角を曲がる黒い人影が見えた。彼の目は夜の闇の中を必死にさまよい、逃げ道を探す。もうすべては終わりなのか。すべての苦労と準備は水の泡だというのか。 突然、彼の横で扉が風に揺らぎ、ほんのわずかにきしむのを聞いた時、彼は背中を壁に押し付け、追跡者に見付けられないことを願った。この扉は望みの綱として投げかけられた、彼のジレンマからの出口なのだろうか。背中を壁にぴったり押し付けたまま、ゆっくりと彼は開いている扉の方へと身を動かして行った。この扉は彼の救いとなるのだろうか。 diff --git a/sw/qa/extras/txtimport/data/UTF8WITHOUTBOM.txt b/sw/qa/extras/txtimport/data/UTF8WITHOUTBOM.txt new file mode 100755 index 000000000000..b8362e9e789f --- /dev/null +++ b/sw/qa/extras/txtimport/data/UTF8WITHOUTBOM.txt @@ -0,0 +1,2 @@ +漢a' +彼は背後にひそかな足音を聞いた。それはあまり良い意味を示すものではない。誰がこんな夜更けに、しかもこんな街灯のお粗末な港街の狭い小道で彼をつけて来るというのだ。人生の航路を捻じ曲げ、その獲物と共に立ち去ろうとしている、その丁度今。 彼のこの仕事への恐れを和らげるために、数多い仲間の中に同じ考えを抱き、彼を見守り、待っている者がいるというのか。それとも背後の足音の主は、この街に無数にいる法監視役で、強靭な罰をすぐにも彼の手首にガシャンと下すというのか。彼は足音が止まったことに気が着いた。あわてて辺りを見回す。ふと狭い抜け道に目が止まる。 彼は素早く右に身を翻し、建物の間に消え去った。その時彼は、もう少しで道の真中に転がっていたごみバケツに躓き転ぶところだった。 彼は暗闇の中で道を確かめようとじっと見つめた。どうやら自分の通ってきた道以外にこの中庭からの出道はないようだ。 足音はだんだん近づき、彼には角を曲がる黒い人影が見えた。彼の目は夜の闇の中を必死にさまよい、逃げ道を探す。もうすべては終わりなのか。すべての苦労と準備は水の泡だというのか。 突然、彼の横で扉が風に揺らぎ、ほんのわずかにきしむのを聞いた時、彼は背中を壁に押し付け、追跡者に見付けられないことを願った。この扉は望みの綱として投げかけられた、彼のジレンマからの出口なのだろうか。背中を壁にぴったり押し付けたまま、ゆっくりと彼は開いている扉の方へと身を動かして行った。この扉は彼の救いとなるのだろうか。 diff --git a/sw/qa/extras/txtimport/data/bullets.odt b/sw/qa/extras/txtimport/data/bullets.odt new file mode 100644 index 000000000000..43e0c2123ffc Binary files /dev/null and b/sw/qa/extras/txtimport/data/bullets.odt differ diff --git a/sw/qa/extras/txtimport/txtimport.cxx b/sw/qa/extras/txtimport/txtimport.cxx new file mode 100644 index 000000000000..a97242641df8 --- /dev/null +++ b/sw/qa/extras/txtimport/txtimport.cxx @@ -0,0 +1,155 @@ +/* -*- Mode: C++; tab-width: 4; indent-tabs-mode: nil; c-basic-offset: 4 -*- */ +/* + * This file is part of the LibreOffice project. + * + * This Source Code Form is subject to the terms of the Mozilla Public + * License, v. 2.0. If a copy of the MPL was not distributed with this + * file, You can obtain one at http://mozilla.org/MPL/2.0/. + */ + +#include + +#include +#include +#include +#include +#include + +class TxtImportTest : public SwModelTestBase +{ +public: + TxtImportTest() + : SwModelTestBase("/sw/qa/extras/txtimport/data/", "Text") + { + } + + // Export & assert part of the document (defined by SwPaM). + void assertExportedRange(const OString& aExpected, SwPaM& rPaM) + { + WriterRef rAsciiWriter; + SwReaderWriter::GetWriter(FILTER_TEXT, OUString(), rAsciiWriter); + CPPUNIT_ASSERT(rAsciiWriter.is()); + + // no start char + rAsciiWriter->m_bUCS2_WithStartChar = false; + + SvMemoryStream aMemoryStream; + + SwWriter aWriter(aMemoryStream, rPaM); + ErrCode nError = aWriter.Write(rAsciiWriter); + CPPUNIT_ASSERT_EQUAL(ERRCODE_NONE, nError); + + const char* pData = static_cast(aMemoryStream.GetData()); + OString aResult(pData, aMemoryStream.GetSize()); + + CPPUNIT_ASSERT_EQUAL(aExpected, aResult); + } +}; + +#define DECLARE_TXTIMPORT_TEST(TestName, filename) \ + DECLARE_SW_IMPORT_TEST(TestName, filename, nullptr, TxtImportTest) + +DECLARE_TXTIMPORT_TEST(testTdf112191, "bullets.odt") +{ + SwXTextDocument* pTextDoc = dynamic_cast(mxComponent.get()); + CPPUNIT_ASSERT(pTextDoc); + SwDoc* pDoc = pTextDoc->GetDocShell()->GetDoc(); + CPPUNIT_ASSERT(pDoc); + + // just the 5th paragraph - no bullet + uno::Reference xPara(getParagraph(5)); + SwUnoInternalPaM aPaM(*pDoc); + bool bSuccess = sw::XTextRangeToSwPaM(aPaM, xPara); + CPPUNIT_ASSERT(bSuccess); + + assertExportedRange("First bullet", aPaM); + + // but when we extend to the next paragraph - now there are bullets + xPara = getParagraph(6); + SwUnoInternalPaM aPaM2(*pDoc); + bSuccess = sw::XTextRangeToSwPaM(aPaM2, xPara); + CPPUNIT_ASSERT(bSuccess); + + OUString aString = OStringToOUString(" \xe2\x80\xa2 First bullet" SAL_NEWLINE_STRING + " \xe2\x80\xa2 Second bullet", + RTL_TEXTENCODING_UTF8); + + SwPaM aPaM3(*aPaM2.GetMark(), *aPaM.GetPoint()); + assertExportedRange(OUStringToOString(aString, osl_getThreadTextEncoding()), aPaM3); +} + +DECLARE_TXTIMPORT_TEST(testTdf60145_utf8withoutbom, "UTF8WITHOUTBOM.txt") +{ + SwXTextDocument* pTextDoc = dynamic_cast(mxComponent.get()); + CPPUNIT_ASSERT(pTextDoc); + SwDoc* pDoc = pTextDoc->GetDocShell()->GetDoc(); + CPPUNIT_ASSERT(pDoc); + + uno::Reference xPara(getParagraph(1)); + + CPPUNIT_ASSERT_EQUAL(OUString(u"漢a'"), xPara->getString()); +} + +DECLARE_TXTIMPORT_TEST(testTdf60145_utf8withbom, "UTF8WITHBOM.txt") +{ + SwXTextDocument* pTextDoc = dynamic_cast(mxComponent.get()); + CPPUNIT_ASSERT(pTextDoc); + SwDoc* pDoc = pTextDoc->GetDocShell()->GetDoc(); + CPPUNIT_ASSERT(pDoc); + + uno::Reference xPara(getParagraph(1)); + + CPPUNIT_ASSERT_EQUAL(OUString(u"漢a'"), xPara->getString()); +} + +DECLARE_TXTIMPORT_TEST(testTdf60145_utf16lewithoutbom, "UTF16LEWITHOUTBOM.txt") +{ + SwXTextDocument* pTextDoc = dynamic_cast(mxComponent.get()); + CPPUNIT_ASSERT(pTextDoc); + SwDoc* pDoc = pTextDoc->GetDocShell()->GetDoc(); + CPPUNIT_ASSERT(pDoc); + + uno::Reference xPara(getParagraph(1)); + + CPPUNIT_ASSERT_EQUAL(OUString(u"漢a'"), xPara->getString()); +} + +DECLARE_TXTIMPORT_TEST(testTdf60145_utf16lewithbom, "UTF16LEWITHBOM.txt") +{ + SwXTextDocument* pTextDoc = dynamic_cast(mxComponent.get()); + CPPUNIT_ASSERT(pTextDoc); + SwDoc* pDoc = pTextDoc->GetDocShell()->GetDoc(); + CPPUNIT_ASSERT(pDoc); + + uno::Reference xPara(getParagraph(1)); + + CPPUNIT_ASSERT_EQUAL(OUString(u"漢a'"), xPara->getString()); +} + +DECLARE_TXTIMPORT_TEST(testTdf60145_utf16bewithoutbom, "UTF16BEWITHOUTBOM.txt") +{ + SwXTextDocument* pTextDoc = dynamic_cast(mxComponent.get()); + CPPUNIT_ASSERT(pTextDoc); + SwDoc* pDoc = pTextDoc->GetDocShell()->GetDoc(); + CPPUNIT_ASSERT(pDoc); + + uno::Reference xPara(getParagraph(1)); + + CPPUNIT_ASSERT_EQUAL(OUString(u"漢a'"), xPara->getString()); +} + +DECLARE_TXTIMPORT_TEST(testTdf60145_utf16bewithbom, "UTF16BEWITHBOM.txt") +{ + SwXTextDocument* pTextDoc = dynamic_cast(mxComponent.get()); + CPPUNIT_ASSERT(pTextDoc); + SwDoc* pDoc = pTextDoc->GetDocShell()->GetDoc(); + CPPUNIT_ASSERT(pDoc); + + uno::Reference xPara(getParagraph(1)); + + CPPUNIT_ASSERT_EQUAL(OUString(u"漢a'"), xPara->getString()); +} + +CPPUNIT_PLUGIN_IMPLEMENT(); + +/* vim:set shiftwidth=4 softtabstop=4 expandtab: */ -- cgit